Slide 19
Slide 19 text
アルゴリズムなど
➢ 記事データ
○ マークダウン形式で GitHub で管理されている
○ “
例) 複数のプログラミング言語の複数バージョンを...”
➢ Janome で形態素解析
○ Mecab よりセットアップが簡単な Janome を使って形態素解析する
○ 例)[“ ”
複数 , “ ”
の , “ ”
プログラミング , “ ”
言語 , “ ”
の , “ ”
複数 , “ ”
バージョン , “ ”
を , …]
➢ scikit-learn を使い、TF-IDF で文書をベクトル化
○ TF(Term Frequency):単語の出現頻度
○ IDF(Inverse Document Frequency):逆文書頻度
○ 例) [0.17544636, 0, 0, 0, 0.07192097, 0, 0, 0, ...]
➢ scikit-learn を使い、2 種類の方法で類似記事を算出
○ k 平均法:非階層型クラスタリングアルゴリズム
○ コサイン類似度:ベクトルの向きの近さの指標
コサイン類似度のヒートマップ
(今回の実装での出力結果)
k 平均法のイメージ図
(scikit-learn のドキュメントを参考に作成
https://scikit-learn.org/stable/auto_examples/cluste
r/plot_mini_batch_kmeans.html
)