project yamcha phase 1

やみつき飲茶な熱帯夜 Project yamcha phase 1 2018/09/11 いとぅー

あうとらいん • 目的 • 理論 • 手法 • 結果 •
考察 • 今後の展望

目的人事が今までにスカウトを打った学生と似ている学生をキャッチコピーを使って探し出す。つまりキャッチコピーが似ている人を探し当てたい。

目的人事が今までにスカウトを打った学生と似ている学生をキャッチコピーを使って探し出す。つまりキャッチコピーが似ている人を探し当てたい。自然言語において「似ている」とは数学的にどういうことか？

自然言語において「似ている」とは、文章をベクトルに変換し、そのベクトル同士の類似度を測る。 doc2vecという手法を使うが、 doc2vecについて説明するためにまずword2vecについて説明する。理論

理論 word2vecのせつめー word2vecとは... 大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法　 ↑これを「単語の分散表現を得る」という単語をベクトル化することで、・単語同士の意味の近さを計算・単語同士の意味を足したり引いたりということが可能になる。

理論 word2vecのせつめー word2vecとは... 大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法　 ↑これを「単語の分散表現を得る」という単語をベクトル化することで、・単語同士の意味の近さを計算・単語同士の意味を足したり引いたりということが可能になる。
king - man + woman = queen　となる！！！

理論 word2vecのせつめー word2vecとは... 大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法　 ←これを「単語の分散表現を得る」という単語をベクトル化することで、・単語同士の意味の近さを計算・単語同士の意味を足したり引いたりということが可能になる。
king - man + woman = queen　となる！！！ word2vecを文章レベルに拡張したものがdoc2vecである

理論ベクトルの類似度を測るにはコサイン類似度を使う。 cosθが・1ならベクトルの方向が一致、・-1なら方向が真逆ということになる θ θ

手法 • 使用したデータ　TRUNKのレジュメに記入されたユーザーのキャッチコピーと自己紹介 • データセットの作り方　キャッチコピーと自己紹介をただ学習させるのか、　同じ文脈としてstringをくっつくる方がよいのか。 • 特徴量の作り方
　全ての単語を使用するか、　名詞のみ取り出すか、　名詞と動詞を取り出すか。

結果 jupyter notebookをご覧ください

結果 • 単語は名詞と動詞と形容詞を取り出して使うのがよい • データセットはシンプルにキャッチコピーと自己紹介を学習させるのがよい

考察 & 反省まとめ • 「似ている」とされたキャッチコピーは「なんとなく似てるかも...？」「うーん」「あー」くらいなものが取ってこれた。 →テキストデータが増えればここの精度は上がるはず • 逆に「似ていない」とされたキャッチコピーはしっかり似ていない明らかに「ちげーな」って思うやつははじくことができた
• データ整形の時間を辞書追加の時間にすればよかった

• 「なんとなく近いかも」くらいなものを取り出すことに成功したので、現状のものをAPI化してプロダクトに埋め込む • API化に向けてコードを書き直す • それに伴って発生する課題 ◦ 新しいユーザーが追加される →学習し直すタイミング
◦ キャッチコピーや自己紹介が更新された時の旧文章の扱い今後の展望と課題

project yamcha phase 1

project yamcha phase 1

andmohiko

More Decks by andmohiko

Other Decks in Programming

Featured

Transcript

やみつき飲茶な熱帯夜 Project yamcha phase 1 2018/09/11 いとぅー

あうとらいん • 目的 • 理論 • 手法 • 結果 •

目的人事が今までにスカウトを打った学生と似ている学生をキャッチコピーを使って探し出す。つまりキャッチコピーが似ている人を探し当てたい。

目的人事が今までにスカウトを打った学生と似ている学生をキャッチコピーを使って探し出す。つまりキャッチコピーが似ている人を探し当てたい。自然言語において「似ている」とは数学的にどういうことか？

自然言語において「似ている」とは、文章をベクトルに変換し、そのベクトル同士の類似度を測る。 doc2vecという手法を使うが、 doc2vecについて説明するためにまずword2vecについて説明する。理論

理論ベクトルの類似度を測るにはコサイン類似度を使う。 cosθが・1ならベクトルの方向が一致、・-1なら方向が真逆ということになる θ θ

結果 jupyter notebookをご覧ください

結果 • 単語は名詞と動詞と形容詞を取り出して使うのがよい • データセットはシンプルにキャッチコピーと自己紹介を学習させるのがよい