Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introduction to Natural Language Processing

Introduction to Natural Language Processing

フォーサイト AI 講座の自然言語処理部分のスライドです。
(収録は2018年9月)

YouTube 動画は以下で視聴できます。
https://goo.gl/F17nWo

Mamoru Komachi

April 09, 2019
Tweet

More Decks by Mamoru Komachi

Other Decks in Education

Transcript

  1. ⾃然⾔語処理とは • ⼈⼯的に設計された (プログラミング)⾔語 • HTML, XML • C, Java,

    Python • ⼈間が書いたり喋ったりする ⾔語 • ⽇本語, 英語 • ⼿話 2
  2. ⾃然⾔語処理の参考書籍 • 萩原正⼈・グラム=ニュービッグ・奥野陽 「⾃然⾔語処理の基本と技術」(翔泳社 2016) • 極⼒数式を⽤いずに解説 • 最先端に⾄るまでの実⽤的な話をもれなくカバー •

    ⿊橋禎夫 「⾃然⾔語処理」(放送⼤学教育振興会 2019) • 最先端のアルゴリズムも含め、詳しい数式も載っている • ラジオを無料で視聴できる 5
  3. 情報抽出: データベースの⾃動構築 スロットつきのテンプレート 「X(企業)が Y(⽇付)に Z(企業) を買収する」 構造化データ 買収先 Treasure

    Data 買収元 Arm ⽇付 2018/08/02 ⾦額 6億ドル 必要な技術 • 固有表現認識 • 関係抽出 • イベント情報抽出 9
  4. 索引付け: ⾼速に検索するためのデータ構造 ⽂書1 迷ったら、⼈と違う⽅を選ぶ ⽂書2 迷ったら、得しそう、ではなく、楽しそう、を選ぶ ⽂書3 迷ったら、より難しそうな⽅を選ぶ ⼈ 得

    ⽅ する 迷う 違う 選ぶ 楽しい 難しい ⽂書1 1 1 1 1 1 ⽂書2 1 1 1 1 1 ⽂書3 1 1 1 1 内容語(名詞・動詞・形容詞)の抽出 による⽂書索引語⾏列(転置索引)作成 16
  5. ブーリアンモデル: 適合するしないの2値 ⼈ 得 ⽅ する 迷う 違う 選ぶ 楽しい

    難しい ⽂書1 1 1 1 1 1 ⽂書2 1 1 1 1 1 ⽂書3 1 1 1 1 違う OR 難しい ↓ ⽂書1, ⽂書3 楽しい AND 得 ↓ ⽂書2 ⽅ NOT 難しい ↓ ⽂書1 17
  6. ベクトル空間モデル: 適合度を連続値で表現 • TF: 単語頻度; IDF: 逆⽂書頻度 2つのベクトルのなす⾓度がθ → cos

    θ を類似度に⽤いる ⼈ 得 ⽅ する 迷う 違う 選ぶ 楽しい 難しい ⽂書1 0.22 0.08 0 0.22 0 ⽂書2 0.22 0.22 0 0 0.22 ⽂書3 0.10 0 0 0.27 クエリ 0.22 0.10 クエリ「得する⽅」 cos(⽂書1, クエリ) = 0.10 cos(⽂書2, クエリ) = 0.53 → ⽂書2が近い cos(⽂書3, クエリ) = 0.14 18
  7. ニューラル機械翻訳による流暢な翻訳 ⼊⼒ Google ニューラル 機械翻訳 Google フレーズベース 統計的機械翻訳 私は悲しい映画は嫌い だ。

    I dislike sad movies. I am sad movie hate. 彼は刑事だ。 He is a detective. He is a criminal. 彼が来ようが来まいが、 私は⾏く。 I will go whether he will come or not. He will Koyo but come Mai, but I go. 彼は⽬をとしてそこに 座りました。 He sat there with his eyes wide open. He sat there as the eye. 29 OpenNMT-py によるニューラル機械翻訳演習 (https://goo.gl/KmQFLM)
  8. エンコーダ・デコーダモデルによる ニューラル機械翻訳 今⽇ 暑い です ね it is today hot

    ⼊⼒および出⼒の両⽅をベクトル化→⽂脈を考慮して1単語ずつ⽣成 エンコーダ デコーダ アテンション 単語分散表現 30
  9. word2vec: ベクトル空間モデルの発展 31 empire king man queen rule woman empire

    545 512 195 276 374 king 545 2330 689 799 1100 man 512 2330 915 593 2620 queen 195 689 915 448 708 rule 276 799 593 448 1170 woman 374 1100 2620 708 1170 She was the mother of Queen Elizabeth II . 周辺の⽂脈を予測するようなニューラルネットワークを学習することで、 単語ベクトルを学習する
  10. 単語ベクトルを組み合わせて系列変換 (sequence to sequence) で翻訳 • エンコーダ(符号化器)・デコーダ(復号器)アプローチ 33 深層学習 マジ

    やばい </s> DL is DL is really cool really cool </s> エ ン コ $ ダ デ コ $ ダ 原⾔語の単語ベク トルから⽂ベクト ルをエンコード
  11. ニューラル翻訳の弱点: 流暢性が⾼くても妥当性が低い • 消失 under-translation • ⼊⼒: ホームベーカリーの⽣地作りコースで⽣地を作る。 • NMT:

    Make the dough using the dough setting. • 挿⼊ over-translation • ⼊⼒: 紙に包んで • NMT: Wrap the cake in the cake paper • 重複 repetition • ⼊⼒: 2時間程度圧⼒をかけて炊きましたら、⼀度、鍋を開け て中を確認します。 • NMT: If you have time , eave to steam for about 2 hours, and open the pot, and open the pot to make sure theyʼre done. 35
  12. ⾃然⾔語処理は⾔語を⽤いて⼈間と知識 をつなぐインタフェースです ⾃然⾔語処理の基礎知識と応⽤ • コーパスと辞書 • 形態素解析 • 情報検索: ベクトル空間モデルとランキング

    • Web ⾃然⾔語処理: 機械学習を⽤いたアプリケーション 深層学習による⾃然⾔語処理 • word2vec • エンコーダ・デコーダモデル 41