実践！AllenNLPによるディープラーニングを用いた自然言語処理

Slide 1

Slide 1 text

山田育矢 (Ikuya Yamada) Studio Ousia / RIKEN AIP 自然言語処理実践！によるディープラーニングを用いた

Slide 2

Slide 2 text

自己紹介山田育矢 (@ikuyamada) ソフトウェアエンジニア、起業家 Studio Ousia 共同創業者 Chief Scientist 理化学研究所AIP 客員研究員（知識獲得チーム、言語情報アクセス技術チーム） ● 大学入学時に、学生ベンチャー企業を起業し売却（2000年〜2006年） ○ インターネットの基盤技術（ Peer to Peer通信におけるNAT越え問題）の研究開発を推進 ○ 売却先企業は株式上場 ● Studio Ousiaを共同創業し、自然言語処理に取り組む（2007年〜） ○ 質問応答を中心とした自然言語処理の研究開発を推進 ● プログラミングが好き（特にPython） ○ よく使うライブラリ：PyTorch、PyTorch-lightning、transformers、AllenNLP、 Wikipedia2Vec（自作） 2

Slide 3

Slide 3 text

本講演で目指すもの ● AllenNLPを用いて、ニューラルネットワーク（≒ディープラーニング）による自然言語処理のシステムを開発するために必要な知識を解説します ○ AllenNLPを使う上で必要なコンポーネントの解説 ○ AllenNLPを用いた応用タスクの解説（文書分類、感情分析、固有表現抽出） ● 解説する内容は、Google Colaboratoryで自分で動かすことができます ● ニューラルネットワークのモデルに関する解説はあまり行いません ○ 数式は登場しません：数学的な知識がなくても理解できる内容に留めています ○ ニューラルネットワークによる自然言語処理に関する良い和書が出版されていますので興味のある方はそちらを参照してください 3

Slide 4

Slide 4 text

ニューラルネットワークによる自然言語処理の日本語書籍深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ ) 自然言語処理のための深層学習 4

Slide 5

Slide 5 text

本講演から得られるもの ● エンジニアの方： AllenNLPを使った製品やプロトタイプの開発が始められるようになる ● 学生や研究者の方： AllenNLPを使って手法の実装や実験ができるようになる ● それ以外の方：自然言語処理のシステムがどのように動いているのか分かる主に自然言語処理に携わるエンジニア、学生、研究者を対象にしています 5

Slide 6

Slide 6 text

とは ● Allen Institute for Artiﬁcial Intelligenceという米国の研究機関が開発している Pythonで書かれたオープンソースのライブラリ ○ 2017年に公開された新しいライブラリだが、既に Facebook、Amazon、Airbnbなど、世界中のユーザに使われている ● ニューラルネットワークのライブラリとして幅広く使われている PyTorchをベースに開発されている ● 自然言語処理のシステムを開発することに特化して開発されており、実装の際に必要となる高レベルなコンポーネントが提供されている ○ 高度なニューラルネットワークのモデルを必要最低限の記述で開発できる 6

Slide 7

Slide 7 text

AllenNLPを使うメリット ● 自然言語処理のシステムの開発にあたって必要となる高レベルなコンポーネントが提供されている ● ほとんどのコンポーネントが拡張可能なように設計されており、必要な部分を必要になった際に拡張して開発できる ● コンポーネントはよくテストされていて、幅広いユーザに使われており、ある程度信頼して使うことができるよくテストされた高レベルなコンポーネントが提供されており必要に応じて拡張できる 7

Slide 8

Slide 8 text

AllenNLPを使うメリット ● 可読性が高い ● 開発工数が短い ● モデルや設定の変更がしやすい ● 実験管理がしやすい（設定ファイルと結果を保存しておくだけで良い） ● 開発担当者と実験担当者を分離できる JSONベースの設定ファイルを書くだけでコードを書かずにシステムを開発できる 8

Slide 9

Slide 9 text

AllenNLPを使うデメリット ● 高レベルなコンポーネントが提供されている反面、各コンポーネントの基本的な使い方が分からないと使えない ⇒この講演で解説します！ ● 新しい手法がサポートされていないことがある ○ 例）gradient accumulation、mixed precision、DistributedDataParallel等の訓練方法は、最近までサポートされていなかった ○ 最近は新しい手法も含め機能が揃ってきている ● コンポーネントを拡張したりするよりも自分で書いた方がはやい 9

Slide 10

Slide 10 text

AllenNLPで開発を行う際の2つの方法 ● Pythonを使う方法： AllenNLPをPythonライブラリとして用いて、処理をコードで記述する ● 設定ファイルを書く方法：設定ファイルを書くことでモデルの開発を行う設定ファイルを使ってシステムを開発し、必要に応じてコンポーネントをPythonで拡張すると良い 10

Slide 11

Slide 11 text

AllenNLPを用いて3種類の自然言語処理のシステムを開発します ● bag-of-embeddingsモデルによる文書分類 ○ AllenNLPをライブラリとして用いてPythonで開発 ○ 設定ファイルを使って開発 ● 畳み込みニューラルネットワークによる感情分析 ● [発展] BERTによる固有表現抽出これからの流れ 11

Slide 12

Slide 12 text

bag-of-embeddingsモデルによる文書分類 12

Slide 13

Slide 13 text

● 文書をあらかじめ定義されたカテゴリに対して分類するタスク ● 自然言語処理において古くからよく解かれている基本的なタスクの1つ ● 応用例： ○ メールをスパムか否かの2つのラベルに分類する ○ 医療カルテの内容から該当する病名に分類する文書分類とは文書分類モデルメールスパムスパムではない文書分類によるスパム検出の例 13

Slide 14

Slide 14 text

Livedoorニュースコーパスを用いた文書分類 ● Livedoorニュースから収集されたニュース記事に 9種類のラベルが付与された日本語のデータセット ● 記事に付与されたラベルは、ニュース記事を取得したサービスの名称に対応 ○ Livedoorニュース内の「ITライフハック」から収集された記事には「it-life-hack」というラベルが付与されているラベルサービス名称 dokujo-tsushin 独女通信 it-life-hack ITライフハック kaden-channel 家電チャンネル livedoor-homme livedoor HOMME movie-enter MOVIE ENTER peachy Peachy smax エスマックス sports-watch Sports Watch topic-news トピックニュース記事を入力としてラベルを予測するモデルを開発 14

Slide 15

Slide 15 text

bag-of-embeddingsモデル 1. 全ての単語に1つのベクトル（単語エンベディング）を割り当てる 2. 文書の特徴を含んだベクトル（特徴ベクトル）を、文書に含まれる単語の単語エンベディングをベクトルの各次元単位で加算した値として計算する 3. テキストの特徴ベクトルを使ってテキストの分類を行う文書分類でよく使われている単純なニューラルネットワークのモデル 15

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Google Colaboratoryのノートブックへ 17

Slide 18

Slide 18 text

畳み込みニューラルネットワークによる感情分析 18

Slide 19

Slide 19 text

感情分析とは ● テキストに紐付いた感情を分析する基本的な自然言語処理のタスク ● アンケート結果の集計やソーシャルメディアの解析などの用途で、幅広く使用されている感情分析モデル商品レビュー肯定的否定的実用的で非常に役に立つ本でした。買って損は無いと思います。 19

Slide 20

Slide 20 text

Amazon Reviewsデータセットを用いた感情分析 ● Amazonに蓄積されたユーザによる製品のレビューのデータセット ● 5段階のレビュー評価のうち、1と2を否定的、4と5を肯定的として二値分類のデータセットを作成元気がでます。聞くのを飛ばしたいと思う曲がなく全部好きです。 positive ほどよく難しくて楽しい。今でも息子の机の上に飾ってあります。 positive 前作がよかっただけにやるせない。全てにおいて中途半端。 negative レビューの内容が肯定的か否定的かを判別する感情分析のモデルを開発 20

Slide 21

Slide 21 text

感情分析では単語の並びが重要 21 この料理は価格が高くて美味しくないこの料理は美味しくて価格が高くない negative positive ● 「価格が高くて」「美味しくない」といった単語の並びを重点的に考慮する必要がある ● 上の2文は、含まれる単語が同じなので、bag-of-embeddingsモデルでは同じ特徴ベクトルとなってしまうため違いを区別できない

Slide 22

Slide 22 text

畳み込みニューラルネットワーク（CNN） 22 ● 画像処理において主に使われていたが、近年、自然言語処理でも頻繁に使われるようになった ● 畳み込みとプーリングの2つのステップで構成される「単語の並び」から特徴を抽出することが得意なニューラルネットワークのモデル

Slide 23

Slide 23 text

畳み込みニューラルネットワーク（CNN） 1. 畳み込み： ○ 入力ベクトル列（単語エンベディング列）に対して任意の幅の窓を順に移動させる ○ 窓に含まれる入力ベクトル列にフィルタを適用して特徴値をスカラー値で計算 2. プーリング： ○ 各フィルタが入力に対して出力した全ての値をプーリングしてスカラー値を計算 ■ 最大プーリング：最大値を出力 ■ 平均プーリング：平均して出力「この料理は美味しくない」という文に対して窓幅 2の畳み込みを適用した例 23

Slide 24

Slide 24 text

畳み込みニューラルネットワーク（CNN）「この料理は美味しくない」という文に対して窓幅 2の畳み込みを適用した例 24 1. 畳み込み： ○ 入力ベクトル列（単語エンベディング列）に対して任意の幅の窓を順に移動させる ○ 窓に含まれる入力ベクトル列にフィルタを適用して特徴値をスカラー値で計算 2. プーリング： ○ 各フィルタが入力に対して出力した全ての値をプーリングしてスカラー値を計算 ■ 最大プーリング：最大値を出力 ■ 平均プーリング：平均して出力

Slide 25

Slide 25 text

畳み込みニューラルネットワーク（CNN）「この料理は美味しくない」という文に対して窓幅 2の畳み込みを適用した例 25 1. 畳み込み： ○ 入力ベクトル列（単語エンベディング列）に対して任意の幅の窓を順に移動させる ○ 窓に含まれる入力ベクトル列にフィルタを適用して特徴値をスカラー値で計算 2. プーリング： ○ 各フィルタが入力に対して出力した全ての値をプーリングしてスカラー値を計算 ■ 最大プーリング：最大値を出力 ■ 平均プーリング：平均して出力

Slide 26

Slide 26 text

畳み込みニューラルネットワーク（CNN）「この料理は美味しくない」という文に対して窓幅 2の畳み込みを適用した例 26 1. 畳み込み： ○ 入力ベクトル列（単語エンベディング列）に対して任意の幅の窓を順に移動させる ○ 窓に含まれる入力ベクトル列にフィルタを適用して特徴値をスカラー値で計算 2. プーリング： ○ 各フィルタが入力に対して出力した全ての値をプーリングしてスカラー値を計算 ■ 最大プーリング：最大値を出力 ■ 平均プーリング：平均して出力

Slide 27

Slide 27 text

Slide 28

Slide 28 text

畳み込みニューラルネットワークによる感情分析 ● CNNでは、一般的に1つのモデルに複数の窓幅やフィルタを用いる ● プーリングを適用すると、フィルタごとに 1つのスカラー値が出力される ⇒窓幅×フィルタ次元の特徴ベクトルが出力される ● 特徴ベクトルを全結合層とソフトマックス関数に入力し、感情分析を行う畳み込みとプーリングで得られた特徴ベクトルを用いた感情分析 28

Slide 29

Slide 29 text

Google Colaboratoryのノートブックへ 29

Slide 30

Slide 30 text

[発展] BERTによる固有表現認識 30

Slide 31

Slide 31 text

固有表現認識とは 31 ● テキストから固有表現を抽出し、定義されたクラスに分類するタスク ○ 固有表現：固有名詞や日付、時間表現などの表現 ○ クラス：人名、地名、組織名など ● 単語の系列に対してBIO（Begin, Inside, Outside）形式のラベルを付与することで、固有表現認識を解くことができる ○ B ○ I ○ O ● BラベルとIラベルは、型名を連結してB-型名、I-型名のような形式にする（例：B-LOC、I-ORG）単語列に対して固有表現ラベルを付与した例：固有表現の開始位置：固有表現の内部：固有表現ではない

Slide 32

Slide 32 text

ウェブ文書リードコーパスを用いた固有表現認識 ● ウェブから取得した日本語文書の冒頭の3文に対して品詞や固有表現ラベル等のアノテーションが付与されたデータセット ● ニュース記事、百科事典記事、ブログ、商用ページなどで構成される ● 約5,000文書に対して人手でアノテーションを付与 32 ウェブ文書リードコーパスを用いた日本語固有表現認識モデルを作成する萩行正嗣, 河原大輔, 黒橋禎夫. 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析 , 自然言語処理, Vol.21, No.2, pp.213-248, 2014.

Slide 33

Slide 33 text

BERT 33 ● 入力した単語列（サブワード列）に対して文脈を考慮した単語エンベディング（contextualized word embeddings）を出力 ○ 従来の単語エンベディングは1単語に1つのベクトルを割り当てていたが、 BERTでは、入力毎に異なる単語エンベディングが出力される ○ 単語エンベディングを計算する際に文脈を考慮することで、単語の多義性の問題を自然に解決（例：マウス: 動物 or 入力デバイス） ● 文脈を考慮した単語エンベディングを出力する大規模なニューラルネットワークを大規模なデータで事前学習し、少しだけ追加学習（転移学習）してモデルを作る ● あらゆるタスクで高い性能を発揮し、自然言語処理の手法における標準的な選択に「文脈を考慮した」単語エンベディングを生成する訓練済みモデル

Slide 34

Slide 34 text

BERTの事前訓練: Masked Language Model ● テキスト中の単語をランダムに隠して、隠された単語を予測できるようにモデルを学習する ● 訓練データをテキストから自動生成できるため、ウェブやWikipedia等の大規模コーパスをそのまま訓練データとして使うことができる 34 Masked Language Model: テキストから自動生成した「穴埋め問題」を解かせることで事前学習を行う

Slide 35

Slide 35 text

BERTの事前訓練: 穴埋め問題の例 35 富士山は日本で一番高い山だ富士山は＿＿で一番高い山だ＿＿＿は日本で一番高い山だ富士山は日本で一番高い＿だ富士山＿日本で一番高い山だ

Slide 36

Slide 36 text

BERTによる固有表現認識 36 ● BERTの出力した単語エンベディングを使って、単語を固有表現ラベルに分類 ● ポイント：単語エンベディングは周辺文脈を含んでいるので、単語エンベディングだけで固有表現を認識できる例：京都：組織名（ORGANIZATION） or 地名（LOCATION）

Slide 37

Slide 37 text

Google Colaboratoryのノートブックへ 37

Slide 38

Slide 38 text

● 本講演の内容を書籍として来年初旬頃に出版する予定です『ディープラーニングによる実践自然言語処理』（共立出版）山田育矢・柴田知秀・玉木竜二・進藤裕之 ● 基本的な解説からBERTまで、ニューラルネットワークを用いた自然言語処理をPython + AllenNLPで動かしながら学べる書籍です ● この講演の内容は、この書籍の内容がベースになっており、共著者の皆様が作成されたソースコードや図を使わせていただきました宣伝 38

Slide 39

Slide 39 text

最後に ● 本講演で使用したGoogle Colaboratoryは、今後も随時内容を追加していく予定です ● 質問等あれば下記の連絡先までお気軽にご連絡ください！ [email protected] @ikuyamada 39