Slide 1

Slide 1 text

【論文紹介】 Learning Named Entity Tagger using Domain-Specific Dictionary Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Group ⾼橋 寛治 @kanji250tr 【Sansan×エムスリー】 自然言語処理(2019/04/24)

Slide 2

Slide 2 text

いきなり!固有表現(Named Entity) 自然言語で記述されたテキスト中に含まれている組織名や人名、日付け表現 など、定義に従ったチャンクのこと 1 Sansan株式会社 の 高橋寛治 が 2019年4月26日 に本発表を行います。 固有表現抽出とは、これら固有表現をテキスト中から抽出すること 組織名 ⼈名 ⽇付

Slide 3

Slide 3 text

Distant Supervision 何かしらのラベル付きデータを使って、別のラベルなしデータに対して学習 データとして利用できるようにラベルを付与し、モデルを学習する方法 [Mintz et al., 2009] 2 ラベル付きデータ 別データにラベル付与 モデルの学習 企業名 代表取締役 Sansan株式会社 寺田親弘 ・・・ ・・・ Sansan株式会社の代表取 締役である寺田親弘は、 名刺管理に課題を感じて いました。 固有表現抽出器

Slide 4

Slide 4 text

目次 コーパスへのアノテーションが不要な固有表現抽出の論文を紹介 Shang, Jingbo & Liu, Liyuan & Ren, Xiang & Gu, Xiaotao & Ren, Teng & Han, Jiawei. Learning Named Entity Tagger using Domain-Specific Dictionary. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2054–2064. 2018 上記提案手法を日本語の組織名抽出に試してみた Precision:0.47, Recall:0.55 僕の考えた最強のルールベースには及ばず・・・ ※図表は論⽂より引⽤しています

Slide 5

Slide 5 text

論⽂紹介 Learning Named Entity Tagger using Domain-Specific Dictionary 4

Slide 6

Slide 6 text

ざっくり言うと 辞書ベースのDistant Supervisionによる固有表現抽出器の提案 教師データの作成が不要である コーパスを用いた辞書整備や固有表現の認識手法に工夫 辞書や高品質な拡張語彙を使う トークン間を固有表現として結合するかどうかを判定するTie or Breakと 呼ぶ機構を提案 医療分野において教師あり学習や特徴量エンジニアリングと同等性能 辞書とコーパスさえあれば、固有表現が抽出できることを示した

Slide 7

Slide 7 text

はじめに 固有表現抽出には 人手(ドメインの専門家)の労力がかかる CRFによる手法では、凝った特徴量設計 深層学習だと人手により作られた大量の学習データ 人手の労力を削減する方法としてDistant Supervision 様々なNLPタスクで成功 WikiDataやMeSHなどデータ公開が盛んになり、学習データを作りやすい状況 これまでのヒューリスティクスに基づくDistant Supervisionで十分か? マッチするトークンしか処理しないため、偽陰性が発生 6

Slide 8

Slide 8 text

論文の提案 辞書整備 コーパス内で正式名称が使われている語のみ利用 辞書にないフレーズを自動抽出し、固有表現の可能性がある “Unknown” ラベルを付与する Distant Supervisionにより疑似的に作成したデータに対応するために 予測するラベルを変更 トークン間をつなげるかつなげないかを推定(Tie or Break) 文中のトークンには複数のラベルが付与できる機構にする 7

Slide 9

Slide 9 text

Tie or Breakによるタグ付けのイメージ 8 ceramic unibodyは辞書 トークンが同じ固有表現か違うかをラベル付けする⽅法 Tie, Unknown, Breakの3ラベルを付与 8GB RAMは⾃動抽出フレーズ

Slide 10

Slide 10 text

Tie or Breakのお気持ち Unigramの偽陽性を軽減する withが辞書にあった場合に、Unigramのものは周囲にBreakがつくだけ 9

Slide 11

Slide 11 text

AutoNERでは二段階にわけて推定 固有表現の領域推定 TieからBreakを区別する二値分類器を作成 Unknownは推定せず、飛ばす BiLSTMの出力を素性 ui とする 10 素性ui がBreakである確率 パラータwと素性ui のソフトマックス 領域推定におけるロス Unknownタグを除いた推定タグ 実際のタグと推定タグのロジスティック損失 Break?

Slide 12

Slide 12 text

AutoNERでは二段階にわけて推定 固有表現候補の種類推定 11 BiLSTMの出⼒vi に対するタグtj のソフトマックス 交差エントロピー誤差で複数のタイプを考慮 δ(Distant Supervisionによりtjとしてラベル付けさ れていると1) Lはタグ集合

Slide 13

Slide 13 text

よりDistant Supervisionの効果を引き出す コーパスに基づく辞書整備 辞書マッチで疑似アノテーションをするため、偽陽性をどう防ぐか コーパス内で正式名称が出ない語は辞書から除外 偽陰性を減らすためのフレーズセットの作成 AutoPhrase[Shang et al., 2018]の方法で高品質なフレーズを抽出 フレーズをUnknown-Typeとしてアノテーションに利用する 12

Slide 14

Slide 14 text

実験 13 提案手法といくつかの手法で比較 データセットは次の表の3つで比較(辞書もあわせて用意) PubMedとWiki 分散表現 PubMedとWiki WikiとGigaWord

Slide 15

Slide 15 text

結果:教師ありに匹敵する性能 14

Slide 16

Slide 16 text

結果:教師ありには及ばないが、ほか手法よりも健闘 15

Slide 17

Slide 17 text

コーパスに基づいた辞書整備や、それらしいフレーズ追加は有効 16 Distant Supervisionの⽂数による性能⽐較

Slide 18

Slide 18 text

Gold Supervisionとの比較 17 専⾨家が約300⽂⽤意したアノテーションと同等性能

Slide 19

Slide 19 text

まとめ 辞書とコーパスを用意することで、Distant Supervisionにより固有表現抽 出器構築 Tie or Break 機構がDistant Supervisionと相性がよさそう 18 辞書の利用で教師あり学習のSOTAと同等の性能を達成

Slide 20

Slide 20 text

ためしてみた 19

Slide 21

Slide 21 text

企業ニュースの配信 名刺交換をした相手に関するニュースを配信 Web上の各ニュースサイトから最新の企業ニュースを自動で取得 20 図は日本経済新聞より引用 ニュース配信 名刺を取り込むだけで ニュースが読める! 企業名抽出

Slide 22

Slide 22 text

ニューステキストからの企業名抽出タスクにAutoNERを試してみる 21 ラベル付きデータ 別データにラベル付与 モデルの学習 企業名正式名称 企業名 Sansan株式会社 Sansan ・・・ ・・・ Sansan株式会社の代表取 締役である寺田親弘は、 名刺管理に課題を感じて いました。 固有表現抽出器 フレーズ抽出は使わず辞書とコーパスで実験

Slide 23

Slide 23 text

結果 辞書とコーパスを用意するだけで F値 0.5 はすごいがSOTAならず・・・ AutoPhraseが使えなかったので、工夫するともっと上がると考えれる 22 手法 適合率 再現率 F値 AutoNER(辞書のみ) 0.47 0.55 0.51 僕の考えた最強の ルールベース 0.88 0.67 0.76

Slide 24

Slide 24 text

おわりに 23

Slide 25

Slide 25 text

おわりに 教師データを使わずに固有表現抽出を行う手法の紹介 SOTA相当の性能を達成 辞書とコーパスがあれば作れる Sansanでの組織名抽出に応用してみた 僕の考えた最強のルールベースにはかなわなかったが、労力かけずにいい性能 個人的なポエム 商用利用可能な日本語固有表現抽出器作りたい 24