Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

Sansan DSOC
September 12, 2020

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

■イベント 
:第48回 Machine Learning 15minutes! Broadcast
https://machine-learning15minutes.connpass.com/event/185507/

■登壇概要
タイトル:ニュース配信における固有表現抽出の取り組み
発表者: 
DSOC R&D研究員 高橋 寛治

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

September 12, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center 固有表現抽出 ⾃然⾔語で記述されたテキスト中に含まれている組織名や⼈名、 ⽇付け表現など、定義に従ったチャンクのこと Sansan株式会社 の

    ⾼橋寛治 が 2019年10⽉23⽇ に本発表を⾏います。 組織名 ⼈名 ⽇付 固有表現抽出とは、これら固有表現をテキスト中から抽出すること
  2. Data Strategy and Operation Center ルールベースの企業名抽出器 ※闇雲に企業名を追加しても、うまくいかない:髙橋 寛治, 奥⽥ 裕樹.

    辞書に基づく組織名抽出における辞書整備の影響. ⾔語処理学会 第26回年次⼤会 発表論⽂集, pp.1245-1248 確実に企業名と思われる⽂字列を抽出するために、辞書作りを⼯夫 ⽅法 1. 名刺交換枚全組織名をリストに持つ 2. 数が⼀定以上の組織の正式組織名を辞書に追加 • スコアは⽂字数に応じて変更 3. 再現率をあげるために、組織名から法⼈格を削除し、次の条件に合致するものを 辞書に追加 • 3⽂字以上 • 数字だけで構成されない • 形態素解析辞書の⼀般名詞と同じ⽂字列ではない
  3. Data Strategy and Operation Center 深層学習による固有表現抽出 ⽅針としては、BERT の事前学習モデルを fine tuning

    する 具体的には、⼊⼒されたトークン列に対して、それぞれにクラス分類を⾏う 以前は Bidirectional LSTM-CNNs-CRF(Ma et al. 2016) を利⽤ IOB2(Inside-outside-beggining) という表現を利⽤ • B:固有表現の先頭 • I :2トークン以上で構成される固有表現の先頭以外の単語 • O:固有表現以外のトークン B, I に固有表現の種類(組織、⼈名など)を組み合わせて、ひとつのクラスを表現 ⼊⼒ 名刺 管理 サービス の Sansan 株式会社 が 出⼒ O O O O B I O
  4. Data Strategy and Operation Center データの作成 1. 固有表現の種類を定義 • 例:会社名、⼈名、⽇付

    2. アノテーションマニュアルの作成 • 種類⼀覧や例を載せる 3. アノテーション • 最初は⼗数件⾏い、不明瞭な点を洗い出し、明確にしておく • ある程度割り切りは必要 • まずは1,000⽂くらいアノテーションして、試しに学習 4. データ整形・分割 • Train, Dev, Test に分けるときには、⽂単位でランダムよりかは⽂書単位でランダムがいいと思う
  5. Data Strategy and Operation Center アノテーション例 表層形 IOB2 種類 BOS

    Sansan B 企業名 株式 I 企業名 会社 I 企業名 は O 、 O サンサン B ⼈名 太郎 I ⼈名 が O 、 O ・・・
  6. Data Strategy and Operation Center 学習や推論時の環境 • 学習 • 何かしらの

    GPU マシンが快適 • CPU 8コアだと、3 epoch で 10 時間くらい • 推論 • 量と応答速度要件によるが、ニュース配信なら CPU でもなんとかなる コード例は、ブログに書いていますので、Sansan Builders Blog で BERT と検索してみてください
  7. Data Strategy and Operation Center サービス提供⽔準にするために 抽出結果から除外するリストをメンテナンスしやすいようにしておく • メンテナンスの例 •

    「コロナ」や「COVID-19」が誤判定されやすかった → 株式会社コロナさまが誤配信されてしまう • どう気づくかは難しいが、抽出結果を⽬で⾒るようにする • 学習データをいつ作り直す・追加するかのタイミングの⾒極めは、まだ よくわからない(ルール追加が要望から対応までのスピードが早い)
  8. Data Strategy and Operation Center まとめ ニュース配信における固有表現抽出の取り組みについて紹介 • 名刺とニュース •

    ルールベースによる固有表現抽出 • 深層学習による固有表現抽出 • 実務で使うための後処理