Pro Yearly is on sale from $80 to $50! »

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

A2cac4b3dcb2bc0b87917ddc034ef708?s=47 Sansan DSOC
September 12, 2020

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

■イベント 
:第48回 Machine Learning 15minutes! Broadcast
https://machine-learning15minutes.connpass.com/event/185507/

■登壇概要
タイトル:ニュース配信における固有表現抽出の取り組み
発表者: 
DSOC R&D研究員 高橋 寛治

Sansan DSOC
▼Website
https://sansan-dsoc.com/
▼Twitter
https://twitter.com/SansanDSOC

A2cac4b3dcb2bc0b87917ddc034ef708?s=128

Sansan DSOC

September 12, 2020
Tweet

Transcript

  1. ニュース配信における固有表現抽出の取り組み 第48回 Machine Learning 15minutes!

  2. Data Strategy and Operation Center Contents 名刺とニュース ルールベースによる固有表現抽出 深層学習による固有表現抽出 実務で使うための後処理

  3. 名刺とニュース

  4. Data Strategy and Operation Center 名刺とニュース 名刺取り込みに関連するニュースを提供 ⽇々取り込まれる名刺 ⽇々発信されるニュース ⽇々Sansanをご利⽤

    いただいているユーザさま
  5. Data Strategy and Operation Center 企業の動向をニュースでお知らせ

  6. Data Strategy and Operation Center 企業の動向をニュースでお知らせ 記事本⽂から固有表現抽出器により取得した 企業名をキーとして利⽤し配信を実現

  7. Data Strategy and Operation Center 固有表現抽出 ⾃然⾔語で記述されたテキスト中に含まれている組織名や⼈名、 ⽇付け表現など、定義に従ったチャンクのこと Sansan株式会社 の

    ⾼橋寛治 が 2019年10⽉23⽇ に本発表を⾏います。 組織名 ⼈名 ⽇付 固有表現抽出とは、これら固有表現をテキスト中から抽出すること
  8. Data Strategy and Operation Center ハイブリッド⽅式による固有表現抽出 ルールベースと深層学習による⽅式の組み合わせ 各⽅式のざっくりとした特徴 • ルールベース

    • 確実に企業名と思われる⽂字列を抽出 • 深層学習 • ⽂脈から企業名らしいものを抽出
  9. Data Strategy and Operation Center ルールベースの企業名抽出器 ※闇雲に企業名を追加しても、うまくいかない:髙橋 寛治, 奥⽥ 裕樹.

    辞書に基づく組織名抽出における辞書整備の影響. ⾔語処理学会 第26回年次⼤会 発表論⽂集, pp.1245-1248 確実に企業名と思われる⽂字列を抽出するために、辞書作りを⼯夫 ⽅法 1. 名刺交換枚全組織名をリストに持つ 2. 数が⼀定以上の組織の正式組織名を辞書に追加 • スコアは⽂字数に応じて変更 3. 再現率をあげるために、組織名から法⼈格を削除し、次の条件に合致するものを 辞書に追加 • 3⽂字以上 • 数字だけで構成されない • 形態素解析辞書の⼀般名詞と同じ⽂字列ではない
  10. Data Strategy and Operation Center 辞書に基づく組織名抽出における辞書整備の影響 ⾼橋 寛治, 奥⽥ 裕樹

    (Sansan株式会社 DSOC)
  11. Data Strategy and Operation Center 深層学習による固有表現抽出 ⽅針としては、BERT の事前学習モデルを fine tuning

    する 具体的には、⼊⼒されたトークン列に対して、それぞれにクラス分類を⾏う 以前は Bidirectional LSTM-CNNs-CRF(Ma et al. 2016) を利⽤ IOB2(Inside-outside-beggining) という表現を利⽤ • B:固有表現の先頭 • I :2トークン以上で構成される固有表現の先頭以外の単語 • O:固有表現以外のトークン B, I に固有表現の種類(組織、⼈名など)を組み合わせて、ひとつのクラスを表現 ⼊⼒ 名刺 管理 サービス の Sansan 株式会社 が 出⼒ O O O O B I O
  12. Data Strategy and Operation Center データの作成 1. 固有表現の種類を定義 • 例:会社名、⼈名、⽇付

    2. アノテーションマニュアルの作成 • 種類⼀覧や例を載せる 3. アノテーション • 最初は⼗数件⾏い、不明瞭な点を洗い出し、明確にしておく • ある程度割り切りは必要 • まずは1,000⽂くらいアノテーションして、試しに学習 4. データ整形・分割 • Train, Dev, Test に分けるときには、⽂単位でランダムよりかは⽂書単位でランダムがいいと思う
  13. Data Strategy and Operation Center アノテーション例 表層形 IOB2 種類 BOS

    Sansan B 企業名 株式 I 企業名 会社 I 企業名 は O 、 O サンサン B ⼈名 太郎 I ⼈名 が O 、 O ・・・
  14. Data Strategy and Operation Center 学習や推論時の環境 • 学習 • 何かしらの

    GPU マシンが快適 • CPU 8コアだと、3 epoch で 10 時間くらい • 推論 • 量と応答速度要件によるが、ニュース配信なら CPU でもなんとかなる コード例は、ブログに書いていますので、Sansan Builders Blog で BERT と検索してみてください
  15. Data Strategy and Operation Center サービス提供⽔準にするために 抽出結果から除外するリストをメンテナンスしやすいようにしておく • メンテナンスの例 •

    「コロナ」や「COVID-19」が誤判定されやすかった → 株式会社コロナさまが誤配信されてしまう • どう気づくかは難しいが、抽出結果を⽬で⾒るようにする • 学習データをいつ作り直す・追加するかのタイミングの⾒極めは、まだ よくわからない(ルール追加が要望から対応までのスピードが早い)
  16. Data Strategy and Operation Center まとめ ニュース配信における固有表現抽出の取り組みについて紹介 • 名刺とニュース •

    ルールベースによる固有表現抽出 • 深層学習による固有表現抽出 • 実務で使うための後処理
  17. None