Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

Sansan DSOC
September 12, 2020

ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

■イベント 
:第48回 Machine Learning 15minutes! Broadcast
https://machine-learning15minutes.connpass.com/event/185507/

■登壇概要
タイトル:ニュース配信における固有表現抽出の取り組み
発表者: 
DSOC R&D研究員 高橋 寛治

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

September 12, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. ニュース配信における固有表現抽出の取り組み
    第48回 Machine Learning 15minutes!

    View Slide

  2. Data Strategy and Operation Center
    Contents
    名刺とニュース
    ルールベースによる固有表現抽出
    深層学習による固有表現抽出
    実務で使うための後処理

    View Slide

  3. 名刺とニュース

    View Slide

  4. Data Strategy and Operation Center
    名刺とニュース
    名刺取り込みに関連するニュースを提供
    ⽇々取り込まれる名刺 ⽇々発信されるニュース
    ⽇々Sansanをご利⽤
    いただいているユーザさま

    View Slide

  5. Data Strategy and Operation Center
    企業の動向をニュースでお知らせ

    View Slide

  6. Data Strategy and Operation Center
    企業の動向をニュースでお知らせ
    記事本⽂から固有表現抽出器により取得した
    企業名をキーとして利⽤し配信を実現

    View Slide

  7. Data Strategy and Operation Center
    固有表現抽出
    ⾃然⾔語で記述されたテキスト中に含まれている組織名や⼈名、
    ⽇付け表現など、定義に従ったチャンクのこと
    Sansan株式会社 の ⾼橋寛治 が 2019年10⽉23⽇ に本発表を⾏います。
    組織名 ⼈名 ⽇付
    固有表現抽出とは、これら固有表現をテキスト中から抽出すること

    View Slide

  8. Data Strategy and Operation Center
    ハイブリッド⽅式による固有表現抽出
    ルールベースと深層学習による⽅式の組み合わせ
    各⽅式のざっくりとした特徴
    • ルールベース
    • 確実に企業名と思われる⽂字列を抽出
    • 深層学習
    • ⽂脈から企業名らしいものを抽出

    View Slide

  9. Data Strategy and Operation Center
    ルールベースの企業名抽出器
    ※闇雲に企業名を追加しても、うまくいかない:髙橋 寛治, 奥⽥ 裕樹. 辞書に基づく組織名抽出における辞書整備の影響. ⾔語処理学会 第26回年次⼤会
    発表論⽂集, pp.1245-1248
    確実に企業名と思われる⽂字列を抽出するために、辞書作りを⼯夫
    ⽅法
    1. 名刺交換枚全組織名をリストに持つ
    2. 数が⼀定以上の組織の正式組織名を辞書に追加
    • スコアは⽂字数に応じて変更
    3. 再現率をあげるために、組織名から法⼈格を削除し、次の条件に合致するものを
    辞書に追加
    • 3⽂字以上
    • 数字だけで構成されない
    • 形態素解析辞書の⼀般名詞と同じ⽂字列ではない

    View Slide

  10. Data Strategy and Operation Center
    辞書に基づく組織名抽出における辞書整備の影響
    ⾼橋 寛治, 奥⽥ 裕樹 (Sansan株式会社 DSOC)

    View Slide

  11. Data Strategy and Operation Center
    深層学習による固有表現抽出
    ⽅針としては、BERT の事前学習モデルを fine tuning する
    具体的には、⼊⼒されたトークン列に対して、それぞれにクラス分類を⾏う
    以前は Bidirectional LSTM-CNNs-CRF(Ma et al. 2016) を利⽤
    IOB2(Inside-outside-beggining) という表現を利⽤
    • B:固有表現の先頭
    • I :2トークン以上で構成される固有表現の先頭以外の単語
    • O:固有表現以外のトークン
    B, I に固有表現の種類(組織、⼈名など)を組み合わせて、ひとつのクラスを表現
    ⼊⼒ 名刺 管理 サービス の Sansan 株式会社 が
    出⼒ O O O O B I O

    View Slide

  12. Data Strategy and Operation Center
    データの作成
    1. 固有表現の種類を定義
    • 例:会社名、⼈名、⽇付
    2. アノテーションマニュアルの作成
    • 種類⼀覧や例を載せる
    3. アノテーション
    • 最初は⼗数件⾏い、不明瞭な点を洗い出し、明確にしておく
    • ある程度割り切りは必要
    • まずは1,000⽂くらいアノテーションして、試しに学習
    4. データ整形・分割
    • Train, Dev, Test に分けるときには、⽂単位でランダムよりかは⽂書単位でランダムがいいと思う

    View Slide

  13. Data Strategy and Operation Center
    アノテーション例
    表層形 IOB2 種類
    BOS
    Sansan B 企業名
    株式 I 企業名
    会社 I 企業名
    は O
    、 O
    サンサン B ⼈名
    太郎 I ⼈名
    が O
    、 O
    ・・・

    View Slide

  14. Data Strategy and Operation Center
    学習や推論時の環境
    • 学習
    • 何かしらの GPU マシンが快適
    • CPU 8コアだと、3 epoch で 10 時間くらい
    • 推論
    • 量と応答速度要件によるが、ニュース配信なら CPU でもなんとかなる
    コード例は、ブログに書いていますので、Sansan Builders Blog で BERT と検索してみてください

    View Slide

  15. Data Strategy and Operation Center
    サービス提供⽔準にするために
    抽出結果から除外するリストをメンテナンスしやすいようにしておく
    • メンテナンスの例
    • 「コロナ」や「COVID-19」が誤判定されやすかった
    → 株式会社コロナさまが誤配信されてしまう
    • どう気づくかは難しいが、抽出結果を⽬で⾒るようにする
    • 学習データをいつ作り直す・追加するかのタイミングの⾒極めは、まだ
    よくわからない(ルール追加が要望から対応までのスピードが早い)

    View Slide

  16. Data Strategy and Operation Center
    まとめ
    ニュース配信における固有表現抽出の取り組みについて紹介
    • 名刺とニュース
    • ルールベースによる固有表現抽出
    • 深層学習による固有表現抽出
    • 実務で使うための後処理

    View Slide

  17. View Slide