Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

名刺とニュースを紐付ける / Company Name Extraction by Deep ...

Sansan
July 13, 2019

名刺とニュースを紐付ける / Company Name Extraction by Deep Neural Network

■イベント
conference, on computer science for enterprise
https://ccse.jp/2019/

■登壇概要
タイトル:名刺とニュースを紐付ける-深層学習を用いた記事文章からの企業名抽出-

登壇者:DSOC R&Dグループ 奥田裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

July 13, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. 2

  2. Data Strategy and Operation Center 1枚の名刺の先にある価値あるニュース 4 ⼈事異動や連絡先の変更 出会いのニュース 企業のニュース

    名刺交換相⼿の部署異動や連絡 先の変更にいち早く気付くこと ができる 例:Sansanの奥⽥さんの役職が 変わりました 共通の⼈物や企業のつながりが ⽣まれたことをお知らせ 例:Sansan株式会社に同僚の奥⽥ さんが初めてコンタクトしました 名刺交換相⼿の会社に関する 各種メディアやプレスリリース などのニュースを配信 例:”名刺管理サービスのSansan が東証マザーズに上場”
  3. Data Strategy and Operation Center 企業名という固有表現を抽出するタスクとして解く 固有表現抽出 各単語に対して固有表現のラベルを付与する問題 実験設定 train:dev:test

    = 8:1:1 Tag:IOBES 特徴量:単語 / ⽂字 / 単語に含まれる⽂字のタイプ情報 7 ひらがなのみ / 漢字のみ / ローマ字かつ⼩⽂字 / ローマ字かつ先頭が⼤⽂字 / etc... 名刺 管理 サービス の Sansan 株式会社 が Input Output O O O O B-ORG I-ORG O
  4. Data Strategy and Operation Center 汎⽤的な企業名抽出器の学習に向けた評価指標の⼯夫 8 テストデータに 出現する企業名 学習データに

    出現する企業名 未知の企業名に対して⽂脈や⽂字情報のみを⽤いて抽出できるか評価 “Test Easy” 34.4% 学習データにもテストデータにも 登場する企業名 テストデータにしか登場しない企業名 “Test Hard” 65.6%
  5. Data Strategy and Operation Center 結果 10 Model Dictionary Character

    Features Test Easy Test Hard Precision Recall F1 Precision Recall F1 Average F1 Exact Match - - 0.346 0.779 0.480 0.172 0.262 0.208 0.344 BiLSTM-CRF IPADic No 0.870 0.827 0.848 0.830 0.793 0.811 0.830 BiLSTM-CRF Unidic No 0.865 0.811 0.837 0.845 0.769 0.804 0.821 BiLSTM-CRF IPADic Yes 0.839 0.862 0.850 0.855 0.786 0.819 0.835 ベースラインの辞書マッチと⽐較して⾼い精度 単語に含まれる⽂字情報を追加したモデルが最も精度が良くなった
  6. Data Strategy and Operation Center エラー分析 12 ◦ ⽂脈や⽂字情報を考慮できていた例 ・

    「{会社名}、……」といった冒頭に現れる例 ・ 「{会社名}[⼤学, 銀⾏, 省] + 助詞(は、の、が、と)」というペア × 抽出できなかった例 ・ 「{会社名}[⼤学, 銀⾏, 省] + [関連ある名詞列]」というペア ・ 「{英語会社名, 英語頭⽂字}」という例
  7. Data Strategy and Operation Center まとめ 1枚の名刺の先にあるニュースを正確にユーザに届けたい ・ニュース記事からの企業名抽出というタスク 深層学習を⽤いた固有表現抽出 ・Bidirectional-LSTM-CNNs-CRFのモデルを作成

    ・単語や⽂字情報、単語の特徴を考慮した特徴量を⽤いることで企業名を表現 今後の発展 ・固有表現抽出⾃体の精度向上 多様な企業名、多様なニュース記事、商品名やサービス名との区別 ・企業名の語義曖昧性を解消するためのEntity Linkingとの連携 13