名刺とニュースを紐付ける / Company Name Extraction by Deep Neural Network

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
July 13, 2019

名刺とニュースを紐付ける / Company Name Extraction by Deep Neural Network

■イベント
conference, on computer science for enterprise
https://ccse.jp/2019/

■登壇概要
タイトル:名刺とニュースを紐付ける-深層学習を用いた記事文章からの企業名抽出-

登壇者:DSOC R&Dグループ 奥田裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

July 13, 2019
Tweet

Transcript

  1. 名刺とニュースを紐付ける 深層学習を⽤いた記事⽂章からの企業名抽出 Sansan 株式会社 DSOC(Data Strategy & Operation Center) 奥⽥

    裕樹 2019/07/13
  2. Data Strategy and Operation Center 1

  3. 2

  4. 法⼈向けクラウド名刺管理サービス

  5. Data Strategy and Operation Center 1枚の名刺の先にある価値あるニュース 4 ⼈事異動や連絡先の変更 出会いのニュース 企業のニュース

    名刺交換相⼿の部署異動や連絡 先の変更にいち早く気付くこと ができる 例:Sansanの奥⽥さんの役職が 変わりました 共通の⼈物や企業のつながりが ⽣まれたことをお知らせ 例:Sansan株式会社に同僚の奥⽥ さんが初めてコンタクトしました 名刺交換相⼿の会社に関する 各種メディアやプレスリリース などのニュースを配信 例:”名刺管理サービスのSansan が東証マザーズに上場”
  6. Data Strategy and Operation Center ニュース記事内から企業名を正しく抽出することが必要 様々な企業名が存在するなかで 記事中に含まれる企業名を瞬時に抽出 5 同名企業の曖昧性を解消し

    ニュース記事が⾔及する企業を同定 企業名 Sansan株式会社 正確な企業名抽出 同名企業の区別
  7. 深層学習を⽤いた記事⽂章からの企業名抽出

  8. Data Strategy and Operation Center 企業名という固有表現を抽出するタスクとして解く 固有表現抽出 各単語に対して固有表現のラベルを付与する問題 実験設定 train:dev:test

    = 8:1:1 Tag:IOBES 特徴量:単語 / ⽂字 / 単語に含まれる⽂字のタイプ情報 7 ひらがなのみ / 漢字のみ / ローマ字かつ⼩⽂字 / ローマ字かつ先頭が⼤⽂字 / etc... 名刺 管理 サービス の Sansan 株式会社 が Input Output O O O O B-ORG I-ORG O
  9. Data Strategy and Operation Center 汎⽤的な企業名抽出器の学習に向けた評価指標の⼯夫 8 テストデータに 出現する企業名 学習データに

    出現する企業名 未知の企業名に対して⽂脈や⽂字情報のみを⽤いて抽出できるか評価 “Test Easy” 34.4% 学習データにもテストデータにも 登場する企業名 テストデータにしか登場しない企業名 “Test Hard” 65.6%
  10. Data Strategy and Operation Center Bidirectional LSTM-CNNs-CRF [ Ma &

    Hovy 2016 ] 9
  11. Data Strategy and Operation Center 結果 10 Model Dictionary Character

    Features Test Easy Test Hard Precision Recall F1 Precision Recall F1 Average F1 Exact Match - - 0.346 0.779 0.480 0.172 0.262 0.208 0.344 BiLSTM-CRF IPADic No 0.870 0.827 0.848 0.830 0.793 0.811 0.830 BiLSTM-CRF Unidic No 0.865 0.811 0.837 0.845 0.769 0.804 0.821 BiLSTM-CRF IPADic Yes 0.839 0.862 0.850 0.855 0.786 0.819 0.835 ベースラインの辞書マッチと⽐較して⾼い精度 単語に含まれる⽂字情報を追加したモデルが最も精度が良くなった
  12. Data Strategy and Operation Center 企業名抽出の実例 登壇企業がさらに3社追加! 電通ISID、Panasonic、リコーの皆様のご登壇が決定しました! 機械学習やブロックチェーン、画像解析など幅広い研究を⾏う電通ISID、 我々の⽣活をより豊かにするIoT技術が注⽬されるPanasonic、

    世界最先端の画像処理技術を持つリコー! さらに議論の幅が広がることが期待されます。 ぜひご参加ください! 11 https://ccse.jp/2019/news0621/ 電通ISID Panasonic リコー
  13. Data Strategy and Operation Center エラー分析 12 ◦ ⽂脈や⽂字情報を考慮できていた例 ・

    「{会社名}、……」といった冒頭に現れる例 ・ 「{会社名}[⼤学, 銀⾏, 省] + 助詞(は、の、が、と)」というペア × 抽出できなかった例 ・ 「{会社名}[⼤学, 銀⾏, 省] + [関連ある名詞列]」というペア ・ 「{英語会社名, 英語頭⽂字}」という例
  14. Data Strategy and Operation Center まとめ 1枚の名刺の先にあるニュースを正確にユーザに届けたい ・ニュース記事からの企業名抽出というタスク 深層学習を⽤いた固有表現抽出 ・Bidirectional-LSTM-CNNs-CRFのモデルを作成

    ・単語や⽂字情報、単語の特徴を考慮した特徴量を⽤いることで企業名を表現 今後の発展 ・固有表現抽出⾃体の精度向上 多様な企業名、多様なニュース記事、商品名やサービス名との区別 ・企業名の語義曖昧性を解消するためのEntity Linkingとの連携 13
  15. Data Strategy and Operation Center 謝辞 14 ⾼橋 寛治 (Sansan)

    尾﨑 諒介 (NAIST, インターン)