Upgrade to Pro — share decks privately, control downloads, hide ads and more …

名刺とニュースを紐付ける / Company Name Extraction by Deep Neural Network

Sansan
July 13, 2019

名刺とニュースを紐付ける / Company Name Extraction by Deep Neural Network

■イベント
conference, on computer science for enterprise
https://ccse.jp/2019/

■登壇概要
タイトル:名刺とニュースを紐付ける-深層学習を用いた記事文章からの企業名抽出-

登壇者:DSOC R&Dグループ 奥田裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

July 13, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. 名刺とニュースを紐付ける
    深層学習を⽤いた記事⽂章からの企業名抽出
    Sansan 株式会社 DSOC(Data Strategy & Operation Center)
    奥⽥ 裕樹
    2019/07/13

    View Slide

  2. Data Strategy and Operation Center
    1

    View Slide

  3. 2

    View Slide

  4. 法⼈向けクラウド名刺管理サービス

    View Slide

  5. Data Strategy and Operation Center
    1枚の名刺の先にある価値あるニュース
    4
    ⼈事異動や連絡先の変更 出会いのニュース 企業のニュース
    名刺交換相⼿の部署異動や連絡
    先の変更にいち早く気付くこと
    ができる
    例:Sansanの奥⽥さんの役職が
    変わりました
    共通の⼈物や企業のつながりが
    ⽣まれたことをお知らせ
    例:Sansan株式会社に同僚の奥⽥
    さんが初めてコンタクトしました
    名刺交換相⼿の会社に関する
    各種メディアやプレスリリース
    などのニュースを配信
    例:”名刺管理サービスのSansan
    が東証マザーズに上場”

    View Slide

  6. Data Strategy and Operation Center
    ニュース記事内から企業名を正しく抽出することが必要
    様々な企業名が存在するなかで
    記事中に含まれる企業名を瞬時に抽出
    5
    同名企業の曖昧性を解消し
    ニュース記事が⾔及する企業を同定
    企業名
    Sansan株式会社
    正確な企業名抽出
    同名企業の区別

    View Slide

  7. 深層学習を⽤いた記事⽂章からの企業名抽出

    View Slide

  8. Data Strategy and Operation Center
    企業名という固有表現を抽出するタスクとして解く
    固有表現抽出
    各単語に対して固有表現のラベルを付与する問題
    実験設定
    train:dev:test = 8:1:1
    Tag:IOBES
    特徴量:単語 / ⽂字 / 単語に含まれる⽂字のタイプ情報
    7
    ひらがなのみ / 漢字のみ / ローマ字かつ⼩⽂字 / ローマ字かつ先頭が⼤⽂字 / etc...
    名刺 管理 サービス の Sansan 株式会社 が
    Input
    Output O O O O B-ORG I-ORG O

    View Slide

  9. Data Strategy and Operation Center
    汎⽤的な企業名抽出器の学習に向けた評価指標の⼯夫
    8
    テストデータに
    出現する企業名
    学習データに
    出現する企業名
    未知の企業名に対して⽂脈や⽂字情報のみを⽤いて抽出できるか評価
    “Test Easy” 34.4%
    学習データにもテストデータにも
    登場する企業名
    テストデータにしか登場しない企業名 “Test Hard” 65.6%

    View Slide

  10. Data Strategy and Operation Center
    Bidirectional LSTM-CNNs-CRF [ Ma & Hovy 2016 ]
    9

    View Slide

  11. Data Strategy and Operation Center
    結果
    10
    Model Dictionary
    Character
    Features
    Test Easy Test Hard
    Precision Recall F1 Precision Recall F1
    Average F1
    Exact Match - - 0.346 0.779 0.480 0.172 0.262 0.208 0.344
    BiLSTM-CRF IPADic No 0.870 0.827 0.848 0.830 0.793 0.811 0.830
    BiLSTM-CRF Unidic No 0.865 0.811 0.837 0.845 0.769 0.804 0.821
    BiLSTM-CRF IPADic Yes 0.839 0.862 0.850 0.855 0.786 0.819 0.835
    ベースラインの辞書マッチと⽐較して⾼い精度
    単語に含まれる⽂字情報を追加したモデルが最も精度が良くなった

    View Slide

  12. Data Strategy and Operation Center
    企業名抽出の実例
    登壇企業がさらに3社追加!
    電通ISID、Panasonic、リコーの皆様のご登壇が決定しました!
    機械学習やブロックチェーン、画像解析など幅広い研究を⾏う電通ISID、
    我々の⽣活をより豊かにするIoT技術が注⽬されるPanasonic、
    世界最先端の画像処理技術を持つリコー!
    さらに議論の幅が広がることが期待されます。
    ぜひご参加ください!
    11
    https://ccse.jp/2019/news0621/
    電通ISID Panasonic リコー

    View Slide

  13. Data Strategy and Operation Center
    エラー分析
    12
    ○ ⽂脈や⽂字情報を考慮できていた例
    ・ 「{会社名}、……」といった冒頭に現れる例
    ・ 「{会社名}[⼤学, 銀⾏, 省] + 助詞(は、の、が、と)」というペア
    × 抽出できなかった例
    ・ 「{会社名}[⼤学, 銀⾏, 省] + [関連ある名詞列]」というペア
    ・ 「{英語会社名, 英語頭⽂字}」という例

    View Slide

  14. Data Strategy and Operation Center
    まとめ
    1枚の名刺の先にあるニュースを正確にユーザに届けたい
    ・ニュース記事からの企業名抽出というタスク
    深層学習を⽤いた固有表現抽出
    ・Bidirectional-LSTM-CNNs-CRFのモデルを作成
    ・単語や⽂字情報、単語の特徴を考慮した特徴量を⽤いることで企業名を表現
    今後の発展
    ・固有表現抽出⾃体の精度向上
    多様な企業名、多様なニュース記事、商品名やサービス名との区別
    ・企業名の語義曖昧性を解消するためのEntity Linkingとの連携
    13

    View Slide

  15. Data Strategy and Operation Center
    謝辞
    14
    ⾼橋 寛治 (Sansan) 尾﨑 諒介 (NAIST, インターン)

    View Slide