Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Learning Named Entity Tagger usingDomain-...

Sansan
April 24, 2019

【論文紹介】Learning Named Entity Tagger usingDomain-Specific Dictionary / Learning Named Entity Tagger usingDomain-Specific Dictionary

■イベント
【Sansan×エムスリー】自然言語処理勉強会(ライブ配信あり)
https://sansan.connpass.com/event/125652/

■登壇概要
タイトル:【論文紹介】Learning Named Entity Tagger usingDomain-Specific Dictionary

登壇者:DSOC R&D Group 高橋寛治

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

April 24, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. 【論文紹介】 Learning Named Entity Tagger using Domain-Specific Dictionary Sansan 株式会社

    DSOC(Data Strategy & Operation Center) R&D Group ⾼橋 寛治 @kanji250tr 【Sansan×エムスリー】 自然言語処理(2019/04/24)
  2. Distant Supervision 何かしらのラベル付きデータを使って、別のラベルなしデータに対して学習 データとして利用できるようにラベルを付与し、モデルを学習する方法 [Mintz et al., 2009] 2 ラベル付きデータ

    別データにラベル付与 モデルの学習 企業名 代表取締役 Sansan株式会社 寺田親弘 ・・・ ・・・ Sansan株式会社の代表取 締役である寺田親弘は、 名刺管理に課題を感じて いました。 固有表現抽出器
  3. 目次 コーパスへのアノテーションが不要な固有表現抽出の論文を紹介 Shang, Jingbo & Liu, Liyuan & Ren, Xiang

    & Gu, Xiaotao & Ren, Teng & Han, Jiawei. Learning Named Entity Tagger using Domain-Specific Dictionary. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2054–2064. 2018 上記提案手法を日本語の組織名抽出に試してみた Precision:0.47, Recall:0.55 僕の考えた最強のルールベースには及ばず・・・ ※図表は論⽂より引⽤しています
  4. AutoNERでは二段階にわけて推定 固有表現の領域推定 TieからBreakを区別する二値分類器を作成 Unknownは推定せず、飛ばす BiLSTMの出力を素性 ui とする 10 素性ui がBreakである確率

    パラータwと素性ui のソフトマックス 領域推定におけるロス Unknownタグを除いた推定タグ 実際のタグと推定タグのロジスティック損失 Break?
  5. ニューステキストからの企業名抽出タスクにAutoNERを試してみる 21 ラベル付きデータ 別データにラベル付与 モデルの学習 企業名正式名称 企業名 Sansan株式会社 Sansan ・・・

    ・・・ Sansan株式会社の代表取 締役である寺田親弘は、 名刺管理に課題を感じて いました。 固有表現抽出器 フレーズ抽出は使わず辞書とコーパスで実験