Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニュース記事中の組織名の曖昧性解消 / Resolve the ambiguity in the organization's name in news articles

ニュース記事中の組織名の曖昧性解消 / Resolve the ambiguity in the organization's name in news articles

■イベント 
「2020年度 人工知能学会全国大会(JSAI2020)」
https://www.ai-gakkai.or.jp/jsai2020/

■登壇概要
タイトル:ニュース記事中の組織名の曖昧性解消
発表者: 
DSOC 研究開発部 Data Analysis Group 高橋 寛治

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

June 12, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. ニュース記事中の組織名の曖昧性解消 ⾼橋寛治†, 甫⽴ 健悟‡, 奥⽥ 裕樹† †Sansan 株式会社 DSOC, ‡⾸都⼤学東京

    ⼿法 単語ベクトル 次元 精度 再現率@3 単語ベクトルの平均 HR領域*2 100 0.462 0.750 SCDV HR領域 100 0.404 0.615 200 0.558 0.615 SCDV Wikipedia*3 100 0.404 0.731 200 0.423 0.808 *1 https://sales.baseconnect.in/ *2 https://github.com/ bizreach/ai/tree/master/word2vec *3 https://github.com/singletongue/WikiEntVec/releases/ tag/20190520 • 組織名から法⼈番号を⼀意に特定できない記事52記事(タイトルと本⽂ 冒頭)が対象 • 形態素解析辞書 mecab-ipadic-Neologd (v0.0.6) を⽤いて形態素解析し, 名詞と動詞の原形を利⽤ • 組織情報データベースには Musubu*1 を利⽤し,事業概要⽂や事業内容 キーワード,業界を結合し,1企業1⽂書として利⽤ 評価実験 ※SCDV(Sparse Composite Document Vectors):単語のトピックが際⽴つような⽂分散表現の作成⽅法 結 果 アイデア:事業内容と記事内容は近しいと考える 1. 記事中の組織名に紐付く組織候補を作成 2. 候補となる組織の組織情報の⽂書ベクトル化 3. 記事の⽂書ベクトル化 4. 2と3のコサイン類似度が最⼤の組織を出⼒ ⼿ 法 ⾼品質なニュース配信を実現するために,ニュース記事中に含まれる 組織名がどの法⼈番号と紐付くかを特定(=曖昧性解消) ⽬ 的   .)-% "/ (' * "/ , & (' 0$ A 1234  0.20 A 5678  0.80 A 9101  0.30 B 1121  -          0$   .)-%  +" (' "/ +!# 概要図 • 類似度TOP1と2の類似度の差が⼀定以上ある場合に出⼒す るマージン法を適⽤ • 閾値に0.125を設定すると適合率は⾼いが,再現率は約0.1 追加実験 SCDVによるベクトル化が最も⾼い精度となった 再現率@3で評価するとスコア⾼いため,近しい業種の組織を特定 できていると考えられる まとめ