Upgrade to Pro — share decks privately, control downloads, hide ads and more …

jel: japanese entity linker

izuna385
September 25, 2021

jel: japanese entity linker

izuna385

September 25, 2021
Tweet

More Decks by izuna385

Other Decks in Technology

Transcript

  1. 2 今日話すこと • イントロ (10%) • 自然言語処理のタスクのひとつ エンティティ・リンキングについて (10%) • 作ったライブラリのデモなど

    (15%) • ライブラリを作った理由や、作りながら気づいた課題点 業務にも活かせそうな点、モチベーションの維持方法など。 (75%)
  2. 8 イントロ • 個人開発にもいろいろある その場で 動けばOK 開発したものを 使う人 多 少

    ずっと メンテしたい 論文実装 jupyterの 分析結果 競プロの 解答 自分用の ライブラリ 外に出す ライブラリ
  3. 9 今日話すこと • イントロ (10%) • 自然言語処理のタスクのひとつ エンティティ・リンキングについて (10%) • 作ったライブラリのデモなど

    (15%) • ライブラリを作った理由や、作りながら気づいた課題点 業務にも活かせそうな点、モチベーションの維持方法など。 (75%)
  4. 19 チャットボットの例 19 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine …(wikipedia探索中) 固有表現抽出で、 ”Independece day” を抽出
  5. 21 チャットボットの例 21 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine …(wikipedia探索中) https://en.wikipedia.org/wiki/Indepe ndence_Day_(United_States)
  6. 22 チャットボットの例 22 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine https://en.wikipedia.org/wiki/Indepe ndence_Day_(United_States) アメリカ独立記念日だし、 今日は祝日、何しよう?
  7. 23 チャットボットの例 23 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine https://en.wikipedia.org/wiki/Indepe ndence_Day_(United_States) アメリカ独立記念日だし、 今日は祝日、何しよう?
  8. 24 チャットボットの例 24 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine https://en.wikipedia.org/wiki/Indepe ndence_Day_(United_States) アメリカ独立記念日だし、 今日は祝日、何しよう? 固有表現抽出だけでは 解決できない問題!
  9. 27 文脈を見てみたら… 27 Machine 最近、調子どう? この前見た、 Independence day は 最高に面白かった!

    Machine 文脈を考えれば、これは 「映画の」Independence Dayのはず その映画、興行収入 5000億円らしい。 どこが面白かった? Machine
  10. 40 もくじ • イントロ (10%) • 自然言語処理のタスクのひとつ エンティティ・リンキングについて (10%) • 作ったライブラリのデモなど

    (15%) • ライブラリを作った理由や、作りながら気づいた課題点 業務にも活かせそうな点、モチベーションの維持方法など。
  11. 44 実装上の難しさ • モジュールの分け方 ◦ 共通部分、モデル部分、... • 外部資材まわり ◦ モデルの管理

    (Amazon S3に置いて読み込ませるのが主流らしい ) • どういうテストが必要? ◦ モデルを読み込む、読み込めるか ◦ 予測結果が想定挙動の範囲内 ◦ etc... 業務でも活かせそう
  12. 49

  13. 52 Text-based Bi-encoder 1. Training the encoders for encoding mention

    and candidates. 2. Project mention and candidates to the same continuous space. 3. Retrieve top-N candidates. (L2-distance, Dot-product, etc.) mention Candidate entity
  14. 53 Text-based Bi-encoder 1. Training the encoders for encoding mention

    and candidates. 2. Project mention and candidates to the same continuous space. 3. Retrieve top-N candidates. (L2-distance, Dot-product, etc.) mention Candidate entity
  15. 54 Text-based Bi-encoder 1. Training the encoders for encoding mention

    and candidates. 2. Project mention and candidates to the same continuous space. 3. Retrieve top-N candidates. (L2-distance, Dot-product, etc.) mention Candidate entity Following [Wu et al., ‘20] and [Logeswaran et al, ‘19] • for scoring, Dot-product is used. • for candidates’ feature, entity’s title and description are used.