Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メールから送信者情報を抽出するタスクの奥深さ / kyoto_ai_meetup_1

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for Sansan R&D Sansan R&D
February 26, 2026

メールから送信者情報を抽出するタスクの奥深さ / kyoto_ai_meetup_1

■ イベント
Kyoto AI Meetup #1 〜AIのプロダクト応用〜
https://sansan.connpass.com/event/382404/

■ 発表者
技術本部 研究開発部 Data Analysisグループ
大田尾 匠

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Avatar for Sansan R&D

Sansan R&D

February 26, 2026
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. ⼤⽥尾 匠 Sansan株式会社 技術本部 研究開発部 Data Analysisグループ 研究員 京都⼤学⼤学院情報学研究科修⼠課程修了。 在学中は、最適輸送を⾃然⾔語処理に応⽤した

    ⼿法の研究に取り組む。 2024年に新卒としてSansan株式会社に⼊社し、 メール署名取り込みにおける名刺情報抽出の研究開発に従事。 1
  2. - ⼊⼒: メール全⽂ + メールアドレスなど補助情報 - 出⼒: 送信者の名刺相当の情報 - ⽒名・会社名・部署・役職など

    - 送信者以外の⼈物の情報は含めない メール署名取り込みのタスク定義 ⽒名: ⼭⽥ 太郎 会社名: Yonyon株式会社 部署: 研究開発部 役職: 部⻑ 電話番号: 012-3456-xxxx メール全⽂ 送信者の名刺相当の情報 Sansan株式会社 ⽥中 花⼦様 Yonyon株式会社 研究開発部 ⼭⽥ 太郎です。 先週の会議はありがとうございました。 課⻑の佐藤様にもよろしくお伝えください。 ------------------- Yonyon株式会社 研究開発部 部⻑ ⼭⽥ 太郎 TEL: 012-3456-xxxx ------------------- 送信者の情報のみを 抽出するアルゴリズム
  3. 難しい要因 メール本⽂が⻑い 過去スレッドを含めた 膨⼤な⽂章の中から 抽出する必要がある 複数⼈の情報が含まれている 送信者の情報のみを抽出する 必要がある 表記ゆれが多い より詳細な情報を

    抽出する必要がある 差出⼈: ⼭⽥ 太郎 ⽇付: 2024年10⽉15⽇ 件名: 先週の会議について … > 差出⼈: ⽥中 花⼦ > ⽇付: 2024年10⽉8⽇ > 件名: 会議について … Sansan株式会社 ⽥中 花⼦様 Yonyon株式会社 ⼭⽥ 太郎です。 先週の会議はありがとうございました。 課⻑の佐藤様にもよろしくお伝え ください。 Yonyon ⼭⽥ 太郎です。 先週の会議はありがとうござい ました。 ------------------- Yonyon株式会社 研究開発部 部⻑ ⼭⽥ 太郎 ------------------- 1. 2. 3.
  4. 検討してきた抽出⽅法 ⼭⽥様 先⽇はお世話になりました。 Yonyonの佐藤です。 … ------------------------- Yonyon株式会社 研究開発部 課⻑ 佐藤太郎

    TEL: XX-XXXX-XXXX ------------------------- ※ モデルの学習にはSansan社員が受け取ったメールを使⽤ ⼤⽥尾匠, 橋本航, 質問応答によるメールからの送信者情報抽出, ⾔語処理学会第31回年次⼤会, 2025 ⼤⽥尾匠, 橋本航, メールからの送信者会社名抽出に特化した報酬設計に基づくGroup Relative Policy Optimization, ⾔語処理学会第32回年次⼤会, 2026 署名抽出→ 固有表現抽出(※) ⻑いメールに対して、 固有表現抽出対象を署名 に限定できる 質問応答モデルを学習(※) 抽出ルールとメール特有の ⽂脈を学習できる 質問応答モデル + 強化学習(※) 表記揺れに⼗分対応 できない質問応答 モデルの⽋点を改善 1. 2. 3.