Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ドメイン知識がない領域での自然言語処理の始め方
Search
Hayahide Yamagishi
November 13, 2025
Research
1
100
ドメイン知識がない領域での自然言語処理の始め方
IVRyさん主催の「三田データ vol.1」での登壇資料です。
https://mita-data.connpass.com/event/370980/
Hayahide Yamagishi
November 13, 2025
Tweet
Share
More Decks by Hayahide Yamagishi
See All by Hayahide Yamagishi
NLP2025参加報告会 LT資料
hargon24
1
370
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
860
Other Decks in Research
See All in Research
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
840
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
230
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
140
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
9.7k
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
320
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
360
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
410
多言語カスタマーインタビューの“壁”を越える~PMと生成AIの共創~ 株式会社ジグザグ 松野 亘
watarumatsuno
0
140
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
160
Combinatorial Search with Generators
kei18
0
1.1k
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
290
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
satai
3
300
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.3k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Designing for Performance
lara
610
69k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Gamification - CAS2011
davidbonilla
81
5.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
Agile that works and the tools we love
rasmusluckow
331
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Transcript
Money Forward, Inc. ドメイン知識がない領域での 自然言語処理の始め方 Money Forward Lab 山岸駿秀
Money Forward, Inc. Money Forward, Inc. 山岸駿秀 • 所属: Money
Forward ◦ 2019 - 2022 : 複合機メーカーの研究所 ◦ 2022 - : Money Forward Lab • Job: NLPのリサーチャー ◦ 研究活動 ◦ 社内でのNLP関連の技術紹介 ◦ timesの賑やかし • 学会活動もしています ◦ NLP若手の会(YANS)実行委員 ◦ 言語処理学会(NLP)セミナー企画委員 Twitter: @hargon24 https://hargon24.github.io/ 2
Money Forward, Inc. Money Forward Labは全プロダクト横断のR&D組織 MFLabでは、プロダクト改善などに貢献する研究を行っている いい研究テーマを立てるために実施していること • 実際のデータを見て仮説を立てる
• 現場の話を聞いてペインを見つける 3
Money Forward, Inc. Money Forward, Inc. データの分析対象となる、MFの代表的なSaaS 個人向けの家計簿アプリ 法人向けの会計SaaS 4
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 単式簿記: 収支を全て1つの帳簿で管理する → 一般的な家計簿は全てこれなので、親しみがある
カテゴリ 金額 摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 5
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 6
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 弊社で扱うテキストデータは主にこれ 7
Money Forward, Inc. MEのデータは わかりやすい 8
Money Forward, Inc. Money Forward, Inc. 主力は法人向けSaaSなので、法人向けのデータを解析したい 個人向けの家計簿アプリ 法人向けの会計SaaS <<
9
Money Forward, Inc. MFクラウド会計が扱う仕訳データは複式簿記 複式簿記: 取引を原因と結果に分け、仕訳という単位で書く いわゆる簿記はこれのこと 借方勘定科目 金額 貸方勘定科目
金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 弊社で扱うテキストデータは主にこれ 10
Money Forward, Inc. 複式簿記がわからなくて何もできない 例えば勘定科目別の集計をしたいとき、 • 左がプラスで右がマイナス…でもないのか…? • そもそも左右の違いは何? 左と右の売上は同じ売上?
みたいな疑問があり、「売上の合計」を取ることすら不安があった 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 11
Money Forward, Inc. NLPを始めるためにはドメイン知識が必要そう 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金
10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 12 弊社で扱うテキストデータは主にこれ こっちのデータがわからないと 始まらない
Money Forward, Inc. どうしたか 13
Money Forward, Inc. その1 14
Money Forward, Inc. 解決策1: 簿記3級をとった 取った理由 1. シンプルだけどこれが一番速いと思った 2. 勉強しやすい環境があったから
◦ 過去に勉強した人の社内記事がある ◦ 3級は基礎 ▪ ものを買って売る会社の帳簿の付け方 ▪ ものを作って売る会社の帳簿は2級 ◦ たまたま勉強しやすい分野であるのに、 勉強しないのは損 15
Money Forward, Inc. 取ってよかったこと 1. 詳しい人に質問できる状態になった ◦ 最低限の用語を知っているだけでも、専門家に質問しやすい 2. 自分で調べられるようになった
◦ DBの仕様などを自分で見て判断できる ◦ テキストの分析に専念できる 3. 研究のタネが見つかった ◦ 分析する過程で不足しているデータが見つかり、 そこから研究が生まれた 4. 久しぶりの資格だったので純粋に嬉しい 16
Money Forward, Inc. 業種情報の信頼性が低かった 勉強したことで、売上合計などは出せるようになっ た → 次はユーザさんの平均売上などを分析したい 新たな問題: ユーザ企業の属性情報が不足
• 任意入力なので空欄になっている • 特に業種の情報が使いにくく、業種単位での 分析がしにくかった 企業名 abc.AI 本店所在地 東京都 電話番号 03-xxxx-yyyy webサイト 業種 17
Money Forward, Inc. 業種情報が扱いにくかった • 理由1: 入力が任意なのでほぼ業種情報が付いてない ◦ 付いていたとして、 “その他”や
“サービス業”が選択されがち • 理由2: 政府の業種体系とマネフォの業種体系が違う ◦ 日本標準産業分類では、大分類 20種・細分類1473種が定義 ◦ MFC会計にも業種欄はあるが、独自分類 14種から選択する方式 • 理由3: MFユーザの事業内容が新しく、対応するものが既存の体系にない ◦ 「ホームページ制作代行」は「受託開発ソフトウェア業」なのか? ◦ 「YouTuberの事務所」は「芸能事務所」か「テレビ番組制作業」か? 18
Money Forward, Inc. 大規模言語モデルを用いた生成による企業の業種体系の拡張 [山岸+, NLP25] 解決策: • 基本的には日本標準産業分類のどれかに対応させる •
どれも該当しない事業には、新規の業種名称を生成 ◦ 企業のWebサイトのテキストをもとにGPTで新業種名を生成 ◦ 後処理で既存業種に似た名称や、生成された名称間で似た業種を名寄せ 19
Money Forward, Inc. ここまでのまとめ • 簿記の勉強をしたことで、データ分析のための最低限の知識がついた ◦ ちなみに売上は+9000円でよい ▪ 各勘定科目のデフォルトの位置(借方・貸方)が決まっていて、そこに書いてあ
ればプラス、逆に書いてあればマイナスとして計算 • データ分析ができるとデータの特徴や不足情報などがわかるようになる → 研究のタネが見えてくる 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 20
Money Forward, Inc. その2 21
Money Forward, Inc. 解決策2: カスタマーサポート(CS)との協業機会 入社した2022年、たまたまカスタマーサポートと協業の機会があった CSには以下2つの課題があった • チャットボットのメンテナンスコストが高い ◦
入社後1つ目のPJとして、こちらをお手伝い • サポートサイトの検索精度が低い ◦ こちらは他の人が担当したので今回は省略 22
Money Forward, Inc. チャットボットのメンテコストが高い問題 • 検索型のチャットボット ◦ ユーザ質問と、事前に準備した質問例の類似度を測る ◦ 一番類似した質問例に対応する回答例を出力する
◦ ユーザ質問を質問例として追加することで学習相当の挙動 をさせる • 何をどうメンテすると改善されるか担当にもわからなかった ◦ 長年継ぎ足した結果、質問例を追加しすぎて何でも引っかかる ◦ 回答例は最新版なのかわからない ◦ 何でも回答例を追加すればいいわけではない ◦ etc. 23
Money Forward, Inc. FAQ チャットボットの誤りタイプの類型化と自動分類の検討 [山岸+, NLP2023] • 誤答だった応対の、ユーザの質問とシステムの回答文を見て、 「botのこの間違いは直すべきなのか」をBERTで推定
• どう直すべきなのかも合わせて推薦 ◦ 質問例が悪いのか、回答例が悪いのかを分類 電車代の勘定科目 は? 旅費交通費です 具体例はwebに… 新規科目の追加は… 正しく回答 → 何もしない 違う回答文を選択 → 正解が選ばれるように質問例を 追加 Webページに回答がある → 回答文を追加できる 24
Money Forward, Inc. CSとの協業案件に携わってよかったこと • 現場の話を聞ける貴重な機会 ◦ 社内: CSさん、エンジニア、プロダクトのPdMなど →
交流のきっかけ ◦ 社外: ユーザの悩みがダイレクトにわかる • 自社のプロダクトがわかるようになる ◦ 細かくみると60以上のプロダクトがあり、座学だけだと覚えられなかった ◦ プロダクト自体の機能を把握できた → プロダクトを出している企業の人にはシンプルにおすすめ 25
Money Forward, Inc. 最近どうなったか: Labの新人研修っぽくなってきた Labに新しい人がJOINしたときの王道ルートになりつつある • 簿記の勉強 • CSのデータ(または何らかのプロダクトデータ)を触る
→ 少なくともMF内では再現性のある学習法っぽい • 直近のYANSでもCS関係の発表をしました ◦ Understanding the Limits of RAG in Real-World Customer Support: A Data-Driven Perspective [Zhang&Liang, YANS2025] 26
Money Forward, Inc. まとめ • ドメイン知識がない状況に放り込まれたら、結局勉強するしかない ◦ NLP関連の勉強ではなく、ドメイン知識の勉強もおもしろい ◦ 今だったら都度LLMに聞けば解決するかもしれないが
…限界ありそう • やったこと ◦ 社内の専門家に質問できるくらいの最低限の知識をつける ◦ プロダクトのことが最低限わかる状態にする • これらを経て、初めてNLPの提案ができるようになる ◦ いろいろ知った上でデータを見ると楽しい!! • みなさんの事例も教えてほしい リサーチャー募集中! 27