Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ドメイン知識がない領域での自然言語処理の始め方
Search
Hayahide Yamagishi
November 13, 2025
Research
1
230
ドメイン知識がない領域での自然言語処理の始め方
IVRyさん主催の「三田データ vol.1」での登壇資料です。
https://mita-data.connpass.com/event/370980/
Hayahide Yamagishi
November 13, 2025
Tweet
Share
More Decks by Hayahide Yamagishi
See All by Hayahide Yamagishi
NLP2025参加報告会 LT資料
hargon24
1
410
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
940
Other Decks in Research
See All in Research
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
3
1.1k
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
140
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
470
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
880
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
140
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
160
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
600
LiDARセキュリティ最前線(2025年)
kentaroy47
0
110
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
280
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
150
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
460
Featured
See All Featured
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
420
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
320
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
The untapped power of vector embeddings
frankvandijk
1
1.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Six Lessons from altMBA
skipperchong
29
4.1k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
130
Transcript
Money Forward, Inc. ドメイン知識がない領域での 自然言語処理の始め方 Money Forward Lab 山岸駿秀
Money Forward, Inc. Money Forward, Inc. 山岸駿秀 • 所属: Money
Forward ◦ 2019 - 2022 : 複合機メーカーの研究所 ◦ 2022 - : Money Forward Lab • Job: NLPのリサーチャー ◦ 研究活動 ◦ 社内でのNLP関連の技術紹介 ◦ timesの賑やかし • 学会活動もしています ◦ NLP若手の会(YANS)実行委員 ◦ 言語処理学会(NLP)セミナー企画委員 Twitter: @hargon24 https://hargon24.github.io/ 2
Money Forward, Inc. Money Forward Labは全プロダクト横断のR&D組織 MFLabでは、プロダクト改善などに貢献する研究を行っている いい研究テーマを立てるために実施していること • 実際のデータを見て仮説を立てる
• 現場の話を聞いてペインを見つける 3
Money Forward, Inc. Money Forward, Inc. データの分析対象となる、MFの代表的なSaaS 個人向けの家計簿アプリ 法人向けの会計SaaS 4
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 単式簿記: 収支を全て1つの帳簿で管理する → 一般的な家計簿は全てこれなので、親しみがある
カテゴリ 金額 摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 5
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 6
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 弊社で扱うテキストデータは主にこれ 7
Money Forward, Inc. MEのデータは わかりやすい 8
Money Forward, Inc. Money Forward, Inc. 主力は法人向けSaaSなので、法人向けのデータを解析したい 個人向けの家計簿アプリ 法人向けの会計SaaS <<
9
Money Forward, Inc. MFクラウド会計が扱う仕訳データは複式簿記 複式簿記: 取引を原因と結果に分け、仕訳という単位で書く いわゆる簿記はこれのこと 借方勘定科目 金額 貸方勘定科目
金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 弊社で扱うテキストデータは主にこれ 10
Money Forward, Inc. 複式簿記がわからなくて何もできない 例えば勘定科目別の集計をしたいとき、 • 左がプラスで右がマイナス…でもないのか…? • そもそも左右の違いは何? 左と右の売上は同じ売上?
みたいな疑問があり、「売上の合計」を取ることすら不安があった 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 11
Money Forward, Inc. NLPを始めるためにはドメイン知識が必要そう 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金
10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 12 弊社で扱うテキストデータは主にこれ こっちのデータがわからないと 始まらない
Money Forward, Inc. どうしたか 13
Money Forward, Inc. その1 14
Money Forward, Inc. 解決策1: 簿記3級をとった 取った理由 1. シンプルだけどこれが一番速いと思った 2. 勉強しやすい環境があったから
◦ 過去に勉強した人の社内記事がある ◦ 3級は基礎 ▪ ものを買って売る会社の帳簿の付け方 ▪ ものを作って売る会社の帳簿は2級 ◦ たまたま勉強しやすい分野であるのに、 勉強しないのは損 15
Money Forward, Inc. 取ってよかったこと 1. 詳しい人に質問できる状態になった ◦ 最低限の用語を知っているだけでも、専門家に質問しやすい 2. 自分で調べられるようになった
◦ DBの仕様などを自分で見て判断できる ◦ テキストの分析に専念できる 3. 研究のタネが見つかった ◦ 分析する過程で不足しているデータが見つかり、 そこから研究が生まれた 4. 久しぶりの資格だったので純粋に嬉しい 16
Money Forward, Inc. 業種情報の信頼性が低かった 勉強したことで、売上合計などは出せるようになっ た → 次はユーザさんの平均売上などを分析したい 新たな問題: ユーザ企業の属性情報が不足
• 任意入力なので空欄になっている • 特に業種の情報が使いにくく、業種単位での 分析がしにくかった 企業名 abc.AI 本店所在地 東京都 電話番号 03-xxxx-yyyy webサイト 業種 17
Money Forward, Inc. 業種情報が扱いにくかった • 理由1: 入力が任意なのでほぼ業種情報が付いてない ◦ 付いていたとして、 “その他”や
“サービス業”が選択されがち • 理由2: 政府の業種体系とマネフォの業種体系が違う ◦ 日本標準産業分類では、大分類 20種・細分類1473種が定義 ◦ MFC会計にも業種欄はあるが、独自分類 14種から選択する方式 • 理由3: MFユーザの事業内容が新しく、対応するものが既存の体系にない ◦ 「ホームページ制作代行」は「受託開発ソフトウェア業」なのか? ◦ 「YouTuberの事務所」は「芸能事務所」か「テレビ番組制作業」か? 18
Money Forward, Inc. 大規模言語モデルを用いた生成による企業の業種体系の拡張 [山岸+, NLP25] 解決策: • 基本的には日本標準産業分類のどれかに対応させる •
どれも該当しない事業には、新規の業種名称を生成 ◦ 企業のWebサイトのテキストをもとにGPTで新業種名を生成 ◦ 後処理で既存業種に似た名称や、生成された名称間で似た業種を名寄せ 19
Money Forward, Inc. ここまでのまとめ • 簿記の勉強をしたことで、データ分析のための最低限の知識がついた ◦ ちなみに売上は+9000円でよい ▪ 各勘定科目のデフォルトの位置(借方・貸方)が決まっていて、そこに書いてあ
ればプラス、逆に書いてあればマイナスとして計算 • データ分析ができるとデータの特徴や不足情報などがわかるようになる → 研究のタネが見えてくる 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 20
Money Forward, Inc. その2 21
Money Forward, Inc. 解決策2: カスタマーサポート(CS)との協業機会 入社した2022年、たまたまカスタマーサポートと協業の機会があった CSには以下2つの課題があった • チャットボットのメンテナンスコストが高い ◦
入社後1つ目のPJとして、こちらをお手伝い • サポートサイトの検索精度が低い ◦ こちらは他の人が担当したので今回は省略 22
Money Forward, Inc. チャットボットのメンテコストが高い問題 • 検索型のチャットボット ◦ ユーザ質問と、事前に準備した質問例の類似度を測る ◦ 一番類似した質問例に対応する回答例を出力する
◦ ユーザ質問を質問例として追加することで学習相当の挙動 をさせる • 何をどうメンテすると改善されるか担当にもわからなかった ◦ 長年継ぎ足した結果、質問例を追加しすぎて何でも引っかかる ◦ 回答例は最新版なのかわからない ◦ 何でも回答例を追加すればいいわけではない ◦ etc. 23
Money Forward, Inc. FAQ チャットボットの誤りタイプの類型化と自動分類の検討 [山岸+, NLP2023] • 誤答だった応対の、ユーザの質問とシステムの回答文を見て、 「botのこの間違いは直すべきなのか」をBERTで推定
• どう直すべきなのかも合わせて推薦 ◦ 質問例が悪いのか、回答例が悪いのかを分類 電車代の勘定科目 は? 旅費交通費です 具体例はwebに… 新規科目の追加は… 正しく回答 → 何もしない 違う回答文を選択 → 正解が選ばれるように質問例を 追加 Webページに回答がある → 回答文を追加できる 24
Money Forward, Inc. CSとの協業案件に携わってよかったこと • 現場の話を聞ける貴重な機会 ◦ 社内: CSさん、エンジニア、プロダクトのPdMなど →
交流のきっかけ ◦ 社外: ユーザの悩みがダイレクトにわかる • 自社のプロダクトがわかるようになる ◦ 細かくみると60以上のプロダクトがあり、座学だけだと覚えられなかった ◦ プロダクト自体の機能を把握できた → プロダクトを出している企業の人にはシンプルにおすすめ 25
Money Forward, Inc. 最近どうなったか: Labの新人研修っぽくなってきた Labに新しい人がJOINしたときの王道ルートになりつつある • 簿記の勉強 • CSのデータ(または何らかのプロダクトデータ)を触る
→ 少なくともMF内では再現性のある学習法っぽい • 直近のYANSでもCS関係の発表をしました ◦ Understanding the Limits of RAG in Real-World Customer Support: A Data-Driven Perspective [Zhang&Liang, YANS2025] 26
Money Forward, Inc. まとめ • ドメイン知識がない状況に放り込まれたら、結局勉強するしかない ◦ NLP関連の勉強ではなく、ドメイン知識の勉強もおもしろい ◦ 今だったら都度LLMに聞けば解決するかもしれないが
…限界ありそう • やったこと ◦ 社内の専門家に質問できるくらいの最低限の知識をつける ◦ プロダクトのことが最低限わかる状態にする • これらを経て、初めてNLPの提案ができるようになる ◦ いろいろ知った上でデータを見ると楽しい!! • みなさんの事例も教えてほしい リサーチャー募集中! 27