国立国語研究所通時コーパスシンポジウム2025

通時コーパスシンポジウム　2025 発表　　　　　2025年3月8日国立国語研究所・オンライン　　近藤泰弘（青山学院大学）　　[email protected] １生成AIによるコーパスの操作方法

コーパスの操作のモダン化（従来のコーパス操作）フォームを利用したリレーショナル DB呼び出し（メリットとデメリット）確実だが、自由度が低い。 2

3 コーパスの操作のモダン化 LLMを用いた自然言語インターフェース（内部はSQLでリレーショナルDBをアクセス) 1. 埋め込みモデルを使った検索 2.

4 ClaudeのMCP Anthropicの生成AIであるClaudeは非常に高能力であるが、数ヶ月前に発表されたMCP （Model Context Protocol）は、その後、幅広く使われるようになったそれを補助する強力なツールである。

Cloudeアプリ MCP SQLiteサーバー DB クエリリクエスト SQLクエリクエリ処理結果結果レスポンス結果データ
5 ClaudeのMCPの動作例

6 ClaudeのMCPの動作例 LangChainなどの既存のものとどう違うか。LangCainでは、自然言語と SQL呼び出しをプロンプトで制御する必要がある。

7 例1: 基本的なデータ取得日本語命令：「顧客テーブルから全ての顧客情報を取得してください」 SQL： SELECT * FROM customers;
例2: 条件付きデータ取得日本語命令：「東京に住んでいる顧客の名前と電話番号を表示してください」 SQL： SELECT name, phone_number FROM customers WHERE city = '東京'; 次の日本語をSQLに変換しなさい

8 従来のLLMとSQLとの連結 1回1回、SQLへの変換命令を、 LLMを使って作る必要がある。前の変換と今の変換との連関性にかける（テーブル名その他）

9 Claude+MCPの特殊性 Text-to-SQL（テキストからSQLへの変換）は、自然言語のクエリをSQL言語に自動変換する技術。学習用データセット CoSQL（Conversational SQL）対話的なText-to-SQLタスク向けに設計対話形式：単発のクエリだけでなく、一連の会話として構成されているフィードバックループ：ユーザーからのフィードバックに基づいてクエリを改善する仕組み複数ドメイン：様々な業界や分野のデータベーススキーマを含む

10 Claude+MCPの特殊性 spider：複雑なクロスドメインText-to-SQLデータセット WikiSQL：大規模なWikipediaベースのデータセット ATIS：航空旅行情報システム向けのデータセット大規模言語モデル（LLM）Claudeなどは、これらのデータセットで訓練・評価され、データベースとの対話をより自然な形で可能にしている。MCPのような環境では、こうした技術が組み込まれていることで、複雑なSQLを書かなくても自然言語でデータベースにアクセスできる

11 Claude+MCPの特殊性 spider：複雑なクロスドメインText-to-SQLデータセット WikiSQL：大規模なWikipediaベースのデータセット ATIS：航空旅行情報システム向けのデータセット大規模言語モデル（LLM）Claudeなどは、これらのデータセットで訓練・評価され、データベースとの対話をより自然な形で可能にしている。MCPのような環境では、こうした技術が組み込まれていることで、複雑なSQLを書かなくても自然言語でデータベースにアクセスできる

12 Claude+MCPのセットアップ 1　SQLデータベースの作成 sqliteが一番簡易。これにCSV形式のコーパスを読み込ませる。アノテーションは、国語研（UniDIｃ）フォーマットで、1語1行のデータ。したがって、形態素解析済みである。これでDBファイルを作る。 2　Claudeのconfigにsqliteサーバーを記入 "mcpServers": { "sqlite":
{ "command": "uvx", "args": ["mcp-server-sqlite", "--db-path", "/Users/yhkondo/newdb.db"] }

13 源氏物語コーパスの作成サブコーパス名,サンプルID,_文字開始位置,_文字終了位置,文境界,キー,発音形出現形,語彙素読み,語彙素,原文文字列,品詞,活用型,活用形,語彙表ID,語彙素細分類,連番,出現書字形開始位置,出現書字形終了位置,語種,_固定長フラグ,_可変長フラグ,語形,仮名形出現形,語彙素ID,_用法,書字形,本文種別,話者,文体,ページ番号,語形代表表記,振り仮名,本文種別絞込用,歌番号,語形ID,書字形ID,_文番号,pSampleID,pOpen,pClose

１源氏物語コーパスの作成 1　CSVデータ ['平安-仮名文学', '20-源氏1010_00001', '10', '20', 'B', '\u3000', '',
'', '\u3000', '\u3000' '空白', '', '', '6330815488512', '', '10', '10', '20', '記号', '0', '1', '', '', '23', '', '\u3000', '', '', '', '17', '\u3000', '', '', '', '737', '188673', '10', '20-源氏1010_00001', '10', '20'] ['平安-仮名文学', '20-源氏1010_00001', '20', '50', 'I', 'いづれ', 'イズレ', 'イズレ', '何れ', 'いづれ', '代名詞', '', '', '534646253298176', '', '20', '20', '50', '和', '0', '1', 'イズレ', 'イヅレ', '1945', '', 'いづれ', '', '', '', '17', '何れ', '', '', '', '62241', '15933700', '10', '20- 源氏1010_00001', '20', '50'] ['平安-仮名文学', '20-源氏1010_00001', '50', '60', 'I', 'の', 'ノ', 'ノ', 'の', 'の', '助詞-格助詞', '', '', '7968444268028416', '', '30', '50', '60', '和', '0', '1', 'ノ', 'ノ', '28989', '', 'の', '', '', '', '17', 'の', '', '', '', '927649', '237478145', '10', '20-源氏1010_00001', '50', '60']

15 源氏物語SQLDBのカラム構成 id (INTEGER, 主キー) subcorpus_name (TEXT) sample_id (TEXT) char_start
(INTEGER) char_end (INTEGER) sentence_boundary (TEXT) key (TEXT) pronunciation_form (TEXT) lemma_reading (TEXT) lemma (TEXT) original_text (TEXT) pos (TEXT) conjugation_type (TEXT) conjugation_form (TEXT) lemma_id (TEXT) lemma_subclass (TEXT) serial_number (INTEGER) written_form_start (INTEGER) written_form_end (INTEGER) word_class (TEXT) fixed_length_flag (INTEGER) variable_length_flag (INTEGER) word_form (TEXT) kana_form (TEXT) lemma_id_2 (TEXT)

１6 カラムの新設の工夫 usage (TEXT) written_form (TEXT) text_type (TEXT) speaker (TEXT)
style (TEXT) page_number (INTEGER) word_form_rep (TEXT) furigana (TEXT) text_type_filter (TEXT) poem_number (INTEGER) word_form_id (INTEGER) written_form_id (INTEGER) sentence_number (INTEGER) p_sample_id (TEXT) p_open (INTEGER) p_close (INTEGER) text_title (TEXT) vol_title (TEXT) p_sampleIDを分割して、後者を vol_titleに置き換え。これによって、「桐壺」などでの検索が可能になる

１7 LLMが生成するSQL文（続き） corpusのカラムを全部出力してください。 { `table_name`: `corpus`
}

18 LLMが生成するSQL文 [{'cid': 0, 'name': 'id', 'type': 'INTEGER', 'notnull': 0,
'dflt_value': None, 'pk': 1}, {'cid': 1, 'name': 'subcorpus_name', 'type': 'TEXT', 'notnull': 0, 'dflt_value': None, 'pk': 0}, {'cid': 2, 'name': 'sample_id', 'type': 'TEXT', 'notnull': 0, 'dflt_value': None, 'pk': 0}, {'cid': 3, 'name': 'char_start', 'type': 'INTEGER', 'notnull': 0, 'dflt_value': None, 'pk': 0}, {'cid': 4, 'name': 'char_end', 'type': 'INTEGER', 'notnull': 0, 'dflt_value': None, 'pk': 0}, {'cid': 5, 'name': 'sentence_boundary', 'type': 'TEXT', 'notnull': 0, 'dflt_value': None, 'pk': 0}, {'cid': 6, 'name': 'key', 'type': 'TEXT',

19 LLMが生成する文（続き） corpusテーブルには以下の43個のカラムがあります： id (INTEGER, 主キー) subcorpus_name (TEXT) sample_id (TEXT)
char_start (INTEGER) char_end (INTEGER) sentence_boundary (TEXT) key (TEXT) 最終的な出力は、自然な日本語文として生成される。

20 LLMが生成する文（続き）

22 LLMが生成する文（続き）以上のように、LLMがMCPを経由して発行するSQL文は、単にプロンプトに含まれたものの翻訳である以外に、操作者の意図を先回りして読んで、それを実現するSQL文を発行していることがわかる。これによって、自然な操作感を得ていることがわかる。

24 意味検索との統合以上はあくまでも形態素レベルでの検索。これに、統語レベルのタグを加えてSQL化することは十分に可能（今回は省略）。さらに、意味レベルの検索も扱いたい。

１意味検索との統合意味レベルの検索を扱うためには、埋め込みモデルを用いて、単語ベクトル、センテンスベクトルを作成し、それをベクトルDB として、検索可能にする。今回はMCP化が間に合わなかったのでスタンドアロンで実装した。

26 意味検索との統合 intfloat/multilingual-m5-embeddingモデルで、センテンスベクトル化。faissでベクトルDBを作り、問い合わせ文を上記モデルでベクトル化して、相互のベクトルの内積で距離を測る

源氏物語ベクトル検索システム源氏物語文単位に分割（センテンス分割） intfloat/multilingual-m5 各センテンスをベクトル化 FAISS ベクトルDB （高速検索用）
検索クエリ「光る源氏について」（ユーザーの問い合わせ文） intfloat/multilingual-m5 クエリをベクトル化 FAISS検索ベクトル間の内積で類似度計算検索結果最も類似度の高い源氏物語の文（内積の値が高いもの） [0.24, -0.13, 0.56, ..., 0.78] cos(θ) = A・B / (|A|×|B|) ①文分割 ②エンコード ④クエリ入力 ⑤検索 ⑥結果取得 ③インデックス構築 27

源氏物語ベクトル検索サーバーシステムサーバーサイド源氏物語文単位に分割（センテンス分割） multilingual-m5 各センテンスをベクトル化 FAISS ベクトルDB
（高速検索用） API サーバー Flask/FastAPI （REST API）クライアントサイド https://genji-search.example.com 源氏の恋愛について教えて検索検索結果: 「かくてうち過ぐる程に、いとどしく心を... 「姫君の御心ばへいとらうたげにおはす... JavaScript fetch API （HTTPリクエスト） DOM操作結果をHTMLに表示 APIリクエスト JSON レスポンスサーバー技術スタック: - Python (Flask/FastAPI) - FAISS (ベクトル検索エンジン) - Multilingual M5 Embedding model クライアント技術スタック: - HTML5/CSS3 (レスポンシブデザイン) - JavaScript (モダンJS/フレームワーク) - Fetch API (非同期通信) 28

30 形態素・統語・意味を統合してLLMから検索する今回は時間の関係でできなかったが、これらを統合してMCP化することで、従来にない形のコーパス検索が可能になることがわかる。今回はインターフェースとしての生成AIと、意味検索を実現する，埋め込みモデルとしてのAIの両面から検討を行った。

本研究は、国立国語研究所、令和6年度・共同利用型共同研究（B）「大規模言語モデルによる日本語古典語の生成」（リーダー　淺原先生）による研究成果の一部である。

国立国語研究所通時コーパスシンポジウム2025

国立国語研究所通時コーパスシンポジウム2025

Yasuhiro Kondo

More Decks by Yasuhiro Kondo

Featured

Transcript

通時コーパスシンポジウム　2025 発表　　　　　2025年3月8日国立国語研究所・オンライン　　近藤泰弘（青山学院大学）　　[email protected] １生成AIによるコーパスの操作方法

コーパスの操作のモダン化（従来のコーパス操作）フォームを利用したリレーショナル DB呼び出し（メリットとデメリット）確実だが、自由度が低い。 2

3 コーパスの操作のモダン化 LLMを用いた自然言語インターフェース（内部はSQLでリレーショナルDBをアクセス) 1. 埋め込みモデルを使った検索 2.

4 ClaudeのMCP Anthropicの生成AIであるClaudeは非常に高能力であるが、数ヶ月前に発表されたMCP （Model Context Protocol）は、その後、幅広く使われるようになったそれを補助する強力なツールである。

Cloudeアプリ MCP SQLiteサーバー DB クエリリクエスト SQLクエリクエリ処理結果結果レスポンス結果データ

6 ClaudeのMCPの動作例 LangChainなどの既存のものとどう違うか。LangCainでは、自然言語と SQL呼び出しをプロンプトで制御する必要がある。

7 例1: 基本的なデータ取得日本語命令：「顧客テーブルから全ての顧客情報を取得してください」 SQL： SELECT * FROM customers;

8 従来のLLMとSQLとの連結 1回1回、SQLへの変換命令を、 LLMを使って作る必要がある。前の変換と今の変換との連関性にかける（テーブル名その他）

１源氏物語コーパスの作成 1　CSVデータ ['平安-仮名文学', '20-源氏1010_00001', '10', '20', 'B', '\u3000', '',

15 源氏物語SQLDBのカラム構成 id (INTEGER, 主キー) subcorpus_name (TEXT) sample_id (TEXT) char_start

１6 カラムの新設の工夫 usage (TEXT) written_form (TEXT) text_type (TEXT) speaker (TEXT)

１7 LLMが生成するSQL文（続き） corpusのカラムを全部出力してください。 { `table_name`: `corpus`

18 LLMが生成するSQL文 [{'cid': 0, 'name': 'id', 'type': 'INTEGER', 'notnull': 0,

19 LLMが生成する文（続き） corpusテーブルには以下の43個のカラムがあります： id (INTEGER, 主キー) subcorpus_name (TEXT) sample_id (TEXT)

20 LLMが生成する文（続き）

21 LLMが生成する文（続き）

23 LLMが生成する文（続き）

24 意味検索との統合以上はあくまでも形態素レベルでの検索。これに、統語レベルのタグを加えてSQL化することは十分に可能（今回は省略）。さらに、意味レベルの検索も扱いたい。

26 意味検索との統合 intfloat/multilingual-m5-embeddingモデルで、センテンスベクトル化。faissでベクトルDBを作り、問い合わせ文を上記モデルでベクトル化して、相互のベクトルの内積で距離を測る

源氏物語ベクトル検索システム源氏物語文単位に分割（センテンス分割） intfloat/multilingual-m5 各センテンスをベクトル化 FAISS ベクトルDB （高速検索用）

源氏物語ベクトル検索サーバーシステムサーバーサイド源氏物語文単位に分割（センテンス分割） multilingual-m5 各センテンスをベクトル化 FAISS ベクトルDB

29

本研究は、国立国語研究所、令和6年度・共同利用型共同研究（B）「大規模言語モデルによる日本語古典語の生成」（リーダー　淺原先生）による研究成果の一部である。