Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JOS2025国立国会図書館デジタルコレクションのOCRデータからの復元
Search
Yasuhiro Kondo
June 26, 2025
1.2k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
JOS2025国立国会図書館デジタルコレクションのOCRデータからの復元
大日本国語辞典のMCPサーバー化の話題となります
Yasuhiro Kondo
June 26, 2025
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
日本語史から見た聖書の日本語訳
yhkondo
0
22
コンピュータ分析から見た主語
yhkondo
2
230
AIによる言語資源の利用法ー辞書データを中心にー
yhkondo
0
64
大規模言語モデル(LLM)について人文学研究者が知っておきたいこと
yhkondo
0
170
国立国語研究所通時コーパスシンポジウム2025
yhkondo
0
370
AIによる古典語・古典文学研究の方法について
yhkondo
0
1.1k
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
200
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
120
古典語の係り結びと情報構造
yhkondo
0
250
Featured
See All Featured
Design in an AI World
tapps
1
240
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
What's in a price? How to price your products and services
michaelherold
247
13k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Visualization
eitanlees
152
17k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Facilitating Awesome Meetings
lara
57
7k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
210
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Transcript
国立国会図書館デジタルコレクシ ョンのOCRデータからの復元 ー生成AIによる語学文学研究のためにー JOSS2025 国立国会図書館主催セッション発表 2025年6月26日 オンライン 近藤泰弘(青山学院大学) 1
研究概要 国立国会図書館デジタルコレクション OCRデータの扱い方 辞書データの概要 生成AIからMCPで辞書を利用する 今後の課題 01 02 03 04
05 06 発表目次 2
この研究では、国立国会図書館のデジタルコレクションで公開 されている著作権切れの古典辞書のOCRテキストデータを用 い、それを所定のフォーマットに変換する。 次に、変換された辞書データをSQLサーバー形式のMCPサーバ ーとして、生成AIから利用する。生成AIの弱点である古典知識 の弱さをカバーする方法として提案する。 研究概要 3
国立国会図書館デジタルコレクション 国立国会図書館では、デジタルコレクションの一環として、「次世代デジタルラ イブラリーのAPI」という形で、著作権保護期間が満了した図書28万点及び古典 籍資料8万点)の次の情報を取得できる。 書誌データ OCR全文テキストデータ(各文字列の 紙面上の座標情報を含む。) 資料画像から抽出した図版(挿絵、写真、図表等)領域の座標情報及び画像 検索用特徴ベクトルデータ これを利用して、今回は、冨山房『大日本国語辞典』データを再構成する。
4
大日本国語辞典データ 5 既に、見出し平仮名だけで画面を検索できるシステムがユーザによって 公開されている(大日本國語 辭典検索(オンライン版)修訂)が、データ の詳細については明らかでないので、今回は、自前で量の少ない初版デ ータでやり直した。 info:ndljp/pid/954645 大日本国語辞典(初版)4冊 (今回利用)
info:ndljp/pid/1871514 大日本国語辞典(初版)4冊 info:ndljp/pid/18700620 大日本国語辞典(修訂)5冊
本来の画⾯データ(⾒開きで1ファイル) 6
データの取得⽅法 7 1.4. 全文テキストデータ一括ダウンロードAPI(zip形式) 指定したPID資料全体のOCR全文テキストデータを取得できます。このAPIは、OCR全文テキス トデータと対応する座標を記述したjson形式の情報と、フラットなOCR全文テキストデータの 情報をzip形式に圧縮して取得します。フラットなOCR全文テキストデータを取得できる点及び 当該資料全コマのOCR全文テキストデータを連結したファイルを同時に取得できる点の2点が 1.3全文テキストデータ一括ダウンロードAPI(json)とは異なります。 クエリの例:
https://lab.ndl.go.jp/dl/api/book/fulltext/954645 (国会図書館webサイトより引用)
取得した座標データ 8 {"id":0,"contenttext":"あかだ-あかつ","xmin":3749.0,"ymin":512.0,"xmax":3800.0,"ymax":761.0}, {"id":1,"contenttext":"に三箇夜出仕せさせ給 て」","xmin":3674.0,"ymin":436.0,"xmax":3718.0,"ymax":786.0}, {"id":2,"contenttext":"あかだも","xmin":3631.0,"ymin":399.0,"xmax":3684.0,"ymax":527.0}, 本文テキストを空白などを指標に縦の文字列ブロックに分割し、そのブロ ック(四角)の座標をxmin,xmax,ymin,ymaxで表示している。 このブロックを、もとの本の座標に配置する形で、本文を復元する。
書籍画面との対応 9 {"id":0,"contenttext":"あかだ-あか つ","xmin":3749.0,"ymin":512.0,"xmax":3800.0,"ymax":761 .0}, {"id":1,"contenttext":"に三箇夜出仕せさせ給 て」","xmin":3674.0,"ymin":436.0,"xmax":3718.0,"ymax":7 86.0}, {"id":2,"contenttext":"あかだ も","xmin":3631.0,"ymin":399.0,"xmax":3684.0,"ymax":527
.0},
基本的な⽅法(各ページの処理⾃動化) 10 X軸の値の分布(左右ページの分 離を意味する) Y軸のピーク値の分布(各段の頭を意味 する。右から、1,2,3,4段)
分析・処理する上での問題点 11 OCRが斜めになっているため、座標位置が水平でない。回転補正 が必要。 欄外書き込みなどがあると、それがテキスト化されていてノイズ になる 辞書は4段であるが、段の大きさが異なることがあり、またページ によっても異なる。 図によってテキストの秩序が乱されている部分がある。 フォントが違うため、組版時の都合で、座標が意図と異なるもの
になっている。 xmin等、一部の座標が欠落しているものがある。 ORCエラー(文字化け)「うんちん → らんちん」等
分析・処理する上での問題点 12 左図の赤線の見出し語よ りも、青線の語釈の方 が、微妙に右によってい るため、座標としては、 語釈の方が先に来てしま う。縦にあることを重視 して、補正する必要があ る。
取得したCSV辞書データ 13 あい-あい,一 劃 茂る 。 又、さ かんに多き貌。 詩 大羅「
王多吉士二 楚 「 夫 而曼著 」 あい-あい,一哀哀 0 深く哀しむ 貌. 詩 小〓「哀哀父母、生我、 勞勞」 あい-あい,惑 馬にかくるかけ 。 太 子 傳「騒駒 此不進、太子加 鞭、 巡猶 駐、太子自言哀哀(乃イ)」 あいいく,"王憚詩「愛育總 君父聖、論思 つること。 一愛育 かはゆがりてそだ 不出 堂公こ (40, むらがり立ち" あい-うん, 江「〓雲をさまりて、海上に たる雲。 一 雲 一つの島をなせり」 いつくしみよろこ あい-えつ, 書温▪「見者皆愛 之二 ぶこと。 一愛 あいえん-きえん,一愛 機 (49 佛語。 合ふも合はぬも、 によるとい ふこと。 〓 轉じて、合 奇 (〓〓ニューシ)とし、 不思議なる の義。 男女開また友だちの 交はり 深きにいふ。 あい-おん,一哀音 名 かなしげなる 左 傳電話本社「怨而不言。社有有音音」 あい-かう,本 あい-かう,一愛幸 愛しいつくしむこ と 寵愛。 一哀泣 かなしみなくこと。 あい-きふ,後漢書 「仰仰 點屈、若哀泣之容こ あい-きゃら,[愛敬 ▪ 色にか はゆげのあること。 あいぎやう。 宇宙集 上「いとうれしとおぼしてゑみ給へる、 いとはなやかに見まほしう、あいきやう こぼるばかりに ておはするを」 源堵案「さ しもあるまじき事に、かどかどしくくせ をつけ、あいきやうなく人をもてはなる る心あるは」 巳世 のよきこと。 一五 あいきゃり づきあひ 愛 敬附合 なみな のつきあひ。 深からぬ交際。 みの交際。 博を小女 郞波枕 をてき の外は、愛敬づきあひ·始末·貯ヘ」 あいきゃう-け,愛敬毛 (4) 頭髪のおくれ毛 いち、 あいきゃう-しゃうばい 一愛敬商 賣 (30) 妓·妓 樓·料理屋などの類。 客商 賣。 あいきゃう-づく 愛敬附 (自動日) いきやう出 で初む。 にあいきやうづき給へり」 あいきゃうの-まもり 國 牛丼 かくる守り札。 夫婦愛敬の守。 あいきゃう-の-あち 愛敬餅 八名 かのもちひ(三日餅)を見よ あいきゃう-び,愛敬日 (英 Britanical grace) (4) 恩惠日。 を猶豫する日 數。 あいきゃう-べに,愛敬紅 (イ) り又は耳 などにつくる紅。 あいきゃう-ぼくろ,愛敬 ⿊子 に見するほくろ。
生成AIにおけるMCPの利用 14 『大日本国語辞典』をSQLデータベースにして、生成AIからMCPを介し て利用することができるようにして、古典語研究や辞書研究に役立てる システムとする。 『大日本国語辞典』は、現在の小学館の『日本国語大辞典』の前身とも 言えるものであるので、その内容を様々に活用できることは、『日本国 語大辞典』の改訂などの作業にも有用。(松井栄一『出逢った日本語・ 50万語』55ページ参照)
生成AIにおけるMCPの利用 15
生成AIにおけるMCPの利用 16 生成AI自体は、知識を覚えさせるには不向きの点がある。誤った知識 (ハルシネーション)の問題やどんな知識を使っているかが不明確。 正確な知識の利用には、ベクトル検索を用いたRAGがよく使われる。意 味検索でデータベースを探して、それを応用して生成。 MCP(Model Context Protocol)という新しいプロトコルが開発さ れ、各種サーバーにアクセスして知識を増強できる。
語学的には、SQLのデータベースにアクセスすることで、従来の辞書的 検索が可能になる。 近藤の試行例(日本語歴史コーパスをMCPでアクセスするもの) 「AI中納言を作るーClaudeによるSQLコーパス操作ー」(note.com)
生成AIにおける辞書サーバーとの応答例 17
生成AIにおける辞書サーバーとの応答例 18
今後の展望 19 デジタルライブラリに含まれた書籍テキストを生成AIから利用 する方法 学習データとして「重み」に変換・・・どこから来た知識 かわからない。AI自身の知力向上にはなるか。 SQLデータベースの利用・・・辞書など定型データに便利 ベクトルデータベースの利用(RAG)・・・普通の書籍の 引用に一般的。
謝辞 20 本研究を進めるにあたり、国立国会図書館の次 世代デジタルライブラリーのデータをAPIによ って取得して利用させていただきました。深く 感謝申し上げます。