Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
Search
XSPA
May 24, 2022
Technology
0
360
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
学術情報XML推進協議会セミナー
日時 :2022年5月18日(水曜日)
場所:WEB会議システム ZOOM
XSPA
May 24, 2022
Tweet
Share
More Decks by XSPA
See All by XSPA
J-STAGEおよびJxivの現況
xspa2012
0
160
Chat GPTによるXML自動生成の可能性
xspa2012
0
240
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
47
全文XML作成ツールの感想
xspa2012
0
320
全文 XML 作成ツールについて
xspa2012
0
310
InDesignからのXML書き出し
xspa2012
0
730
oXygenによる作成技法
xspa2012
0
190
学術情報を結びつ ける識別子
xspa2012
1
110
Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki
xspa2012
0
130
Other Decks in Technology
See All in Technology
ドメイン名の終活について - JPAAWG 7th -
mikit
33
20k
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
120
Application Development WG Intro at AppDeveloperCon
salaboy
0
180
適材適所の技術選定 〜GraphQL・REST API・tRPC〜 / Optimal Technology Selection
kakehashi
1
150
AGIについてChatGPTに聞いてみた
blueb
0
130
Amazon CloudWatch Network Monitor のススメ
yuki_ink
1
200
強いチームと開発生産性
onk
PRO
33
11k
透過型SMTPプロキシによる送信メールの可観測性向上: Update Edition / Improved observability of outgoing emails with transparent smtp proxy: Update edition
linyows
2
210
Python(PYNQ)がテーマのAMD主催のFPGAコンテストに参加してきた
iotengineer22
0
470
ノーコードデータ分析ツールで体験する時系列データ分析超入門
negi111111
0
410
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
Terraform Stacks入門 #HashiTalks
msato
0
350
Featured
See All Featured
Fireside Chat
paigeccino
34
3k
Into the Great Unknown - MozCon
thekraken
32
1.5k
Adopting Sorbet at Scale
ufuk
73
9.1k
Faster Mobile Websites
deanohume
305
30k
Gamification - CAS2011
davidbonilla
80
5k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Writing Fast Ruby
sferik
627
61k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
日本のデジタル辞書を支える XMLフォーマット “LeXML” 2022年5月18日 株式会社ディジタルアシスト 永田 健児
自己紹介 1990 日外アソシエーツ(株)入社 • 書誌DB、新聞記事DB、電子ブック、EPWING... 2000 イースト(株)入社 • 官報XML、DicX、三省堂WebDictionary... 2001 ディジタルアシスト起業
• 辞書事典類のデジタル化専業 • 辞書専用XMLフォーマット「LeXML」の策定・公開 • IEC TC100/TA10で国際標準策定 日本電子出版協会(JEPA)理事/レファレンス委員会委員長
LeXML以前 辞書の基本構造とデジタル辞書の歴史
電卓から電子辞書へ 1979 シャープがポケット電訳機「IQ-3000」を発売 英和2800語+和英5000語/アルファベットとカタカナ(16桁×1行) 1987 三洋電機がIC辞書「電字林PD-1」を発売 英和約3万5000語/漢字仮名まじり表示に対応 1992 セイコーがIC辞書「TR-700」を発売
研究社『新英和・和英中辞典』/フルコンテンツ収録 1996 カシオ計算機が電子辞書「XD-500」を発売 エクスワード1号機/タッチパネル
CD-ROM辞書とマルチメディア 1985 『最新科学技術用語辞典』(三修社) 1987 『広辞苑 第三版 CD-ROM版』(岩波書店) 1990 ソニーが「データディスクマンDD-1」を発売 同時に電子ブックコミッティ設立
1991 EPWINGコンソーシアム設立 1995 富士通が自社PCにCD-ROM辞書を標準搭載 1997 JIS X4081「日本語電子出版検索データ構造」
デジタル辞書の系譜
LeXML誕生 LeXMLの策定と普及
DicXと三省堂WebDictionary • 2000年初夏に「三省堂WebDictionary」企画スタート (三省堂創業120周年記念事業)。 • 16種類/120万語の辞書データを“統一された形式” で整備する必要が生じる。 • しかも、国語、ことわざ・慣用句、英和、和英、独 和、仏和、地名と多種多様。
• 辞書フォーマット(DicX)の設計、XML変換と調整、 システム開発・検証を並行して進め、サービス開始 当日(2001年1月12日)未明になんとか完成。
電子辞書の進化とJapanKnowledge 高校生モデル カラー液晶 音声読み上げ 第二外国語/メモリーカード/医療モデル 中学生モデル 小学生モデル 手書きパッド ワンセグ 動画コンテンツ
小学校低学年モデル 発音聞き比べ ◦ 『日本歴史地名大系』追加 『国史大辞典』追加 『日本国語大辞典』追加 『大漢和辞典』追加 独和・仏和大辞典追加 『ランダムハウス英和大辞典』追加
辞書コンテンツのXML化 組版出力 データ 組版ソース データ XML変換 ・項目確定 ・見出し語 ・語義語釈 ・用例
・子見出し ・コラム データ クリーニング リッチ化 ・検索キー ・参照リンク ・省略復元 ・外字 ・画像 ・音声 チェック 調整 納品XML
LeXML v.1.0~2.0β LeXML v.1.0 2002年10月に公開。約100タイトルのXML化実績に基づく。電 子辞書専用機向けの機能を拡充。 LeXML v.2.0β 2007年12月に公開。約200タイトルのXML化実績に基づく。電 子辞書専用機の機能強化や常時改訂コンテンツのマスタ管理
用途など。「IEC 62605:2011」に採用。
企画・編集支援、版下作成 オリジナル XML データ修正 データ更新 データ処理 データ修正 データ更新 データ処理 XMLチェック
差分チェック 調整 索引作成 組版 納品XML 通しゲラ 抽出ゲラ 作業用データ (エクセル) 新規追加原稿 修正原稿
LeXML v.3.0~3.1 LeXML v.3.0 2014年10月に公開。約500タイトル(LeXML以外含む)のXML化実績 に基づく。スマホアプリ向けのデータリッチ化のニーズに対応。「IEC 62605:2016」(ed.2.0)と同期。 LeXML v.3.1
2021年9月に公開。オンラインサービスやアプリ等での表示形式多 様化に対応。項目内ブロック化、用例記述、ラベル分類等を強化。 「IEC 62605:2021」(ed.3.0)と同期。
常時改訂とメンテナンス • (書籍版とは分岐した)デジタル版の作成 ◦ デジタル環境に最適化(主に外字) • デジタル版コンテンツ(XML)の定期更新 ◦ 最新情報の取り込み •
編集支援システム(DB)への投入および出力 データのXML整備 ◦ DBでは手が届かない箇所の手当 • データ更新の“見える化”
LeXML採用コンテンツ数
LeXML概要 LeXMLのタグ構造とエンティティ
LeXMLの基本方針と特長 1. シンプルな構造 a. 文系編集者でもHTMLレベルの知識があればチェックや編集が可能 b. 複雑な入れ子構造はできるだけ排除 c. 属性名で日本語を許容し、タグ数を極力減らす ※中型国語辞典ELEMENT数:Aは約40、Bは約160、LeXML採用のCは27。
2. 辞書の個性の尊重 a. "先に器あり"の固定フォーマットではなく、特に属性指定の自由度によっ て、辞書の個性を保持できる 3. 作り込みの自由度 a. 具体的な活用ニーズやデジタル化にかけられるコストに合わせて、作り込 み度を自由に設定ができる b. 段階的なブラッシュアップ・リッチ化が可能
LeXMLの文書形式とエンコーディング • 仕様書では、XML文書型やエンコーディングにつ いて触れていますが... ↓ • 実際には文書型宣言やルート要素は省略 :辞書項目単位で構造チェック • 社内作業(編集/処理)はシフトJISベース
:必要に応じてユニコード変換して納品 • DTDは一応用意していますが、実際に使用されたのは(おそら く)1社だけ...。
LeXMLの基本構造①項目単位 項目単位を構成するのはdic-item。 この単位の選定がとても重要。 <dic-item id="ABC00000100"> <head> <headword>みだし・ご</headword> <key>みだしご</key> <headword type="表記">見出し語</headword>
<key type="表記">見出し語</key> </head> <meaning>語義語釈、解説など</meaning> <example>用例</example> <subhead subid=”ABC00000100#01”> <subheadword type="子見出し">子見出し(派生語、複合語、成句など) </subheadword> <key type="子見出しかな">こみだし</key> <key type="子見出し表記">子見出し</key> <meaning>子見出しの語義語釈・解説など </meaning> </subhead> </dic-item>
LeXMLの基本構造②見出し語 head 見出し語グループ headword 見出し語。type 属性を指定。 英和辞典の場合
国語辞典の場合
LeXMLの基本構造③本文・用例 meaning 解説本文 example 用例
LeXMLの基本構造④子見出し subhead 子見出しブロック subheadword 見出し語(子見出し)
辞書の特徴的な表現への対応 • 追い込みが多い →改行タイミングの決定が重要 • 親見出しの省略が多い →キーワード、用例等での補完 • ラベル類はカオス(特に改訂を重ねたもの) :〔電算〕〔コン〕〔コンピ〕〔コンプ〕〔IT〕
• ページ依存の記述 :「次頁」「前項」「↑」「左表」「右段」「巻末」 • 外字が多い →後述
検索用キーワードの切り出しと正規化 1. 不要な情報の削除 **leave1 重要語記号・肩番号をトル →「leave」 *dic・tion・ar・y重要語記号・分綴記号をトル →「dictionary」 äußer 欧文特殊文字の正規化
→「ausser」 ×伊▽勢海=老 漢字表記に関する情報をトル →「伊勢海老」 2. 省略された情報の補完 A・mer・i・can・ize, (英) -ise →「Americanize」「Americanise」 dig・it・al/~・ly →「digital」「digitally」 3. 言い換えの展開 en・cy・clo・p(a)e・di・a →「encyclopaedia」「encyclopedia」 cómpact dìsc [dìsk] →「compact disc」「comapct disk」
日本語見出しの特殊事情 検索システム側で吸収するのが理想的ですが... 1. ひらがな・カタカナ・漢字・英数字(全角半角/大文字小文字)の混在。 2. 清音、(半)濁音、拗促音の“揺れ”。 3. カタカナ表記の“揺れ”。特にヴァ行と長音(ー)。 アクティブウインドー/アクティブウインドウ/アクティヴウインドー/アクチブウインドー
4. 複数の漢字表記がある。当て字、新字体/旧字体。 あくたがわ‐りゅうのすけ【芥川竜之介】→ KEY:芥川竜之介/芥川龍之介 けいおうぎじゅく‐だいがく【慶応義塾大学】→ KEY:慶応義塾大学/慶應義塾大学/慶應義塾大學 5. 送り仮名の付け方に許容が認められている。 うめたて‐ち【埋(め)立(て)地】→ KEY: 埋立地/埋め立地/埋立て地/埋め立て地 6. 辞書上では漢字が充てられているが、交ぜ書きが一般的なもの。 せっ‐けん【石×鹸】→ KEY: 石鹸/石けん 7. 学習辞典における教育漢字の影響。 けんびきょう【けんび 4鏡】→KEY:けんび鏡/顕微鏡 8. 踊り字。 じじ‐こっこく【時時刻刻】→KEY:時時刻刻/時々刻々
参照リンクの埋め込み • “を見よ”参照と「カラ項目」 • “をも見よ”参照 • 対語、反対語、活用・変化形、派生語... • 自項目内参照、多項目“内”参照
※アンマッチは必ず、それも大量に発生 ➢ (改訂時等で)参照先が削除された ➢ 参照元と参照先文字列の表記揺れ ➢ そもそも立項していない(開き直り)
“外字”対応 • 語学辞書はとにかく“外字”が多い。ソースデータ(組版データ) で数百種類はザラ。数千種類であることも。 • LeXML自体はユニコードに対応しているが、諸々の事情から 安全策として、JIS第一水準・第二水準を基準としている。これ 以外の文字の表現には以下の方法を使用。 ①HTMLのエンティティ定義 ②LeXMLで独自に拡張定義した実体参照
③ユニコードの数値参照 ④外字画像 • もちろん、ユニコード変換して納品、というパターンも増えてき ている。
“外字”記述 ①HTMLのエンティティ定義 á=「á」、æ=「æ」、©=「©」など。 ②LeXMLで独自に拡張定義した実体参照 ā=「ā」、&scripta;=「ɑ」(≠「a」)、ŋ=「ŋ」、&yubisashi;=「☞」、&bc1;=「❶」、 ⅓=「⅓」など。 ③ユニコードの数値参照 U+9127
=「鄧」 =「鄧」 =「鄧」 U+9AD9 =「髙」 =「髙」 =「髙」 ④外字タグ <gi set=”(外字セット名)” name=”(外字コード)” /> <gix alt="叱">𠮟</gix>
検証と納品 • 専用ツールでXML構造をチェック • 「誤植のない辞書はない」ため、機械判定のでき ない誤植や内容に関する修正は半永久的に続 く... • そのため、バージョン管理がとても重要 •
納品物は基本的に以下の通り ◦ XML本体 ◦ タグカウントリスト:更新の都度 ◦ データ仕様書:タグに変更があった場合のみ更新 ※最大の仕事は数合わせだったり...
国際標準 IEC 62605 国際標準化と今後の展開
辞書標準の実際 •タグテキスト •TSV/CSV(エクセル) •DB(アクセス/etc.) •SGML •HTML/XHTML •XML ◦CollexML ◦OxMonolingML&OxBilingML ◦Franklin
Dictionary Neutral XML ◦LeXML マスタ&交換フォーマット •WING/EPWING (JISX4081) /ONESWING •EB/EBG/EBXA/BBeB •XMDF •Mobipocket / KindleGen •EPUB 3 Dictionaries and Glossaries •その他、多くの独自フォーマット リーダー供用フォーマット オーサリング/インデキシング
Edition 1.0(2011):国際標準化の手続き 2005年 JEITA E-Book標準化G発足 2007年 IEC会合で日本が標準化提案 2008年 TC100/TAで仕様策定開始 ←JEPAレファレンス委員会が オブザーバ参加 2009年 CD(委員会原案)を提出
2011年 「IEC 62605:2011」公開 Multimedia systems and equipment - Multimedia e-publishing and e-books - Interchange format for e-dictionaries
Edition 2.0(2016):LeXML完全同期 • IEC62605:2011(ed.1) ◦ 辞書本体部分はLeXML v.2.0βがベース ◦ 全体構造、書誌、マルチメディア機能等は 「IEC62448
Annex B」(XMDF)で規定 ◦ 電子辞書・オンライン辞書等の実績ベースの仕様 • IEC62605:2016(ed.2) ◦ ed.1規定文書をAnnex Aに移行 ◦ Annex Bの仕様策定をLeXML v.3.0と同期 ◦ スマホアプリ等を意識した自由度の高い表現
Edition 3.0(2021):数式と漢文対応 • パーソナライズ等、表示可変に対応 ◦ 解説本文のブロック深化 ◦ 重要記述、スニペット • データベース機能の強化
◦ 典拠用例記述の詳細化 ◦ ラベル類の体系化、コード対応 • 外字記述形式の多様化 ◦ システム・デバイス別の切替に対応 • 学参需要に備える ◦ 数式対応(MathML、MathJax) ◦ 漢文対応(※これがもう大変)
Edition 4.0(2025):LeXML v.4.0と共に • ボーンデジタルの環境を整える • アクセシビリティ強化 • 多様な検索に備える •
辞書表現の固定概念からの脱却
おわりに LeXMLはどのようにして普及したか
LeXMLの場合... • 必要に応じて、必要な分だけ • 共通化要素と自由に記述できる部分の仕分け ◦ 共通化要素=データ処理担当者の評価 ◦ 自由な記述=発注側(出版社)の評価 •
クライアント(辞書編集者)を巻き込む • (辞書に限れば)汎用的な編集支援システムは ハードルが高い • "交換フォーマット"と割り切って、即応性とコスト パフォーマンス最優先