Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本のデジタル辞書を支えるXMLフォーマット"LeXML"

XSPA
May 24, 2022

 日本のデジタル辞書を支えるXMLフォーマット"LeXML"

学術情報XML推進協議会セミナー
日時 :2022年5月18日(水曜日)
場所:WEB会議システム ZOOM

XSPA

May 24, 2022
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. 自己紹介
 1990 日外アソシエーツ(株)入社
 • 書誌DB、新聞記事DB、電子ブック、EPWING...
 2000 イースト(株)入社
 • 官報XML、DicX、三省堂WebDictionary...
 2001 ディジタルアシスト起業


    • 辞書事典類のデジタル化専業
 • 辞書専用XMLフォーマット「LeXML」の策定・公開
 • IEC TC100/TA10で国際標準策定
 
 日本電子出版協会(JEPA)理事/レファレンス委員会委員長
 

  2. 電子辞書の進化とJapanKnowledge 高校生モデル
 カラー液晶
 音声読み上げ
 第二外国語/メモリーカード/医療モデル
 中学生モデル
 小学生モデル
 手書きパッド
 ワンセグ
 動画コンテンツ


    小学校低学年モデル
 発音聞き比べ
 ◦
 『日本歴史地名大系』追加
 『国史大辞典』追加
 『日本国語大辞典』追加
 『大漢和辞典』追加
 独和・仏和大辞典追加
 『ランダムハウス英和大辞典』追加

  3. 辞書コンテンツのXML化
 組版出力 データ
 組版ソース データ
 XML変換
 ・項目確定
 ・見出し語
 ・語義語釈
 ・用例


    ・子見出し
 ・コラム
 データ
 クリーニング
 リッチ化
 ・検索キー
 ・参照リンク
 ・省略復元
 ・外字
 ・画像
 ・音声
 チェック
 調整
 納品XML

  4. 企画・編集支援、版下作成
 オリジナル
 XML
 データ修正
 データ更新
 データ処理
 データ修正
 データ更新
 データ処理
 XMLチェック


    差分チェック
 調整
 
 索引作成
 組版
 納品XML
 通しゲラ
 抽出ゲラ
 作業用データ
 (エクセル)
 新規追加原稿
 修正原稿

  5. LeXML v.3.0~3.1 LeXML v.3.0 2014年10月に公開。約500タイトル(LeXML以外含む)のXML化実績 に基づく。スマホアプリ向けのデータリッチ化のニーズに対応。「IEC 62605:2016」(ed.2.0)と同期。
 
 LeXML v.3.1

    2021年9月に公開。オンラインサービスやアプリ等での表示形式多 様化に対応。項目内ブロック化、用例記述、ラベル分類等を強化。 「IEC 62605:2021」(ed.3.0)と同期。

  6. 常時改訂とメンテナンス
 • (書籍版とは分岐した)デジタル版の作成
 ◦ デジタル環境に最適化(主に外字)
 • デジタル版コンテンツ(XML)の定期更新
 ◦ 最新情報の取り込み
 •

    編集支援システム(DB)への投入および出力 データのXML整備
 ◦ DBでは手が届かない箇所の手当
 • データ更新の“見える化”

  7. LeXMLの基本方針と特長
 1. シンプルな構造
 a. 文系編集者でもHTMLレベルの知識があればチェックや編集が可能
 b. 複雑な入れ子構造はできるだけ排除
 c. 属性名で日本語を許容し、タグ数を極力減らす
 ※中型国語辞典ELEMENT数:Aは約40、Bは約160、LeXML採用のCは27。


    2. 辞書の個性の尊重
 a. "先に器あり"の固定フォーマットではなく、特に属性指定の自由度によっ て、辞書の個性を保持できる
 3. 作り込みの自由度
 a. 具体的な活用ニーズやデジタル化にかけられるコストに合わせて、作り込 み度を自由に設定ができる
 b. 段階的なブラッシュアップ・リッチ化が可能

  8. LeXMLの基本構造①項目単位
 項目単位を構成するのはdic-item。
 この単位の選定がとても重要。
 <dic-item id="ABC00000100"> <head> <headword>みだし・ご</headword> <key>みだしご</key> <headword type="表記">見出し語</headword>

    <key type="表記">見出し語</key> </head> <meaning>語義語釈、解説など</meaning> <example>用例</example> <subhead subid=”ABC00000100#01”> <subheadword type="子見出し">子見出し(派生語、複合語、成句など) </subheadword> <key type="子見出しかな">こみだし</key> <key type="子見出し表記">子見出し</key> <meaning>子見出しの語義語釈・解説など </meaning> </subhead> </dic-item>
  9. 検索用キーワードの切り出しと正規化
 1. 不要な情報の削除
 **leave1 重要語記号・肩番号をトル →「leave」
 *dic・tion・ar・y重要語記号・分綴記号をトル →「dictionary」
 äußer 欧文特殊文字の正規化

    →「ausser」
 ×伊▽勢海=老 漢字表記に関する情報をトル →「伊勢海老」
 
 2. 省略された情報の補完
 A・mer・i・can・ize, (英) -ise →「Americanize」「Americanise」
 dig・it・al/~・ly →「digital」「digitally」
 
 3. 言い換えの展開
 en・cy・clo・p(a)e・di・a →「encyclopaedia」「encyclopedia」
 cómpact dìsc [dìsk] →「compact disc」「comapct disk」
  10. 日本語見出しの特殊事情
 検索システム側で吸収するのが理想的ですが...
 
 1. ひらがな・カタカナ・漢字・英数字(全角半角/大文字小文字)の混在。
 2. 清音、(半)濁音、拗促音の“揺れ”。
 3. カタカナ表記の“揺れ”。特にヴァ行と長音(ー)。
 アクティブウインドー/アクティブウインドウ/アクティヴウインドー/アクチブウインドー

    
 4. 複数の漢字表記がある。当て字、新字体/旧字体。
 あくたがわ‐りゅうのすけ【芥川竜之介】→ KEY:芥川竜之介/芥川龍之介 
 けいおうぎじゅく‐だいがく【慶応義塾大学】→ KEY:慶応義塾大学/慶應義塾大学/慶應義塾大學 
 5. 送り仮名の付け方に許容が認められている。
 うめたて‐ち【埋(め)立(て)地】→ KEY: 埋立地/埋め立地/埋立て地/埋め立て地 
 6. 辞書上では漢字が充てられているが、交ぜ書きが一般的なもの。
 せっ‐けん【石×鹸】→ KEY: 石鹸/石けん 
 7. 学習辞典における教育漢字の影響。
 けんびきょう【けんび 4鏡】→KEY:けんび鏡/顕微鏡 
 8. 踊り字。
 じじ‐こっこく【時時刻刻】→KEY:時時刻刻/時々刻々 

  11. 参照リンクの埋め込み
 • “を見よ”参照と「カラ項目」
 • “をも見よ”参照
 • 対語、反対語、活用・変化形、派生語...
 • 自項目内参照、多項目“内”参照
 


    ※アンマッチは必ず、それも大量に発生
 ➢ (改訂時等で)参照先が削除された
 ➢ 参照元と参照先文字列の表記揺れ
 ➢ そもそも立項していない(開き直り)

  12. 検証と納品
 • 専用ツールでXML構造をチェック
 • 「誤植のない辞書はない」ため、機械判定のでき ない誤植や内容に関する修正は半永久的に続 く...
 • そのため、バージョン管理がとても重要
 •

    納品物は基本的に以下の通り
 ◦ XML本体
 ◦ タグカウントリスト:更新の都度
 ◦ データ仕様書:タグに変更があった場合のみ更新
 ※最大の仕事は数合わせだったり...

  13. 辞書標準の実際
 •タグテキスト •TSV/CSV(エクセル) •DB(アクセス/etc.) •SGML •HTML/XHTML •XML ◦CollexML ◦OxMonolingML&OxBilingML ◦Franklin

    Dictionary Neutral XML ◦LeXML マスタ&交換フォーマット
 •WING/EPWING (JISX4081) /ONESWING •EB/EBG/EBXA/BBeB •XMDF •Mobipocket / KindleGen •EPUB 3 Dictionaries and Glossaries •その他、多くの独自フォーマット リーダー供用フォーマット
 オーサリング/インデキシング

  14. Edition 2.0(2016):LeXML完全同期
 • IEC62605:2011(ed.1)
 ◦ 辞書本体部分はLeXML v.2.0βがベース
 ◦ 全体構造、書誌、マルチメディア機能等は
 「IEC62448

    Annex B」(XMDF)で規定
 ◦ 電子辞書・オンライン辞書等の実績ベースの仕様
 
 • IEC62605:2016(ed.2)
 ◦ ed.1規定文書をAnnex Aに移行
 ◦ Annex Bの仕様策定をLeXML v.3.0と同期
 ◦ スマホアプリ等を意識した自由度の高い表現
 

  15. Edition 3.0(2021):数式と漢文対応
 • パーソナライズ等、表示可変に対応
 ◦ 解説本文のブロック深化
 ◦ 重要記述、スニペット
 • データベース機能の強化


    ◦ 典拠用例記述の詳細化
 ◦ ラベル類の体系化、コード対応
 • 外字記述形式の多様化
 ◦ システム・デバイス別の切替に対応
 • 学参需要に備える
 ◦ 数式対応(MathML、MathJax)
 ◦ 漢文対応(※これがもう大変)

  16. LeXMLの場合...
 • 必要に応じて、必要な分だけ
 • 共通化要素と自由に記述できる部分の仕分け
 ◦ 共通化要素=データ処理担当者の評価
 ◦ 自由な記述=発注側(出版社)の評価
 •

    クライアント(辞書編集者)を巻き込む
 • (辞書に限れば)汎用的な編集支援システムは ハードルが高い
 • "交換フォーマット"と割り切って、即応性とコスト パフォーマンス最優先