Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本のデジタル辞書を支えるXMLフォーマット"LeXML"

XSPA
May 24, 2022

 日本のデジタル辞書を支えるXMLフォーマット"LeXML"

学術情報XML推進協議会セミナー
日時 :2022年5月18日(水曜日)
場所:WEB会議システム ZOOM

XSPA

May 24, 2022
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. 日本のデジタル辞書を支える

    XMLフォーマット “LeXML”
    2022年5月18日


    株式会社ディジタルアシスト

    永田 健児


    View full-size slide

  2. 自己紹介

    1990 日外アソシエーツ(株)入社

    ● 書誌DB、新聞記事DB、電子ブック、EPWING...

    2000 イースト(株)入社

    ● 官報XML、DicX、三省堂WebDictionary...

    2001 ディジタルアシスト起業

    ● 辞書事典類のデジタル化専業

    ● 辞書専用XMLフォーマット「LeXML」の策定・公開

    ● IEC TC100/TA10で国際標準策定


    日本電子出版協会(JEPA)理事/レファレンス委員会委員長


    View full-size slide

  3. LeXML以前

    辞書の基本構造とデジタル辞書の歴史


    View full-size slide

  4. 電卓から電子辞書へ

    1979 シャープがポケット電訳機「IQ-3000」を発売

    英和2800語+和英5000語/アルファベットとカタカナ(16桁×1行)

    1987 三洋電機がIC辞書「電字林PD-1」を発売

    英和約3万5000語/漢字仮名まじり表示に対応

    1992 セイコーがIC辞書「TR-700」を発売

    研究社『新英和・和英中辞典』/フルコンテンツ収録 

    1996 カシオ計算機が電子辞書「XD-500」を発売

    エクスワード1号機/タッチパネル

    View full-size slide

  5. CD-ROM辞書とマルチメディア

    1985 『最新科学技術用語辞典』(三修社)

    1987 『広辞苑 第三版 CD-ROM版』(岩波書店)

    1990 ソニーが「データディスクマンDD-1」を発売

     同時に電子ブックコミッティ設立

    1991 EPWINGコンソーシアム設立

    1995 富士通が自社PCにCD-ROM辞書を標準搭載

    1997 JIS X4081「日本語電子出版検索データ構造」


    View full-size slide

  6. デジタル辞書の系譜


    View full-size slide

  7. LeXML誕生

    LeXMLの策定と普及


    View full-size slide

  8. DicXと三省堂WebDictionary
    ● 2000年初夏に「三省堂WebDictionary」企画スタート
    (三省堂創業120周年記念事業)。

    ● 16種類/120万語の辞書データを“統一された形式”
    で整備する必要が生じる。

    ● しかも、国語、ことわざ・慣用句、英和、和英、独
    和、仏和、地名と多種多様。

    ● 辞書フォーマット(DicX)の設計、XML変換と調整、
    システム開発・検証を並行して進め、サービス開始
    当日(2001年1月12日)未明になんとか完成。


    View full-size slide

  9. 電子辞書の進化とJapanKnowledge
    高校生モデル

    カラー液晶

    音声読み上げ

    第二外国語/メモリーカード/医療モデル

    中学生モデル

    小学生モデル

    手書きパッド

    ワンセグ

    動画コンテンツ

    小学校低学年モデル

    発音聞き比べ

    ○

    『日本歴史地名大系』追加

    『国史大辞典』追加

    『日本国語大辞典』追加

    『大漢和辞典』追加

    独和・仏和大辞典追加

    『ランダムハウス英和大辞典』追加


    View full-size slide

  10. 辞書コンテンツのXML化

    組版出力
    データ

    組版ソース
    データ

    XML変換

    ・項目確定

    ・見出し語

    ・語義語釈

    ・用例

    ・子見出し

    ・コラム

    データ

    クリーニング

    リッチ化

    ・検索キー

    ・参照リンク

    ・省略復元

    ・外字

    ・画像

    ・音声

    チェック

    調整

    納品XML


    View full-size slide

  11. LeXML v.1.0~2.0β
    LeXML v.1.0

    2002年10月に公開。約100タイトルのXML化実績に基づく。電
    子辞書専用機向けの機能を拡充。

    LeXML v.2.0β
    2007年12月に公開。約200タイトルのXML化実績に基づく。電
    子辞書専用機の機能強化や常時改訂コンテンツのマスタ管理
    用途など。「IEC 62605:2011」に採用。


    View full-size slide

  12. 企画・編集支援、版下作成

    オリジナル

    XML

    データ修正

    データ更新

    データ処理

    データ修正

    データ更新

    データ処理

    XMLチェック

    差分チェック

    調整


    索引作成

    組版

    納品XML

    通しゲラ

    抽出ゲラ

    作業用データ

    (エクセル)

    新規追加原稿

    修正原稿


    View full-size slide

  13. LeXML v.3.0~3.1
    LeXML v.3.0
    2014年10月に公開。約500タイトル(LeXML以外含む)のXML化実績
    に基づく。スマホアプリ向けのデータリッチ化のニーズに対応。「IEC
    62605:2016」(ed.2.0)と同期。


    LeXML v.3.1
    2021年9月に公開。オンラインサービスやアプリ等での表示形式多
    様化に対応。項目内ブロック化、用例記述、ラベル分類等を強化。
    「IEC 62605:2021」(ed.3.0)と同期。


    View full-size slide

  14. 常時改訂とメンテナンス

    ● (書籍版とは分岐した)デジタル版の作成

    ○ デジタル環境に最適化(主に外字)

    ● デジタル版コンテンツ(XML)の定期更新

    ○ 最新情報の取り込み

    ● 編集支援システム(DB)への投入および出力
    データのXML整備

    ○ DBでは手が届かない箇所の手当

    ● データ更新の“見える化”


    View full-size slide

  15. LeXML採用コンテンツ数


    View full-size slide

  16. LeXML概要

    LeXMLのタグ構造とエンティティ


    View full-size slide

  17. LeXMLの基本方針と特長

    1. シンプルな構造

    a. 文系編集者でもHTMLレベルの知識があればチェックや編集が可能

    b. 複雑な入れ子構造はできるだけ排除

    c. 属性名で日本語を許容し、タグ数を極力減らす

    ※中型国語辞典ELEMENT数:Aは約40、Bは約160、LeXML採用のCは27。

    2. 辞書の個性の尊重

    a. "先に器あり"の固定フォーマットではなく、特に属性指定の自由度によっ
    て、辞書の個性を保持できる

    3. 作り込みの自由度

    a. 具体的な活用ニーズやデジタル化にかけられるコストに合わせて、作り込
    み度を自由に設定ができる

    b. 段階的なブラッシュアップ・リッチ化が可能


    View full-size slide

  18. LeXMLの文書形式とエンコーディング

    ● 仕様書では、XML文書型やエンコーディングにつ
    いて触れていますが...

    ↓

    ● 実際には文書型宣言やルート要素は省略

    :辞書項目単位で構造チェック

    ● 社内作業(編集/処理)はシフトJISベース

    :必要に応じてユニコード変換して納品

    ● DTDは一応用意していますが、実際に使用されたのは(おそら
    く)1社だけ...。


    View full-size slide

  19. LeXMLの基本構造①項目単位

    項目単位を構成するのはdic-item。

    この単位の選定がとても重要。



    みだし・ご
    みだしご
    見出し語
    見出し語

    語義語釈、解説など
    用例

    子見出し(派生語、複合語、成句など)

    こみだし
    子見出し
    子見出しの語義語釈・解説など



    View full-size slide

  20. LeXMLの基本構造②見出し語

    head 見出し語グループ

    headword 見出し語。type 属性を指定。

    英和辞典の場合 




    国語辞典の場合


    View full-size slide

  21. LeXMLの基本構造③本文・用例

    meaning 解説本文

    example 用例


    View full-size slide

  22. LeXMLの基本構造④子見出し

    subhead    子見出しブロック

    subheadword 見出し語(子見出し)


    View full-size slide

  23. 辞書の特徴的な表現への対応

    ● 追い込みが多い

    →改行タイミングの決定が重要

    ● 親見出しの省略が多い

    →キーワード、用例等での補完

    ● ラベル類はカオス(特に改訂を重ねたもの)

    :〔電算〕〔コン〕〔コンピ〕〔コンプ〕〔IT〕

    ● ページ依存の記述

    :「次頁」「前項」「↑」「左表」「右段」「巻末」

    ● 外字が多い

    →後述


    View full-size slide

  24. 検索用キーワードの切り出しと正規化

    1. 不要な情報の削除

    **leave1 重要語記号・肩番号をトル →「leave」

    *dic・tion・ar・y重要語記号・分綴記号をトル →「dictionary」

    äußer 欧文特殊文字の正規化 →「ausser」

    ×伊▽勢海=老 漢字表記に関する情報をトル →「伊勢海老」


    2. 省略された情報の補完

    A・mer・i・can・ize, (英) -ise →「Americanize」「Americanise」

    dig・it・al/~・ly →「digital」「digitally」


    3. 言い換えの展開

    en・cy・clo・p(a)e・di・a →「encyclopaedia」「encyclopedia」

    cómpact dìsc [dìsk] →「compact disc」「comapct disk」

    View full-size slide

  25. 日本語見出しの特殊事情

    検索システム側で吸収するのが理想的ですが...


    1. ひらがな・カタカナ・漢字・英数字(全角半角/大文字小文字)の混在。

    2. 清音、(半)濁音、拗促音の“揺れ”。

    3. カタカナ表記の“揺れ”。特にヴァ行と長音(ー)。

    アクティブウインドー/アクティブウインドウ/アクティヴウインドー/アクチブウインドー 

    4. 複数の漢字表記がある。当て字、新字体/旧字体。

    あくたがわ‐りゅうのすけ【芥川竜之介】→ KEY:芥川竜之介/芥川龍之介 

    けいおうぎじゅく‐だいがく【慶応義塾大学】→ KEY:慶応義塾大学/慶應義塾大学/慶應義塾大學 

    5. 送り仮名の付け方に許容が認められている。

    うめたて‐ち【埋(め)立(て)地】→ KEY: 埋立地/埋め立地/埋立て地/埋め立て地 

    6. 辞書上では漢字が充てられているが、交ぜ書きが一般的なもの。

    せっ‐けん【石×鹸】→ KEY: 石鹸/石けん 

    7. 学習辞典における教育漢字の影響。

    けんびきょう【けんび 4鏡】→KEY:けんび鏡/顕微鏡 

    8. 踊り字。

    じじ‐こっこく【時時刻刻】→KEY:時時刻刻/時々刻々 


    View full-size slide

  26. 参照リンクの埋め込み

    ● “を見よ”参照と「カラ項目」

    ● “をも見よ”参照

    ● 対語、反対語、活用・変化形、派生語...

    ● 自項目内参照、多項目“内”参照


    ※アンマッチは必ず、それも大量に発生

    ➢ (改訂時等で)参照先が削除された

    ➢ 参照元と参照先文字列の表記揺れ

    ➢ そもそも立項していない(開き直り)


    View full-size slide

  27. “外字”対応

    ● 語学辞書はとにかく“外字”が多い。ソースデータ(組版データ)
    で数百種類はザラ。数千種類であることも。

    ● LeXML自体はユニコードに対応しているが、諸々の事情から
    安全策として、JIS第一水準・第二水準を基準としている。これ
    以外の文字の表現には以下の方法を使用。

    ①HTMLのエンティティ定義

    ②LeXMLで独自に拡張定義した実体参照

    ③ユニコードの数値参照

    ④外字画像

    ● もちろん、ユニコード変換して納品、というパターンも増えてき
    ている。


    View full-size slide

  28. “外字”記述

    ①HTMLのエンティティ定義

    á=「á」、æ=「æ」、©=「©」など。


    ②LeXMLで独自に拡張定義した実体参照

    ā=「ā」、&scripta;=「ɑ」(≠「a」)、ŋ=「ŋ」、&yubisashi;=「☞」、&bc1;=「❶」、
    ⅓=「⅓」など。


    ③ユニコードの数値参照

    U+9127 =「鄧」 =「鄧」 =「鄧」

    U+9AD9 =「髙」 =「髙」 =「髙」


    ④外字タグ


    𠮟


    View full-size slide

  29. 検証と納品

    ● 専用ツールでXML構造をチェック

    ● 「誤植のない辞書はない」ため、機械判定のでき
    ない誤植や内容に関する修正は半永久的に続
    く...

    ● そのため、バージョン管理がとても重要

    ● 納品物は基本的に以下の通り

    ○ XML本体

    ○ タグカウントリスト:更新の都度

    ○ データ仕様書:タグに変更があった場合のみ更新

    ※最大の仕事は数合わせだったり...


    View full-size slide

  30. 国際標準 IEC 62605

    国際標準化と今後の展開


    View full-size slide

  31. 辞書標準の実際

    ●タグテキスト
    ●TSV/CSV(エクセル)
    ●DB(アクセス/etc.)
    ●SGML
    ●HTML/XHTML
    ●XML
    ○CollexML
    ○OxMonolingML&OxBilingML
    ○Franklin Dictionary Neutral XML
    ○LeXML
    マスタ&交換フォーマット

    ●WING/EPWING (JISX4081)
    /ONESWING
    ●EB/EBG/EBXA/BBeB
    ●XMDF
    ●Mobipocket / KindleGen
    ●EPUB 3 Dictionaries and
    Glossaries
    ●その他、多くの独自フォーマット
    リーダー供用フォーマット

    オーサリング/インデキシング


    View full-size slide

  32. Edition 1.0(2011):国際標準化の手続き

    2005年 JEITA E-Book標準化G発足

    2007年 IEC会合で日本が標準化提案

    2008年 TC100/TAで仕様策定開始

    ←JEPAレファレンス委員会が

     オブザーバ参加

    2009年 CD(委員会原案)を提出

    2011年 「IEC 62605:2011」公開


    Multimedia systems and equipment - Multimedia e-publishing and
    e-books - Interchange format for e-dictionaries


    View full-size slide

  33. Edition 2.0(2016):LeXML完全同期

    ● IEC62605:2011(ed.1)

    ○ 辞書本体部分はLeXML v.2.0βがベース

    ○ 全体構造、書誌、マルチメディア機能等は

    「IEC62448 Annex B」(XMDF)で規定

    ○ 電子辞書・オンライン辞書等の実績ベースの仕様


    ● IEC62605:2016(ed.2)

    ○ ed.1規定文書をAnnex Aに移行

    ○ Annex Bの仕様策定をLeXML v.3.0と同期

    ○ スマホアプリ等を意識した自由度の高い表現


    View full-size slide

  34. Edition 3.0(2021):数式と漢文対応

    ● パーソナライズ等、表示可変に対応

    ○ 解説本文のブロック深化

    ○ 重要記述、スニペット

    ● データベース機能の強化

    ○ 典拠用例記述の詳細化

    ○ ラベル類の体系化、コード対応

    ● 外字記述形式の多様化

    ○ システム・デバイス別の切替に対応

    ● 学参需要に備える

    ○ 数式対応(MathML、MathJax)

    ○ 漢文対応(※これがもう大変)


    View full-size slide

  35. Edition 4.0(2025):LeXML v.4.0と共に

    ● ボーンデジタルの環境を整える

    ● アクセシビリティ強化

    ● 多様な検索に備える

    ● 辞書表現の固定概念からの脱却


    View full-size slide

  36. おわりに

    LeXMLはどのようにして普及したか


    View full-size slide

  37. LeXMLの場合...

    ● 必要に応じて、必要な分だけ

    ● 共通化要素と自由に記述できる部分の仕分け

    ○ 共通化要素=データ処理担当者の評価

    ○ 自由な記述=発注側(出版社)の評価

    ● クライアント(辞書編集者)を巻き込む

    ● (辞書に限れば)汎用的な編集支援システムは
    ハードルが高い

    ● "交換フォーマット"と割り切って、即応性とコスト
    パフォーマンス最優先


    View full-size slide