Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki

XSPA
August 02, 2019

Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki

学術情報XML推進協議会セミナー
日時 :2019年8月2日(金曜日)15:00 – 17:30
場所: DMZ WORK

XSPA

August 02, 2019
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. Text Encoding Initiative
    のご紹介
    永崎研宣
    一般財団法人人文情報学研究所 主席研究員

    View Slide

  2. TEIとは
    • TEI (Text Encoding Initiative)協会が作っているTEI
    ガイドラインを指すことが多い。
    • 1987年に始まる人文学研究者・情報系研究者
    と図書館司書による電子テクストの効果的効率
    的な共有のためのコミュニティ活動
    • 当初の状況:https://doi.org/10.24576/jadh.1.0_3
    • 現在の状況:
    • 選挙により選ばれた理事会が運営
    • 技術委員会を作ってメンバーをコミュニティで選任し、
    「ガイドライン」をアップデートし続けている。
    • テクスト以外も対象にしている。

    View Slide

  3. 現在の運営体制
    • 公式サイトより:
    • 投票で選ばれた理事会と技術委員会
    • 理事会メンバーの所属:
    歴史学教授(米国)、歴史学教授(オーストリア)文学研
    究員(アルゼンチン)、研究員(オーストリア国立図書
    館)、研究部⾧(英国国立公文書館)
    • 技術委員会の所属:
    英文学准教授(米国)、英文学上級講師(英国)、大学図
    書館デジタル部門⾧(米国)、大学情報モデリングセン
    ター研究員(オーストリア)、企業研究者(ドイツ)、大
    学エンジニア(米国)、大学研究員(米国)、大学古典研
    究室プログラマ(米国)、大学研究プログラマ(米国)

    View Slide

  4. TEIガイドラインとは
    • 人文学向け資料を共有しやすいように構造化(現時点ではXML化)す
    るためのルール
    • 言語学・文献学・文学研究向けのルールセット
    • 研究用ツール作成のためのルールも含む
    • 辞書、図形、外字、詳細な書誌情報、
    • 「どの情報は誰に責任があるか」「どの程度あてになるか」の記述
    • 一度書けば色々なアプリで活用できるように
    • 研究に活用できる要素をうまく抽出・記述
    • 専門家が付与した詳細情報が永続的に使える
    ように
    • =ソフトが変わって使えなくなった、という
    ことがないように

    View Slide

  5. ガイドラインの内容
    • https://www.tei-c.org/release/doc/tei-p5-
    doc/en/html/index.html
    • 日本語による日本語向けガイドラインの構築
    • https://github.com/TEI-EAJ/jp_guidelines/wiki
    • TEI Consortium, SIG East Asian/Japaneseによる

    View Slide

  6. TEIの普及状況
    • 研究助成金の審査で「標準的な規格に沿って成果を公
    開するか」問われるため、TEIを使わざるを得ない状況
    もある。
    • 欧州では広く使われている。
    • 中世研究においては大学院の教育カリキュラムに含まれてい
    る。
    • 「リヨン高等師範学校講義「中世手稿のデジタル編集」参加記」
    http://www.dhii.jp/DHM/dhm57-2
    • デジタル・ヒューマニティーズにおいても基本科目として教
    えられている。
    • 北米でも多くの大学で利用されている。
    • ただし、「深く読む」ことに関心がない研究者からは関心を
    持たれにくい。
    • DHのサマースクールで入門編~実践・応用編
    • ヴィクトリア大学(800人規模)、オックスフォード大学(50人規
    模)、ライプツィヒ大学(?人規模)

    View Slide

  7. TEIの役割の変遷
    • かつては「テキストデータに書誌情報を付ける
    共通の方法」としての有用性が重視
    • 言語コーパスに文法情報等をつける方法として
    • 全部手動というより、自動化して人が修正した結果
    を共有する方法として
    • 様々な異文を記述する方法として
    • 同上
    • 「手動で入力の成果を保存」から「機械入力の
    結果を手動で修正して共有」へ

    View Slide

  8. TEI/XMLのエコシステム
    TEI/XMLファ
    イル
    TEI/XML
    スキーマ
    ファイル
    記述したタグ同士の
    関係がルールに沿っ
    ているかどうか確認
    TEIガイド
    ライン
    TEIガイドラインをコン
    ピュータが読める形で書
    いたファイル
    http://www.tei-c.org/Roma/
    で機械的に生成 or
    oXygenに初期設定済み
    各種変換プロ
    グラム
    「validation」
    紙媒体に
    印刷
    Webサイ
    トで公開
    データベースで
    検索表示
    TAPASリポジトリ
    に掲載
    XSLTをはじめ、様々
    なプログラミング言
    語が利用可能
    読んでフィー
    ドバック

    View Slide

  9. XMLのエコシステムとほぼ同じ
    • XMLは非常に普及したフォーマットになったため、
    それまでと比べて開発用ソフトウェア環境が整備さ
    れ、入門書やチュートリアルもたくさん行われるよ
    うになった。
    • エコシステムそのものを導入できるようになった。
    • それ以前に採用していたSGMLは大変だった
    • TEIは、XMLの策定(1998年)に際していくつかの貢
    献を行った。
    • 別の良いエコシステムが登場したら移行する可能性
    • これもコミュニティでのサポートが前提となる

    View Slide

  10. 利用例の一部
    • Faust Edition (異版の校合)
    • http://www.faustedition.net/
    • Folger Digital Texts (Shakespeare) (内容の分析)
    • https://www.folgerdigitaltexts.org/
    • British National Corpus (1億語の単語品詞情報)
    • http://www.natcorp.ox.ac.uk/
    • Perseus Digital Library (基本的な文書構造)
    • http://www.perseus.tufts.edu/hopper/
    • Cambridge Digital Library (詳細な書誌情報)
    • https://cudl.lib.cam.ac.uk/
    • Vincent van Gogh Letters (書簡の構造的情報と対訳)
    • http://vangoghletters.org/vg/

    View Slide

  11. 日本語資料での利用例
    • デモを少し
    • 走れメロス
    • 源氏物語
    • 行歴抄
    • 書簡集

    View Slide

  12. 使い方・始め方
    • ワークショップへの参加(随時開催)
    • 直近では8/29, 関西大学にて
    • Oxygen XML Editorが推奨される
    • 新規作成⇒フレームワークテンプレート⇒TEI Allを選択
    • 日本語解説付きスキーマの入手
    • https://tei-c.org/ ⇒ Tools ⇒ Roma
    • 日本語資料の利用例として:
    • 青空文庫でTEIプロジェクト
    • https://github.com/TEI-EAJ/aozora_tei
    • その他の解説
    • 『歴史情報学の教科書』文学通信 第8章
    • http://digitalnagasaki.hatenablog.com/ を「TEI」タグで

    View Slide