Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki

XSPA
August 02, 2019

Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki

学術情報XML推進協議会セミナー
日時 :2019年8月2日(金曜日)15:00 – 17:30
場所: DMZ WORK

XSPA

August 02, 2019
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. TEIとは • TEI (Text Encoding Initiative)協会が作っているTEI ガイドラインを指すことが多い。 • 1987年に始まる人文学研究者・情報系研究者 と図書館司書による電子テクストの効果的効率

    的な共有のためのコミュニティ活動 • 当初の状況:https://doi.org/10.24576/jadh.1.0_3 • 現在の状況: • 選挙により選ばれた理事会が運営 • 技術委員会を作ってメンバーをコミュニティで選任し、 「ガイドライン」をアップデートし続けている。 • テクスト以外も対象にしている。
  2. 現在の運営体制 • 公式サイトより: • 投票で選ばれた理事会と技術委員会 • 理事会メンバーの所属: 歴史学教授(米国)、歴史学教授(オーストリア)文学研 究員(アルゼンチン)、研究員(オーストリア国立図書 館)、研究部⾧(英国国立公文書館)

    • 技術委員会の所属: 英文学准教授(米国)、英文学上級講師(英国)、大学図 書館デジタル部門⾧(米国)、大学情報モデリングセン ター研究員(オーストリア)、企業研究者(ドイツ)、大 学エンジニア(米国)、大学研究員(米国)、大学古典研 究室プログラマ(米国)、大学研究プログラマ(米国)
  3. TEIガイドラインとは • 人文学向け資料を共有しやすいように構造化(現時点ではXML化)す るためのルール • 言語学・文献学・文学研究向けのルールセット • 研究用ツール作成のためのルールも含む • 辞書、図形、外字、詳細な書誌情報、

    • 「どの情報は誰に責任があるか」「どの程度あてになるか」の記述 • 一度書けば色々なアプリで活用できるように • 研究に活用できる要素をうまく抽出・記述 • 専門家が付与した詳細情報が永続的に使える ように • =ソフトが変わって使えなくなった、という ことがないように
  4. TEIの普及状況 • 研究助成金の審査で「標準的な規格に沿って成果を公 開するか」問われるため、TEIを使わざるを得ない状況 もある。 • 欧州では広く使われている。 • 中世研究においては大学院の教育カリキュラムに含まれてい る。

    • 「リヨン高等師範学校講義「中世手稿のデジタル編集」参加記」 http://www.dhii.jp/DHM/dhm57-2 • デジタル・ヒューマニティーズにおいても基本科目として教 えられている。 • 北米でも多くの大学で利用されている。 • ただし、「深く読む」ことに関心がない研究者からは関心を 持たれにくい。 • DHのサマースクールで入門編~実践・応用編 • ヴィクトリア大学(800人規模)、オックスフォード大学(50人規 模)、ライプツィヒ大学(?人規模)
  5. TEI/XMLのエコシステム TEI/XMLファ イル TEI/XML スキーマ ファイル 記述したタグ同士の 関係がルールに沿っ ているかどうか確認 TEIガイド

    ライン TEIガイドラインをコン ピュータが読める形で書 いたファイル http://www.tei-c.org/Roma/ で機械的に生成 or oXygenに初期設定済み 各種変換プロ グラム 「validation」 紙媒体に 印刷 Webサイ トで公開 データベースで 検索表示 TAPASリポジトリ に掲載 XSLTをはじめ、様々 なプログラミング言 語が利用可能 読んでフィー ドバック
  6. 利用例の一部 • Faust Edition (異版の校合) • http://www.faustedition.net/ • Folger Digital

    Texts (Shakespeare) (内容の分析) • https://www.folgerdigitaltexts.org/ • British National Corpus (1億語の単語品詞情報) • http://www.natcorp.ox.ac.uk/ • Perseus Digital Library (基本的な文書構造) • http://www.perseus.tufts.edu/hopper/ • Cambridge Digital Library (詳細な書誌情報) • https://cudl.lib.cam.ac.uk/ • Vincent van Gogh Letters (書簡の構造的情報と対訳) • http://vangoghletters.org/vg/
  7. 使い方・始め方 • ワークショップへの参加(随時開催) • 直近では8/29, 関西大学にて • Oxygen XML Editorが推奨される

    • 新規作成⇒フレームワークテンプレート⇒TEI Allを選択 • 日本語解説付きスキーマの入手 • https://tei-c.org/ ⇒ Tools ⇒ Roma • 日本語資料の利用例として: • 青空文庫でTEIプロジェクト • https://github.com/TEI-EAJ/aozora_tei • その他の解説 • 『歴史情報学の教科書』文学通信 第8章 • http://digitalnagasaki.hatenablog.com/ を「TEI」タグで