学術情報XML推進協議会セミナー 日時 :2019年8月2日(金曜日)15:00 – 17:30 場所: DMZ WORK
Text Encoding Initiativeのご紹介永崎研宣一般財団法人人文情報学研究所 主席研究員
View Slide
TEIとは• TEI (Text Encoding Initiative)協会が作っているTEIガイドラインを指すことが多い。• 1987年に始まる人文学研究者・情報系研究者と図書館司書による電子テクストの効果的効率的な共有のためのコミュニティ活動• 当初の状況:https://doi.org/10.24576/jadh.1.0_3• 現在の状況:• 選挙により選ばれた理事会が運営• 技術委員会を作ってメンバーをコミュニティで選任し、「ガイドライン」をアップデートし続けている。• テクスト以外も対象にしている。
現在の運営体制• 公式サイトより:• 投票で選ばれた理事会と技術委員会• 理事会メンバーの所属:歴史学教授(米国)、歴史学教授(オーストリア)文学研究員(アルゼンチン)、研究員(オーストリア国立図書館)、研究部⾧(英国国立公文書館)• 技術委員会の所属:英文学准教授(米国)、英文学上級講師(英国)、大学図書館デジタル部門⾧(米国)、大学情報モデリングセンター研究員(オーストリア)、企業研究者(ドイツ)、大学エンジニア(米国)、大学研究員(米国)、大学古典研究室プログラマ(米国)、大学研究プログラマ(米国)
TEIガイドラインとは• 人文学向け資料を共有しやすいように構造化(現時点ではXML化)するためのルール• 言語学・文献学・文学研究向けのルールセット• 研究用ツール作成のためのルールも含む• 辞書、図形、外字、詳細な書誌情報、• 「どの情報は誰に責任があるか」「どの程度あてになるか」の記述• 一度書けば色々なアプリで活用できるように• 研究に活用できる要素をうまく抽出・記述• 専門家が付与した詳細情報が永続的に使えるように• =ソフトが変わって使えなくなった、ということがないように
ガイドラインの内容• https://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html• 日本語による日本語向けガイドラインの構築• https://github.com/TEI-EAJ/jp_guidelines/wiki• TEI Consortium, SIG East Asian/Japaneseによる
TEIの普及状況• 研究助成金の審査で「標準的な規格に沿って成果を公開するか」問われるため、TEIを使わざるを得ない状況もある。• 欧州では広く使われている。• 中世研究においては大学院の教育カリキュラムに含まれている。• 「リヨン高等師範学校講義「中世手稿のデジタル編集」参加記」http://www.dhii.jp/DHM/dhm57-2• デジタル・ヒューマニティーズにおいても基本科目として教えられている。• 北米でも多くの大学で利用されている。• ただし、「深く読む」ことに関心がない研究者からは関心を持たれにくい。• DHのサマースクールで入門編~実践・応用編• ヴィクトリア大学(800人規模)、オックスフォード大学(50人規模)、ライプツィヒ大学(?人規模)
TEIの役割の変遷• かつては「テキストデータに書誌情報を付ける共通の方法」としての有用性が重視• 言語コーパスに文法情報等をつける方法として• 全部手動というより、自動化して人が修正した結果を共有する方法として• 様々な異文を記述する方法として• 同上• 「手動で入力の成果を保存」から「機械入力の結果を手動で修正して共有」へ
TEI/XMLのエコシステムTEI/XMLファイルTEI/XMLスキーマファイル記述したタグ同士の関係がルールに沿っているかどうか確認TEIガイドラインTEIガイドラインをコンピュータが読める形で書いたファイルhttp://www.tei-c.org/Roma/で機械的に生成 oroXygenに初期設定済み各種変換プログラム「validation」紙媒体に印刷Webサイトで公開データベースで検索表示TAPASリポジトリに掲載XSLTをはじめ、様々なプログラミング言語が利用可能読んでフィードバック
XMLのエコシステムとほぼ同じ• XMLは非常に普及したフォーマットになったため、それまでと比べて開発用ソフトウェア環境が整備され、入門書やチュートリアルもたくさん行われるようになった。• エコシステムそのものを導入できるようになった。• それ以前に採用していたSGMLは大変だった• TEIは、XMLの策定(1998年)に際していくつかの貢献を行った。• 別の良いエコシステムが登場したら移行する可能性• これもコミュニティでのサポートが前提となる
利用例の一部• Faust Edition (異版の校合)• http://www.faustedition.net/• Folger Digital Texts (Shakespeare) (内容の分析)• https://www.folgerdigitaltexts.org/• British National Corpus (1億語の単語品詞情報)• http://www.natcorp.ox.ac.uk/• Perseus Digital Library (基本的な文書構造)• http://www.perseus.tufts.edu/hopper/• Cambridge Digital Library (詳細な書誌情報)• https://cudl.lib.cam.ac.uk/• Vincent van Gogh Letters (書簡の構造的情報と対訳)• http://vangoghletters.org/vg/
日本語資料での利用例• デモを少し• 走れメロス• 源氏物語• 行歴抄• 書簡集
使い方・始め方• ワークショップへの参加(随時開催)• 直近では8/29, 関西大学にて• Oxygen XML Editorが推奨される• 新規作成⇒フレームワークテンプレート⇒TEI Allを選択• 日本語解説付きスキーマの入手• https://tei-c.org/ ⇒ Tools ⇒ Roma• 日本語資料の利用例として:• 青空文庫でTEIプロジェクト• https://github.com/TEI-EAJ/aozora_tei• その他の解説• 『歴史情報学の教科書』文学通信 第8章• http://digitalnagasaki.hatenablog.com/ を「TEI」タグで