Slide 1

Slide 1 text

Text Encoding Initiative のご紹介 永崎研宣 一般財団法人人文情報学研究所 主席研究員

Slide 2

Slide 2 text

TEIとは • TEI (Text Encoding Initiative)協会が作っているTEI ガイドラインを指すことが多い。 • 1987年に始まる人文学研究者・情報系研究者 と図書館司書による電子テクストの効果的効率 的な共有のためのコミュニティ活動 • 当初の状況:https://doi.org/10.24576/jadh.1.0_3 • 現在の状況: • 選挙により選ばれた理事会が運営 • 技術委員会を作ってメンバーをコミュニティで選任し、 「ガイドライン」をアップデートし続けている。 • テクスト以外も対象にしている。

Slide 3

Slide 3 text

現在の運営体制 • 公式サイトより: • 投票で選ばれた理事会と技術委員会 • 理事会メンバーの所属: 歴史学教授(米国)、歴史学教授(オーストリア)文学研 究員(アルゼンチン)、研究員(オーストリア国立図書 館)、研究部⾧(英国国立公文書館) • 技術委員会の所属: 英文学准教授(米国)、英文学上級講師(英国)、大学図 書館デジタル部門⾧(米国)、大学情報モデリングセン ター研究員(オーストリア)、企業研究者(ドイツ)、大 学エンジニア(米国)、大学研究員(米国)、大学古典研 究室プログラマ(米国)、大学研究プログラマ(米国)

Slide 4

Slide 4 text

TEIガイドラインとは • 人文学向け資料を共有しやすいように構造化(現時点ではXML化)す るためのルール • 言語学・文献学・文学研究向けのルールセット • 研究用ツール作成のためのルールも含む • 辞書、図形、外字、詳細な書誌情報、 • 「どの情報は誰に責任があるか」「どの程度あてになるか」の記述 • 一度書けば色々なアプリで活用できるように • 研究に活用できる要素をうまく抽出・記述 • 専門家が付与した詳細情報が永続的に使える ように • =ソフトが変わって使えなくなった、という ことがないように

Slide 5

Slide 5 text

ガイドラインの内容 • https://www.tei-c.org/release/doc/tei-p5- doc/en/html/index.html • 日本語による日本語向けガイドラインの構築 • https://github.com/TEI-EAJ/jp_guidelines/wiki • TEI Consortium, SIG East Asian/Japaneseによる

Slide 6

Slide 6 text

TEIの普及状況 • 研究助成金の審査で「標準的な規格に沿って成果を公 開するか」問われるため、TEIを使わざるを得ない状況 もある。 • 欧州では広く使われている。 • 中世研究においては大学院の教育カリキュラムに含まれてい る。 • 「リヨン高等師範学校講義「中世手稿のデジタル編集」参加記」 http://www.dhii.jp/DHM/dhm57-2 • デジタル・ヒューマニティーズにおいても基本科目として教 えられている。 • 北米でも多くの大学で利用されている。 • ただし、「深く読む」ことに関心がない研究者からは関心を 持たれにくい。 • DHのサマースクールで入門編~実践・応用編 • ヴィクトリア大学(800人規模)、オックスフォード大学(50人規 模)、ライプツィヒ大学(?人規模)

Slide 7

Slide 7 text

TEIの役割の変遷 • かつては「テキストデータに書誌情報を付ける 共通の方法」としての有用性が重視 • 言語コーパスに文法情報等をつける方法として • 全部手動というより、自動化して人が修正した結果 を共有する方法として • 様々な異文を記述する方法として • 同上 • 「手動で入力の成果を保存」から「機械入力の 結果を手動で修正して共有」へ

Slide 8

Slide 8 text

TEI/XMLのエコシステム TEI/XMLファ イル TEI/XML スキーマ ファイル 記述したタグ同士の 関係がルールに沿っ ているかどうか確認 TEIガイド ライン TEIガイドラインをコン ピュータが読める形で書 いたファイル http://www.tei-c.org/Roma/ で機械的に生成 or oXygenに初期設定済み 各種変換プロ グラム 「validation」 紙媒体に 印刷 Webサイ トで公開 データベースで 検索表示 TAPASリポジトリ に掲載 XSLTをはじめ、様々 なプログラミング言 語が利用可能 読んでフィー ドバック

Slide 9

Slide 9 text

XMLのエコシステムとほぼ同じ • XMLは非常に普及したフォーマットになったため、 それまでと比べて開発用ソフトウェア環境が整備さ れ、入門書やチュートリアルもたくさん行われるよ うになった。 • エコシステムそのものを導入できるようになった。 • それ以前に採用していたSGMLは大変だった • TEIは、XMLの策定(1998年)に際していくつかの貢 献を行った。 • 別の良いエコシステムが登場したら移行する可能性 • これもコミュニティでのサポートが前提となる

Slide 10

Slide 10 text

利用例の一部 • Faust Edition (異版の校合) • http://www.faustedition.net/ • Folger Digital Texts (Shakespeare) (内容の分析) • https://www.folgerdigitaltexts.org/ • British National Corpus (1億語の単語品詞情報) • http://www.natcorp.ox.ac.uk/ • Perseus Digital Library (基本的な文書構造) • http://www.perseus.tufts.edu/hopper/ • Cambridge Digital Library (詳細な書誌情報) • https://cudl.lib.cam.ac.uk/ • Vincent van Gogh Letters (書簡の構造的情報と対訳) • http://vangoghletters.org/vg/

Slide 11

Slide 11 text

日本語資料での利用例 • デモを少し • 走れメロス • 源氏物語 • 行歴抄 • 書簡集

Slide 12

Slide 12 text

使い方・始め方 • ワークショップへの参加(随時開催) • 直近では8/29, 関西大学にて • Oxygen XML Editorが推奨される • 新規作成⇒フレームワークテンプレート⇒TEI Allを選択 • 日本語解説付きスキーマの入手 • https://tei-c.org/ ⇒ Tools ⇒ Roma • 日本語資料の利用例として: • 青空文庫でTEIプロジェクト • https://github.com/TEI-EAJ/aozora_tei • その他の解説 • 『歴史情報学の教科書』文学通信 第8章 • http://digitalnagasaki.hatenablog.com/ を「TEI」タグで