TEI (Text Encoding Initiative)は、人文学のデータを記述するためにXML形式の標準を制定し、欧米のデジタル・ヒューマニティーズのプロジェクトでは、TEI XML形式で文献資料のデータを記述することが通常となっています。しかし、我が国では、TEIはそこまで普及しておりません。読者のみなさまの中には、TEIについて聞いたこともない方も多数いらっしゃると思います。ここでは、TEIの入門者がTEIについて効率よく学習できるサイトをご紹介いたします。
まず、TEIの全体像を知るためには、次の永崎研宣氏の論考・「歴史データのさまざまな応用 −Text Encoding Initiative の現在−」がお勧めです。これは『歴史情報学の教科書』という本の第8章なのですが、出版社である文学通信のホームページで公式に公開されています[1]。
ちなみに、この本『歴史情報学の教科書』全体を、上記のホームページから公式にダウンロードすることができます。興味がある方は、ぜひ読んでみてください。
TEIがどう言った経緯で広まったか、より詳しくTEIの歴史を知りたい方には、TEIの設立メンバーが執筆した次の招待論文をお勧めいたします。
さて、この記事をご覧になっておられる方の多くは、日本語資料をどうTEIで記述するかに興味があると思います。日本語資料へのTEIでのマークアップは、TEI-C東アジア/日本語分科会によって促進されており、現在実用化されてきつつあります。日本語にTEIをどう適用するか、どう実践・実装するかに関しては、次のTEI-C東アジア/日本語分科会のGitHubページに豊富なツールと情報があります。
- TEI-C東アジア/日本語分科会 @ GitHub
ここでは、「日本語向けTEIガイドライン」と呼ばれる日本語資料へのTEIの適用の入門講座のリポジトリが作成されつつあります(https://github.com/TEI-EAJ/jp_guidelines/wiki)。TEIが初めての方には、そのうちの永崎研宣氏の「TEIの全般的な解説」がお勧めです。永崎研宣氏は、人文情報学研究所の上席研究員で、日本語資料のTEIによるマークアップを世界的に牽引している方ですが、永崎氏のブログ「digitalnagasakiのブログ」には、TEIに関する多数の記事が掲載されており、大変勉強になります。
- 永崎 研宣氏のブログにおけるTEI関連の記事一覧 @ digitalnagasakiのブログ
なお、このTEI-C東アジア/日本語分科会は、定期的に「青空文庫をTEI化する会」などのTEIに関する勉強会や研究会を開催しています。筆者もこれらの勉強会や研究会に欠かさず参加しており、いつも大変勉強になります。Zoomを用いた遠隔による参加も可能です。図1で示したTEI-C東アジア/日本語分科会のフェイスブックページで勉強会や研究会の情報を得ることができます。
上記の記事を閲覧、またはTEI-C東アジア/日本語分科会の勉強会などに参加して、さらにTEIを学びたくなった方は、ぜひ次のDARIAH-EUのデジタル教育ポータルdariahTeachのオンライン講座をご覧ください。
これは、西洋中世写本の学術的なデジタル・エディション化のためのオンライン講座で、教授言語は英語ですが、講座で使われるYouTubeビデオには、下記の図2のように日本語の字幕が日本のDH学者有志によって作られています。ビデオの右下のYouTubeロゴの左隣にある歯車をクリックし、字幕設定を日本語に変え、歯車の左隣にある字幕マークをクリックし、字幕をオンにして日本語字幕を表示してください。DARIAH-EUは欧州連合全域のデジタル・ヒューマニティーズのプロジェクトのための設備(デジタル・インフラストラクチャー)を整備・提供するプロジェクトで、DARIAH-EUが運営しているOpen Educational resources For The Digital Arts & Humanities (通称dariahTeach) には、このようにTEIを用いたデジタル・エディションの講座以外にも様々な講座があります。
他に、英語で書かれたTEI入門サイトとしては、TEI by Exampleが有名です。こちらではステップ・バイ・ステップでTEIの書き方が勉強でき、テストやクイズなどで、その知識が身についたことを確認できます。TEIの実力を付けたい方はぜひここで特訓してみてください。
TEIをウェブページなどにするヴィジュアリゼーション(視覚化)には、様々な方法があります。昔はXSLTという言語を用いてXMLをHTMLなど任意の形式に変形することが多かったのですが、現在は、XSLTを用いずに、より普遍的に用いられているJavaScriptを用いて、TEI XMLをウェブページにするフレームワークがあります。その代表的なものにCETEIcean (シーティーシャン)があります。
- CETEIcean @ GitHub
記述は英語しかなく、プログラミング言語JavaScriptの知識が必要ですので、これらの知識がない方は、このようなものがあるということを知っていただくだけで大丈夫です。
もっとTEIの詳細が知りたい、という方は、ぜひTEIの公式ガイドラインであるTEI: Guidelines P5をお読みください。
- TEI: Guidelines @ TEI Consortium (tei-c)
当「東アジアDHポータル」では、このTEI: Guidelinesの最新版の日本語訳を公開しています。2020年6月17日現在、まだ第1章の「TEIインフラストラクチャ」しか公開しておりませんが、現在、残りの章も鋭意翻訳中です。
- TEIガイドライン日本語訳 @ 東アジアDHポータル
ぜひこれらの資料をお読みになって、日本語資料へのTEIの適用にトライしてみてください。分からなければ、TEI-C東アジア/日本語分科会のフェイスブック・コミュニティで質問したり、このページを運営している関大KU-ORCASまでご質問をお寄せください。皆様と力を合わせて世界標準のTEIでの日本語資料のデジタル化を進めて、海外の人々とも容易にデータが交換できたり、海外で作られた多様な優れたTEI向けのツールを日本語資料にも適用できたりする世界を、ぜひ実現させていきましょう。
[1] この著作の中で何度も述べられている「TEIガイドライン」は、こちらにありますが、英語で書かれています。「東アジアDHポータル」では、本稿でも最後に述べているように「TEIガイドライン」の日本語訳を行っており、こちらで順次公開しています。