TOPPANグループは4月7日、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発したと発表した。TOPPANホールディングスとTOPPANによる共同発表で、ヴァチカン教皇庁図書館が所蔵するギリシャ語写本の画像とテキストデータを使って検証を進めており、今後は認識精度95%以上の達成を目指すという。研究成果は、4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションされる予定だ。

中世ギリシャ語の解読をAIで自動化へ

今回のAI-OCRエンジンは、一般には判読が難しいとされる中世ギリシャ語の手書き文字を対象にしている。TOPPANによれば、中世ギリシャ語は時代や書き手によって字形が異なり、単語の一部省略や現代とは異なる綴りも多く、さらに語間の区切りがない文章もあるため、専門知識のない人には読み取りが難しいという。この課題に対し、同社は100万字規模の字形・行データベースを学習データとして整備し、AI-OCRによる解読を実現した。

ヴァチカン教皇庁図書館の写本データを学習に活用

学習データには、ヴァチカン教皇庁図書館が保有する約5000点のギリシャ語写本のうち、すでに付加情報を付けた50点分の写本画像と翻刻テキストが使われる。具体的にはIIIF形式の画像約400枚と翻刻データを用い、高精度学習に加えて専門家の目視確認も組み合わせることで、解読精度と品質担保を両立させるとしている。TOPPANは、これによりギリシャ語写本コレクション全体のテキストデータ化を加速したい考えだ。

背景には文化資産の継承という課題

TOPPANは開発背景として、古文書には貴重な史実や地域文化に関する情報が記録されている一方、その多くが現代人には判読困難な手書き文字で残されていることを挙げた。こうした資料を正確に読み解き、文化を継承することは日本に限らずグローバルな社会課題だとしている。ヴァチカン教皇庁図書館は、所蔵コレクションの一部を研究・教育向けにIIIF形式の高精細画像として公開しており、公開画像は900万枚を超える。だが、コレクション全体に翻刻や注釈を付けるには、高度な専門知識を持つ人材が長期にわたり作業する必要があった。

くずし字OCRで培った技術を中世ギリシャ語へ展開

TOPPANは、今回の技術が日本語古文書向けの「くずし字OCR」で培った知見をベースにしていると説明している。同社は2015年にAI画像認識を活用したくずし字解読の研究を始め、その後、古文書解読・利活用サービス「ふみのは®」や、スマートフォン向けの「古文書カメラ®」などを展開してきた。今回の中世ギリシャ語向けAI-OCRは、こうした古文書解読技術を海外の文化資産へ応用した事例といえる。

TOPPANとヴァチカン教皇庁図書館は約30年にわたり協力

TOPPANグループは、印刷博物館の設立準備以来、1997年から29年間にわたりヴァチカン教皇庁図書館と協力関係を築いてきた。発表では、グーテンベルク42行聖書の高精細デジタルアーカイブや、上書き前の古代文書を画像解析で復元する「キケロ・プロジェクト」、印刷博物館での共同展覧会など、複数の文化継承プロジェクトを挙げている。今回の中世ギリシャ語OCRも、その長期協力の延長線上にある。

印刷博物館の企画展でデモ公開

今回の成果は、4月25日に開幕する印刷博物館の企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でも公開される。発表によると、展示ではヴァチカン教皇庁図書館から借用した資料に加え、ギリシャ語OCRのデモンストレーション映像も紹介する予定だ。技術発表にとどまらず、来館者が研究成果を体験できる形で一般公開する点も今回の特徴である。

今回の発表が意味するもの

今回のAI-OCR開発は、文化財デジタルアーカイブが「画像を残す段階」から「読めるテキストとして活用する段階」へ進みつつあることを示している。特に、中世ギリシャ語のように専門人材が限られる領域でAIが翻刻支援を担えるようになれば、研究の裾野拡大や文化資産へのアクセス改善につながる可能性が高い。TOPPANは今後、認識精度95%以上を目指しながら、世界各地の文化資産保全とアクセス環境整備を両立する技術革新を進めるとしている。

出典

https://www.holdings.toppan.com/ja/news/2026/04/newsrelease260407_1.html