既存のOCR(光学文字認識)ではうまく認識できない活版印刷による近代書籍の画像からテキストを自動抽出し、更に近代文語体文を現代口語体に自動翻訳することで、近代書籍の知を現在のサイバー社会にもたらすことを目標としています。
近代書籍文字は現在のフォントを使って機械学習させたOCRでは7割程度の認識率しか得られず、実用にほど遠いのが実情です。そのため学習データは近代書籍から作成しなければなりませんが、ジップの法則に従うとされている低出現頻度文字種はデータとして集めることが困難です。本研究ではそのための種々の試みを行っています。