2021年9月22日水曜日

【90】Tesseractの日本語版を使い、Archivematicaで日本語をOCRする。

ほとんどやる気のないHが担当で、更新が遅れに遅れました。すみません。

Archivematicaには、画像(JPGやTIFFファイル)のOCR機能があります。オープンソースのTesseract (テッセラクト)を使っています。

https://www.archivematica.org/en/docs/archivematica-1.13/user-manual/ingest/ingest/#transcribe-contents

Tesseractのウィキペディア、https://ja.wikipedia.org/wiki/Tesseract_(ソフトウェア)

こちらhttps://www.kkaneko.jp/tools/ubuntu/tesseract.htmlを参照し、日本語読み取り可能なものを入れます。

$ sudo apt -y update

$ sudo apt -y install tesseract-ocr tesseract-ocr-jpn tesseract-ocr-jpn-vert libtesseract-dev libleptonica-dev tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert  

vertは縦書き、scriptは手書きに対応しています。

使用できる言語の確認

$ tesseract --list-langs


コマンドの確認

$ tesseract --help


画像を使ってテスト。次のコマンドで実行。

$ tesseract <対象とする画像ファイル名> <出力ファイル名(.txtは自動付与される)> -l jpn

最後の-l jpnで日本語対応。つけないと英語の認識になります。

読み取れたかどうか確認します。

$ less ファイル名.txt 

印刷の字体は、結構読めました。一方で、手書きの文章は、あまり認識できませんでした。

続いて、-l jpnと-l Japaneseの違いを検証しました。Japaneseの方が認識している量が多いことが判明。

Archivematicaで実際にテストしました。Archivematicaのマニュアル該当箇所は次のページ。

https://www.archivematica.org/en/docs/archivematica-1.13/user-manual/administer/dashboard-admin/#processing-configuration

Micro-servicesを進めて作成されたAIPを確認。AIP内に、Objects>Metadata>OCRというディレクトリーあり。

確認すると英語しか認識していないことが判明。

Archivematicaのコマンド上の標準設定が英語になっていると推測。

設定ファイルを確認する。https://blog.machine-powers.net/2018/08/02/learning-tesseract-command-utility/ により、/usr/share/tesseract-ocrにあることをわかる。

見てもよくわからず。

TesseractのGUIツールであるgImageReaderで環境設定できないかを検討。https://websetnet.net/ja/use-gimagereader-to-extract-text-from-images-and-pdfs-on-linux/

$ sudo apt -y install gimagereader

日本語にはできませんでした。

わからなくなったので解散です。

後日談

師匠がArchivematicaでの日本語読み取りに成功。

Tesseractにデータが渡った時点でeng.traineddataを使って文字認識すると仮定。

元のeng.traineddataを名前の変更してjpn.traineddataにして文字認識させたら、英文も日本語も文字認識しました。

ちなみに、eng.traineddataとjpn.traineddataは

/usr/share/tesseract-ocr/4.00/tessdata/にあり。

最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿