ほとんどやる気のないHが担当で、更新が遅れに遅れました。すみません。
Archivematicaには、画像(JPGやTIFFファイル)のOCR機能があります。オープンソースのTesseract (テッセラクト)を使っています。
Tesseractのウィキペディア、https://ja.wikipedia.org/wiki/Tesseract_(ソフトウェア)
こちらhttps://www.kkaneko.jp/tools/ubuntu/tesseract.htmlを参照し、日本語読み取り可能なものを入れます。
$ sudo apt -y update
$ sudo apt -y install tesseract-ocr tesseract-ocr-jpn tesseract-ocr-jpn-vert libtesseract-dev libleptonica-dev tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
vertは縦書き、scriptは手書きに対応しています。
使用できる言語の確認
$ tesseract --list-langs
コマンドの確認
$ tesseract --help
画像を使ってテスト。次のコマンドで実行。
$ tesseract <対象とする画像ファイル名> <出力ファイル名(.txtは自動付与される)> -l jpn
最後の-l jpnで日本語対応。つけないと英語の認識になります。
読み取れたかどうか確認します。
$ less ファイル名.txt
印刷の字体は、結構読めました。一方で、手書きの文章は、あまり認識できませんでした。
続いて、-l jpnと-l Japaneseの違いを検証しました。Japaneseの方が認識している量が多いことが判明。
Archivematicaで実際にテストしました。Archivematicaのマニュアル該当箇所は次のページ。
Micro-servicesを進めて作成されたAIPを確認。AIP内に、Objects>Metadata>OCRというディレクトリーあり。
確認すると英語しか認識していないことが判明。
Archivematicaのコマンド上の標準設定が英語になっていると推測。
設定ファイルを確認する。https://blog.machine-powers.net/2018/08/02/learning-tesseract-command-utility/ により、/usr/share/tesseract-ocrにあることをわかる。
見てもよくわからず。
TesseractのGUIツールであるgImageReaderで環境設定できないかを検討。https://websetnet.net/ja/use-gimagereader-to-extract-text-from-images-and-pdfs-on-linux/
$ sudo apt -y install gimagereader
日本語にはできませんでした。
わからなくなったので解散です。
後日談
師匠がArchivematicaでの日本語読み取りに成功。
Tesseractにデータが渡った時点でeng.traineddataを使って文字認識すると仮定。
元のeng.traineddataを名前の変更してjpn.traineddataにして文字認識させたら、英文も日本語も文字認識しました。
ちなみに、eng.traineddataとjpn.traineddataは
/usr/share/tesseract-ocr/4.00/tessdata/にあり。