2020年5月30日土曜日

【57】BitCuratorー前回の続きから新しいモジュールのダウンロード

BitCuratorテストの続き


前回は、ディスクイメージのファイルエクスポートでつまづきました。
マニュアル(http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf)の51ページです。
違うUSBメモリではどうなるかを検証します。
やったことは前回の【56】と同じです。なので割愛。たまに担当するブログ当番がこんなに楽で嬉しいです。

BitCuratorを走らせる中で作成されるレポートについて一度話し合いになりました(マニュアルのp. 47)。
アーカイブズが受け取ったデータ集合体の中に、どんなフォーマットのファイルが個別にあるかを肉眼で確かめるのはほぼ無理です。なので、BitCuratorに探索してもらい、レポートにまとめてもらいます。アーキビストはそれを読んで、脆弱なフォーマットのファイルの所在などを確認できます。

さてファイルエクスポートでは、問題なくファイルを抽出し、GUIで読み取ることができました。テストしたUSBは、検証用に複数のファイルをセーブし、一度消去したものです。フォーマットし直す、ドリルで穴を空ける(どこかの国会議員スタイル)など手の込んだ処理をしていないので、オープンソースでも復元できました。

消去した電子ファイルの名称は、なぜか先頭の一文字が「_」となっています。USBのファイルシステムがFATだったことが関係しています。FATの場合、ファイル名の先頭の1バイトをいじって、無効であると示されるようです。

BitCurator NLPを試す

https://bitcurator.net/bitcurator-nlp/を参照。
受け入れたボーンデジタルの史料の持つ特徴を、自然言語処理の機能によって、抽出・分析しレポートを作ります。文書の中にある人物・地名・主題を抽出、それぞれの関係性を分析し、クラスター化し、最後は絵にして表示してくれるはずです。
恐らくは、膨大な電子ファイルを含むボーンデジタル資料群の持つ内容上の性質を自動的に分析し提示してくれるモジュールだと思います。紙資料だと整理担当者が一枚ずつめくって資料群の性質を読み取りインデックスを付けるという職人芸が求められますが、大量のデジタルデータとなるとほとんど不可能ではないでしょうか。だから、賢いツールに職人さんの代わりを務めてもらいましょうという話となります。

ダウンロードは
https://github.com/bitcurator/bitcurator-nlp-gentm
から行います。
$ sudo ./setup.sh
に時間がかかるので、途中で解散。

次回もzoom。
6/5(金)の19:00からです。

最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿