2020年7月19日日曜日

【61】BitCurator Acess toolsお試しーPart2

久しぶりにブログ担当となりました平野です。しかも、当日(2020-07-10)ブログ担当を決めるのを忘れてしまい、遡及的に記憶を頼りに書くことを引き受けてしまいました。反省。

当日、少しZoom入室が遅れたため、入ったときには、前回うまくいかなったBitCurator Access Webtoolsについて、われらが導師である入澤先生と、具体的なオペレーションを担当している元さんとの間で「あーすればこーなるのだ」という会話が交わされ、前回の問題がすっかり解決するところでした。

というわけで、そこの部分の細かいところは、元さん、補足をお願いいたします。

あっさりWebtoolsが動いて、これを使えばディスクイメージのファイルをウェブブラウザ経由で見ることができることがわかりました。(そういうことですよね?)

インストールのしかた、使い方は BitCurator Acess Webtools Quick Start Guide をご参照ください。

あっさり動いてしまったので、さて今日は何をしようかという話になり、とりあえずもう一つ残っているBitCurator Access Redactionを試してみることにしました。

これも、GitHub上の情報とBitCurator Access Redaction Quick Start Guide を参照しながら進めていきます。

そして、この時点で私たちは、いったいこのアプリケーションが何をするものなのか、よくわかっていなかったのでした(笑)。例によってあーでもないこーでもないと言いながらやっていると、じわじわと見えてくることもあるのですが、要するに、ディスクイメージをウェブブラウザで見えるようにするのはいいとして、そこには見えてしまったらこまる情報もたくさんあるだろうと。そういう情報を編集して、00を上書きしたり(scrub)、必要な処理を一括で行えるのがこのAcces Redactionであることがわかりました。

とりあえずどんな情報にどんな処理をして、どのディスクイメージに対して作業をするかを、Guideの通りにconfiguration fileに書き込んで、いよいよこのコマンドを打ち込みます。

$ redact-cli -c ~/Desktop/test_image_config.txt

今回は、ここでstuck。

インストールの開始時、ちょっと指示を読み違えて、作業するディレクトリとかを間違えていたのかもしれないね、ということになり、次回もういちど、慎重にやってみることになりました。

これで、だいたいBitCuratorが何をしているかわかったのですが、作業のあいまに(様々な処理をPCがしている間にけっこう待ち時間があるので)「アーカイブズとしてこれをどう使うのかねえ」という話になりました。

例えば大学アーカイブズが有名な先生の個人文書(PCやポータブルHDDやUSBを含む)を受贈することになったときに(どこかのサーバーからアーカイブズが管理するサーバーへファイルが移管されるときは別の話)

BitCuratorでディスクイメージを作成し、そのコピーに様々な処理をかけて、ファイルシステムやファイルに関する情報を抽出し、さらにファイルを読めるようにする

BitCurator NLPで、ディスクイメージに自然言語処理をかけて、ディスク全体にどんなトピックやエンティティが登場し、それらが相互にどう関係し合っているかを可視化する(おそらく、評価・選別や、整理の優先順位を決めるのに役立つ)

BitCurator Access Webtoolsで、ディスクイメージ上のファイルを、ウェブブラウザで見られるようにする

BitCurator Access Redactionで、Webtoolsで見せてはまずい情報を、コマンド一発で処理することができる

という話なのかなあという....これを組み合わせれば、例えば個人から受け入れたデジタル文書を、ざっくり機械的に処理して、とりあえず館内のPCで限定公開することも可能になるのかなあという感じでしょうか。

あとは、この最初のディスクイメージをしっかり保存しなきゃいけないわけですが、それをArchivematicaに入れるのか、入れるとどうなるのかを見てみたいね、という話にもなったような気がします。

私が記憶しているのは以上です。
参加していた方、補足をお願いしまーす。









最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿