久しぶりにブログ担当となりました平野です。しかも、当日(2020-07-10)ブログ担当を決めるのを忘れてしまい、遡及的に記憶を頼りに書くことを引き受けてしまいました。反省。
当日、少しZoom入室が遅れたため、入ったときには、前回うまくいかなったBitCurator Access Webtoolsについて、われらが導師である入澤先生と、具体的なオペレーションを担当している元さんとの間で「あーすればこーなるのだ」という会話が交わされ、前回の問題がすっかり解決するところでした。
というわけで、そこの部分の細かいところは、元さん、補足をお願いいたします。
あっさりWebtoolsが動いて、これを使えばディスクイメージのファイルをウェブブラウザ経由で見ることができることがわかりました。(そういうことですよね?)
インストールのしかた、使い方は BitCurator Acess Webtools Quick Start Guide をご参照ください。
あっさり動いてしまったので、さて今日は何をしようかという話になり、とりあえずもう一つ残っているBitCurator Access Redactionを試してみることにしました。
これも、GitHub上の情報とBitCurator Access Redaction Quick Start Guide を参照しながら進めていきます。
そして、この時点で私たちは、いったいこのアプリケーションが何をするものなのか、よくわかっていなかったのでした(笑)。例によってあーでもないこーでもないと言いながらやっていると、じわじわと見えてくることもあるのですが、要するに、ディスクイメージをウェブブラウザで見えるようにするのはいいとして、そこには見えてしまったらこまる情報もたくさんあるだろうと。そういう情報を編集して、00を上書きしたり(scrub)、必要な処理を一括で行えるのがこのAcces Redactionであることがわかりました。
とりあえずどんな情報にどんな処理をして、どのディスクイメージに対して作業をするかを、Guideの通りにconfiguration fileに書き込んで、いよいよこのコマンドを打ち込みます。
$ redact-cli -c ~/Desktop/test_image_config.txt
今回は、ここでstuck。
インストールの開始時、ちょっと指示を読み違えて、作業するディレクトリとかを間違えていたのかもしれないね、ということになり、次回もういちど、慎重にやってみることになりました。
これで、だいたいBitCuratorが何をしているかわかったのですが、作業のあいまに(様々な処理をPCがしている間にけっこう待ち時間があるので)「アーカイブズとしてこれをどう使うのかねえ」という話になりました。
例えば大学アーカイブズが有名な先生の個人文書(PCやポータブルHDDやUSBを含む)を受贈することになったときに(どこかのサーバーからアーカイブズが管理するサーバーへファイルが移管されるときは別の話)
BitCuratorでディスクイメージを作成し、そのコピーに様々な処理をかけて、ファイルシステムやファイルに関する情報を抽出し、さらにファイルを読めるようにする
BitCurator NLPで、ディスクイメージに自然言語処理をかけて、ディスク全体にどんなトピックやエンティティが登場し、それらが相互にどう関係し合っているかを可視化する(おそらく、評価・選別や、整理の優先順位を決めるのに役立つ)
BitCurator Access Webtoolsで、ディスクイメージ上のファイルを、ウェブブラウザで見られるようにする
BitCurator Access Redactionで、Webtoolsで見せてはまずい情報を、コマンド一発で処理することができる
という話なのかなあという....これを組み合わせれば、例えば個人から受け入れたデジタル文書を、ざっくり機械的に処理して、とりあえず館内のPCで限定公開することも可能になるのかなあという感じでしょうか。
あとは、この最初のディスクイメージをしっかり保存しなきゃいけないわけですが、それをArchivematicaに入れるのか、入れるとどうなるのかを見てみたいね、という話にもなったような気がします。
私が記憶しているのは以上です。
参加していた方、補足をお願いしまーす。
2020年7月19日日曜日
最近の投稿
【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む
Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...
人気の投稿
-
ほとんどやる気のないHが担当で、更新が遅れに遅れました。すみません。 Archivematicaには、画像(JPGやTIFFファイル)のOCR機能があります。オープンソースのTesseract (テッセラクト)を使っています。 https://www.archivematica....
-
今日もAlfrescoの続きです。 前回の続きということで、今日はワークフローを触ってみます。 前回「コロナ政策」というサイトを作り、メンバーも追加して、いくつか文書を登録している状態ですので、今日は登録されている文書を編集→起案(ワークフロー開始)→レビューしてもらうという流れ...
-
今日は橋本さんのAlfresco Community Editに現Alfresco Governance Services(RM=」Records Management」)Moduleを追加する作業!の失敗事例の紹介から始まりました。 なんか...OSSのコミュニティ版にもOSS...
-
今日は19時22分まで4人しかあるまらず、泣く泣く元(ウォン)が初めてブログを書きます。えーとー一回でもウォンにあったことのある方はご存じでしょうが、ものすごい散漫でせっかちですので、通じない日本語や表現の下手さなどにはくれぐれもご容赦ください。また下手な表現には遠慮なくご指摘く...
-
今回は、前回の続きからスタートです。開始直後は皆さんお仕事が忙しく、参加者が少なかったことから、今後の展開についての議論に飛びがちでした。。。 まずは、前回インストールしたAlfrescoを端末から起動します。 cd alfresco/ docker-compo...