2019年2月22日金曜日

【28】BitCuratorのインストールから

リッツ最高!(いきなりすみません!)空腹を我慢できず、ぺろりと一袋食べてしまいました。ちょっと元気が出たので、今日も頑張ってブログ書きます。
今日も一日をなんとか無事に終えた大人9名で、勉強会始めます〜
パチパチパチ〜

さて、前回の続きですが、インストールしたはずのBitCuratorが動きません。Virtural BoxからBitCuratorを可動させようとしましたが、なぜかシステム自体が立ち上がりません。原因は不明です。時間だけが過ぎるので、再インストールすることにしました。これは時間がかかるので、今日もインストールがメインの作業になりそうな予感がしてきました。(おっととと・・・)

空いた時間でガイドラインをちゃんと読みましょう。

※Quick Guide

しかし、ここでVirture Boxを管理者モードで実行しなかったことに気づき、モードを変えて再起動をさせてみました。これはUSB認識のためらしいので(ガイドライン p9)、関係があるかはわかりませんが… とりあえずなんでもやってみます!
そうすると、動かなかったマシンが動きはじめました。しかし、立ち上げの状態で真っ黒な画面のまま変化がありません。どうしたもんか・・・

ここでリーダーから前回の反省です。
うまくできた時の記録を取るべきだったわ….・゜゜・(/。\)・゜゜・
(前回の勉強会ではわぁーと盛り上がりすぎましたね。)

ガイドラインでは、Virtual Boxを使う場合は、tarファイルでインストールすることをおすすめしています。しかし、前回isoファイルでインストールしちゃいました。その時なにか問題があったかもしれませんが、我らの優秀なエンジニアーさんがチャチャッとシステムを動かしたわけです。本日我らの優秀なエンジニアーさんは欠席のため(笑)、確認はできませんが…汗

ではでは、作業の話に戻ります。
いくら待ってもBitCuratorが立ち上げの処理が終わらないので、Virtual Boxを一旦中止して、Virtual Boxの設定から、メモリを1Gから3Gへ増やして再度立ち上げをしました。
そうしたら、なんとうまくいきました!!

メモリが少なすぎたようです。動作が遅すぎるとメモリをチェックしましょう。一応isoファイルをインストールしたことはあまり影響はないみたいです。

次は、BitCuratorが立ち上がったので、USBを読み込みます。
しかし、前回もUSBがすぐマウントされませんでしたが、今回も同じです。どうすればすぐ読んでくれるのでしょうか。ガイドラインではUSBのコントローラーの設定を3.0にするようにとありますが(p13)、古いUSBを入れた場合は、この限りではありません。

Ubuntu自体がディスクを認識できてない場合があるので、Ubuntuの右下から(Virture Boxで動かしているUbuntuです。Windows やMacのマシン自体のOSではないので混乱しないようにしましょう)USBのアイコンをクリックして、該当するUSBを選択して認識させてください。そうすれば、UbuntuがUSBを認識してくれます。

次は、ガイドラインのp28、p29へ進みます。

次は、30p diskのイメージを取ります。
ここでDestinationのimage directoryにはルート(/)ではなく、自分で保存先を指定してもいいです。

次は、p38まで進みましょう。

我々の設定画面はこちら↓



これで、submit runを押します。ここから時間がかかります。

前回の作業ではここまで進んで、システムを動かしておいて我々は帰りました。しかし、先生によると、2日が経っても作業は終わらず、おかしくて確認をすると、CPUが全く働いてないことに気づいたようです。一応、レポートなどは作成されたようですが、何を持って作業が終わり、進行状況を表すバーの動きが止まるかがわかりません。

そこで、今日は作業はまだ終わっていませんが、Fiwalk XML、Annotated features、Reportsの作成作業を試してみることにします(p73〜、ここでは44pに書いてある作業も参考にしてください。create folderを押さないでくださいのあたりです。)。

しかし、私たちの作業では、p81のようCommand Line Outputのところには、なんのメッセージも出ません。何が問題でしょう…しかし、report outputのところには、色々ファイルは作成されました。電話番号だけを集めたスプレッドシートとか、PREMISファイルとか・・・沢山できました。(しかし、bulk extractor outputのファイルがPDFで出力されるとのことですが、そのようなものはありません。)

アーカイブズでデータを受け入れた際には、このように分析できた情報の中から、個人情報や電話番号などをどうするか判断する必要があるようです。

今日の作業はそろそろ終わりですが、ここで、BitCuratorの終了方法を確認しましょう。次回また立ち上がらなくて時間を無駄にしないようね。笑
ガイドラインには終了方法が書いてないようなので、BitCuratorの右上にあるアイコンから電源を消す、再起動ができるボタンを見つけたので、それでやってみます。ここでは再起動にします。(restartとshutdownの動作には違いがあってシステムに何が起こるか心配な場合はrestartをするようです。これについてはググってみて!)

しかし、案の定、再起動ができません。(なに〜〜〜〜)やはり次回も、システムの起動に時間がかかるんでしょうか・・・(心が折れる…)

でも、今日は前回の復習から少しだけ進んで、レポートを出すプロセスがうまくいかないということが確認できました。ちょっと行き詰まり感はありますが、一応少しは前進したということにしたいと思います。

今後は、今日の問題をどう解決するか、ガイドラインをちゃんと読むことと、ユーザーフォーラムなどからヒントを探すなど、本当の勉強が必要です。
みんな、頑張って!!!

では、またね〜
┌(・。・)┘♪└(・。・)┐♪┌(・。・)┘

=======================
次回
3月8日(金)(この日はAtoMの日本語訳に取り組みます~)

後日追記
BitCuratorの再起動ができなかったのは、やはりVirture Boxにisoファイルでインストールしたことが問題かもしれません。システム自体が起動がスムーズではないので、BitCuratorの問題というより、周辺環境とBitCuratorの相性が合わないのではという意見がありました。次回は、素直に(笑)tarファイルでインストールからやり直してみるのもいいかもしれません。







2019年2月15日金曜日

【27】ついにBitCurator!

今日はバレンタインデーのあとということで、素敵な女子から、お酒入のチョコレートの差し入れを頂きました。やっぱりいい年の大人はお酒がないと頑張れないですよね〜
ということで、大人の勉強会はじまり、はじまりです!

今まで、Archivematica、AtoMについて色々実験なり、議論を重ねて来ましたが、今日からは、範囲を広げてBitcuraterについて勉強します。BitCuratorはデジタルフォレンジックのツールです。

とういうことで、まずはBitCuratorのダウンロードから始めます。
(ダウンロードに時間がかかります。トイレに行くなら今。笑)

※Quick Guide
ここを読みながら進みましょう。
私たちは、VirtuarlBoxにBitCurator-2.0.12をインストールしました。

Quick Guide の23pから読みながらやってみます。
私たちは、1GBのUSBでテストします。
まずUSBを認識して、USBのイメージを取ります。(28p)

(ここで久々のこの曲の出番です。ちゃらんちゃんちゃんちゃん〜ちゃらんちゃんちゃんちゃん〜ちゃらちゃんちゃちゃちゃちゃちゃちゃちゃ〜〜〜〜 例の3分クッキングの時間です。)

これで、イメージが取れましたので、次に進みます。
ファイルイメージを処理するためのアプリ(BEViwer)を開いて、bulk_extractor利用してFile systemを分析します。(33-34p)

ここでFile carving もしくは、Data carvingについて勉強しておきましょう。
削除したファイルを復元するときに使われる手法のようです。
File carving, data carving, データカービング、ファイルカービングで検索してみてね!
https://en.wikipedia.org/wiki/File_carving
https://www.computerhope.com/jargon/d/data-carving.htm

これも読んでみると参考になるかな?
http://www.byakuya-shobo.co.jp/hj/moh2/pdf/moh2_p174_p179.pdf
http://port139.hatenablog.com/entry/2014/02/17/064119


そして、File systemの分析と、Data carvingなどの処理(39p)が終わったら、saveを押すとレポートを作成してくれます(44p)。これは、しばらく時間がかかります。Be patient!

ということで、トイレに行くなら今! 笑
じゃなくて、しばらく歓談です!

分析にはかなり時間がかかります。今回は1GBのUSBの中に10個くらいのファイルが存在するものをテストしています。なんとなく20分ほど動かしているのですが、分析がまだ終わりません。かなり時間が必要であることが判明しました。PCにはこのまま働いてもらい、我々は帰るしかないですね。

途中までのレポートがこれです↓



他にも情報は盛りだくさん!

YoutubeにもBitCuratorの勉強ができる動画は沢山あるみたい。
(やるかやらないかはあなた次第〜〜)


今日も盛りだくさんでした。特に削除されたデータが復元されることには驚きとともに恐怖を覚えました。怖い〜〜〜〜 次回は、USBを提供してくれたHさんの過去を暴きます!!! 笑

ではでは、また次回!

======================================
次回 2月22日(金)
その次は、3月8日(金)(この日はAtoMの日本語訳に取り組みます~)


後日追記
HさんのUSBには、昔あったファイルを削除し、10個くらいのファイルだけを残していました。しかし、BitCuratorにかけた結果、削除したファイル内で使用していた画像ファイルが復元、その他もろもろ削除したはずのファイルが復元されました。つまり、電子記録を受け入れる際には、この点についても寄贈契約に含めないといけないとのこと。これは大事な点かと思います。

↓こちらは追加で教えてもらった参考資料です。皆読んでね~
Digital Forensics and Born-Digital Content in Cultural Heritage Collections
https://www.clir.org/pubs/reports/pub149/



2019年2月3日日曜日

【26】Archivematicaの機能の確認と次回以降何をするかについて

今日のブログは代筆です。わかりにくいかもしれませんが、ご辛抱ください。

最初にお知らせが二件。

一つ目は、デジタル保存についてわかりやすく説明した本です。
理論よりも実践面を重視して解説されています。
The Theory and Craft of Digital Preservation

二つ目は、ArchivematicaのIngestについて。この自動化が成功したそうです。以下のURLをご参照ください。
https://blog.rockarch.org/automating-archivematica-ingests

------------------------------------------------------------------------------

続いてArchivematicaの機能<Preservation Planning><Administration><Storage Service>をみていきます。

<Preservation Planning>
前々回の確認の続きです。
File format policy registryの中にあったJHOVEを調べてみます。
特に、JHOVEのFile Format Characterizationの意味がわかりません。
→わかりました。


  • Characterizationは、File Formatに関するテクニカル・メタデータを作成し、METS.xmlファイルに書き込む機能を持っているようです。
  • File format policy registry Toolは、File Formatを特定、認証、Characterizationするために使うToolの一覧です。デフォルトでは、FITSを使います。
  • Event DetailはMETS.xmlにEventの詳細を書き込むためのツールの説明。

  • Extractionは、圧縮ファイルを展開する機能を指しています。
  • Normalizationでは、File Formatの標準化のルールや行うためのToolが決められます。
  • Transcritionは、OCRによってテクスト認識された画像ファイルの文字部分を認識し、テキストファイルに書き出す機能を持っています。
  • Validationは、デフォルトではJHOVEを用います。関連のあるフォーマットの仕様に準拠しているかどうかを保証します。
  • Verificationは、Normalisationの後に自動的に実行されます。ファイルサイズがゼロであるかをチェックします。多分、Normalisationが失敗したファイルは、サイズがゼロになるんでしょうな。


<Administration>
ここでは、Failureのログといった日々の管理業務、Transferの場所設定、AtoMへのDip Uploadなどアクセスに関する設定の運営業務を行います。総務部みたいなもんです。


<Storage Service>
続いて、Storage Serviceの機能を確認します。
Spacesでは、データを実際に保管するストレージを設定する場所です。Locationは、その実際の保管ストレージを指しています。

------------------------------------------------------------------------------
最後に、次回以降は、何をするかについて話し合いました。
   

1. Archival Storage:DSpaceとの連携を考える
2. ePADD:メールの評価・整理・保存などを行うソフト(オープンソース)
3. BitCurator:デジタル・フォレンジックのツール。
      Manuscript資料(デジタル)の整理に必要

の三つの案が出ました。
まずは2と3をインストールしテストしていくことにします。

------------------------------------------------------------------------------

次回は、2/15(金)です。
よろしくお願いいたします。


最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿