2020年5月23日土曜日

【56】BitCuratorー何者かを中心に

今日は久々にBitCuratorに戻り、もう一度動きと何をするためのソフトなのかについて勉強します!

インストールの準備
インストール用ファイルをダウンロードするだけで、10時間以上かかるとのことです。試す方は、時間の余裕を持って行ってください。

Bitcurator Quickguide
ではでは、以下のガイドの見ながら進めます。Bitcuratorのガイドは画像が多く、割と詳しく書いてあるのでガイドに沿って進めます。ガイドは容量が多く最初読み込む際には少し時間がかかります。

Bitcurator Quickguide
http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf

ガイドに沿って進める
p23には、Bitcuratorが何をするソフトなのかを簡単に説明しています。Bitcuratorでは、以下の4つのフォルダを使って作業を行います。
============================================
1.Imaging and Recovery folder (p24~)
物理的なメディアから情報を引き出すためにディスクイメージを取るところです。

この作業では、事前に準備したUSBを読み取ります。読み取るUSBは容量が多いと(PCの性能によりますが)とんでもない時間がかかります。テストの際には、容量の少ないもので試すことをお勧めします。道場では、256MBの中古のメモリを購入しました(BitCuratorにかけると解析される容量は267.5MBでした)。これに道場でいくつかファイルを書き込んだり、削除したりした状態のものをテストにかけました。これで10分程度かかった気がします。

これは余談ですが、道場で購入した中古のUSBをBitCuratorにかけたら、以前の持ち主が削除したファイルも復元されました。お~と思いましたがこういうのは売るもんじゃないですね。くれぐれもメルカリなどには出さないように。笑(一応言っておきますが、危ない情報はありませんでした。)

Tip
ディスクイメージを取るということは、ファイルシステムからは読み取りや複製ができない領域も含め、メディア上のデータを物理的に端から端まで読み取ることを言います。

2.Forensics and Reporting folder (p34~)
ここがアーカイブズ資料には最も重要な部分になります。読み取ったraw disk contentsをcarveしたり、DFXMLファイルを作成(ファイルシステムの階層情報などが入っている)したりして、解析した結果のレポートを作成します。分析内容をより詳しく知るには、ガイドの「APPENDIX A:Running BitCurator reporting tools individually」(p68~)を見てください。

レポートの作成には、Launch BEViewer(Bulk Extractor Viewer)を使います。ここでは、SSNやEmail住所、EXIFメタデータなどを抽出します。抽出したい情報は選択できるようになっていますが(p38)、ファイルの属性や形式によってどの情報を抽出するか判断するためには関連知識が必要ですね。素人には勉強が必要と思われます。

Bitcurator Reportsを作成するには、かなり時間が掛かります。永遠に終わらないんじゃないかと思うくらい終わりません。テストの際には注意してください。

Tip1
ここで専門家ぽいことを一つやってみましょう!(笑)
Ubuntuのコマンドラインにtopコマンドを打つと、CPUの使用状況が確認できます。USBの解析レポートを作成するには時間が掛かるので、このコマンドで動いているプロセスを確認してみるのも面白い。(皆ここでZoomの動きも確認することができ、よく動いている~という話になり、Zoomを誉めまくる時間となりました。笑)

Tip2
カービング(carving):データ復元手法の1つ。各種データのヘッダやフッタのパターンを検索して抽出、復元する手法。、foremost、scalpel、PhotoRecなどのツールが知られています。これらは原則として、ファイル単位のカービングをするツール。

Tip3
Bulk Extractor:入力データに対して様々なパターン(シグネチャ)で検索して意味のある情報を抽出するツールであり、ファイルカービングのツールと似ていますが、ファイル単位に限らない幅広いデータパターンを抽出する。

※参考サイト
http://www.kazamiya.net/bulk_extractor-rec

3.Packaging and Transfer folder
転送とアクセスに使うBagger, Python-Baglt, Grsyncのツールがある。

4.Additional Tools folder
ディスクイメージやファイルの検査・処理に使うツールがある。
============================================

レポートの内容
ということで、BitCuratorでは2.Forensics and Reporting folderでに関することを理解することがメインになる気がします。なので、ここで作成されるレポートの内容を確認したいと思います。

  • bc_format_bargraph.pdf:ファイルフォーマットをグラフで表示
  • bulk_extractor_report.pdf:ディスクの特徴や内容の概要
  • fiwalk_deleted_files.pdf:削除されたファイル情報
  • fiwalk-output.xml.xlsx:ファイルシステムの概要
  • format_table.pdf:フォーマットの正式情報(略称ではなく長い名称をすべて表示)
  • premis.xml:PREMIS保存メタデータ表示
Tip
fiwalk:C言語で書かれたdata forensicsツールです。分析結果をXML or ARFF フォーマットで出してくれますが、次のサイトにXMLの例があるので見てみてください。https://forensicswiki.xyz/wiki/index.php?title=Fiwalk

今日の作業は、初めて取り組んだ時より順調でしたが、p51 ファイルをエクスポートのところでつまずきました。作成されるはずのexportフォルダが作成されません。今日はここまでにして、次回に続きをやります~

ここで感想を一言!
BitCuratorをアーキビストはどのように使えばよいか、ということが我々は気になるところですが、今日何者かを念頭に置きながら操作をしてみると、やはりファイル形式やメタデータ、0と1の世界をより理解する必要があるように感じました。例えば、現場で寄贈されたUSBをこれで分析したとして、アーキビストはその結果をどう利用するのか...自分にはちょっと難しい気がするのですが...なんだか、digital conservatorの力を借りる必要がある気がします。

=======================
次回
2020年5月29日(金)19:00~@Zoom
またね~

最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿