Irisawa Dojo / 入澤道場: BitCurator

ラベル BitCurator の投稿を表示しています。すべての投稿を表示

2020年9月25日金曜日

【66】BitCurator Access Redaction Tools チェック2

今日も前回の続きで、BitCurator Access Redaction Tools を試します。
今日も以下を見ながら勧めましょう。

bitcurator-access-redaction Quick Start Guide
https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubのマニュアル
https://github.com/BitCurator/bitcurator-access-redaction

今日も以下のconfigファイルの内容について勉強します。

FUZZ

前回は、一番目のFUZZだけで時間が過ぎてしまいましたが、今日もその続きです。binary fileをFUZZする理由とその仕組ががいまいちわからないままでしたが、今日も結論は出ませんでした。なんとなく、実行させたくないものは、それを防ぐために使うんだなというくらいにしておきましょう。このFUZZ、fuzzyだわ...^^;

上記の例がよくないので、以下のE. Fuzzing a binary (preventing execution)を参考にしたほうが良いです。

http://docplayer.net/27127391-Testing-bca-redtools-in-the-bitcurator-environment.html

テキストデータとバイナリデータ

ごくごく簡単に言えば、エディターで読めるようなデータはテキストデータ、読めないデータはバイナリデータだそうです。笑

参考サイト

http://rainbow.pc.uec.ac.jp/edu/program/b1/exercise/exercise5-4.html

https://quartet-communications.com/info/topics/3182

FILE_MD5

次は、FILE_MD5についてです。

MD5はハッシュ関数の一つです。（configファイルでMD5の次にあるSHA1も同じ）

コマンドラインで確認する方法は以下。

md5sumを利用すれば、Dorian Gray.txtのハッシュ値がわかります。

※参考サイト

https://eng-entrance.com/linux-command-md5sum

ハッシュ値

電子記録の保存には必ず必要なものなので、勉強しておきましょう。

https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0

https://wa3.i-3-i.info/word11949.html

※参考情報

エンディアンについて

https://ja.wikipedia.org/wiki/%E3%82%A8%E3%83%B3%E3%83%87%E3%82%A3%E3%82%A2%E3%83%B3

※豆知識

Configファイルで、DとかKで埋める処理をする理由

全部黒にしてしまうと、例えば裁判記録では、原告と被告がわからなくなってしまう場合もあるため、アルファベットで区別するらしいですよ。

今日は、残りのSCRUBとかもやってみました。

全部０で埋まることとかも確認しました〜

え？これで終わり？こんなさらっと終わる？と思う方。

正直前半白熱しすぎて、後半は集中力切れてしまいました。死ぬほど疲れました。それでも頑張る我々社会人、えらくないですか？　じゃなくて…^^; 次回は真面目に書きます。ゆるして〜笑

一応configファイルの中身を丁寧に見て終わったということで、みんな満足です！

お疲れさまでした！

================================

次回は、10月9日（金）です。

新しいものについて勉強します。やりたいことがあれば、メールに流してください〜

2020年9月12日土曜日

【65】BitCurator Access Redaction Tools チェック1

夏休みが終わりました。参加者は、前回のことを何にも覚えてません。ちゃんと休めたという証拠です。

次のマニュアルを見ながら、プライバシー関係または個人識別情報の自動墨消しの機能を確認していきます。

bitcurator-access-redaction Quick Start Guide

https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubのマニュアル

https://github.com/BitCurator/bitcurator-access-redaction

以下、ページ数は、上記PDFファイルのものです。

前回の作業で、テスト用のイメージファイルが作成されています。test_image.rawです。

墨消しの前にイメージファイルの内容を確認します（p. 8）。

右クリック、Scripts > Image Mount を選択し、イメージファイルをマウントして、GUIで内容を見ることができます。もちろん、Read onlyで、内容変更できません。

テストの簡略化のため、処理するtest_image.rawをデスクトップに移動（p. 9）。

$ cp ~/bca-redtools-X.X.X/libredact/test/test_image.raw ~/Desktop

GUI上でのマウス操作でも構いません。

fiwalkをtest_image.rawにかける。

$ fiwalk -f -X ~/Desktop/test_image_fw.xml ~/Desktop/test_image.raw

fiwalkはこちらhttps://confluence.educopia.org/display/BC/Generate+Filesystem+Metadata+as+DFXML。

ファイルを分析し、メタデータをxmlファイルで作成します。

前回、あまり理解できなかった墨消しの環境設定にトライします。

test_image.raw用に作られたp. 14の事例を一つずつ試していきます。

test_image_config.txtの作成の仕方はこちら。

$ cd ~/desktop

$ vi test_image_config.txt

test_image_config.txtにp. 14をコピーペーストしました。

1行目の

# Targets The Whale.txt

FILE_NAME_MATCH *Whale.txt FUZZ

のみを確認しようと思います。FUZZ（ぼやかす）の意味が不明なので、やってみて理解するつもりです。

次の命令文で実行します。

$ redact-cli -c ~/Desktop/test_image_config.txt

ビフォーアフターを比較すると、ほとんど変化なし。

どうやら、Fuzzは.exeなど実行ファイルを無効化する命令ではないかと推測。ですから、テストに使ったThe Whale.txtというtxtファイルには効果がありません。どうして、txtファイルをテスト事例に上げてやがるんだ！

ですので、test_image.rawにあるexecutableディレクトリの.exeファイルを対象に検証を開始します。

http://docplayer.net/27127391-Testing-bca-redtools-in-the-bitcurator-environment.html

の説明がわかりやすいです。

墨消し$ redact-cli -cを実行後、ビフォーアフターを比較します。

$ cd ~/Desktoop

$ diff -b PUTTY_ original.EXE PUTTY.EXE

あるいは、WindowsのOSに持ってきて確認できます。プロパティで比較すると、fuzzした.exeファイルからは、メタデータが消えているので、実証完了。

次回は9/25（金）です。

他の墨消し条件を1個ずつ検証していきます。

2020年7月31日金曜日

【64】BitCurator Access Redaction Tools （インストール成功版）

今日はなんだか始める前から眠気が半端じゃありません。

でも、頑張って大人の勉強会についていきます～

始める前の雑談

AtoM2.6.1がそろそろでる。マルチリンガル機能を強化するらしい。翻訳も一緒に改善される予定のよう。夏休みに一日翻訳をやりますか…

ではここから本題

BitCurator Access Redaction Tools を試してみます。

これが何をするものなのかは61回のブログを読んでください。簡単に言ってしまうと墨消ししてくれるツールです。

インストール

今日は以下のマニュアルを見ながら、最後までインストールを成功させましょう。

bitcurator-access-redaction Quick Start Guide

https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubにもマニュアルあります～

https://github.com/BitCurator/bitcurator-access-redaction

我々は、Githubのマニュアルでインストールを勧めました。マニュアル通りでインストールすれば良いということがわかったのですが、PDFガイドと一緒に見ていると間違いやすいところが２箇所あります。

Bitcurator 1.7.28 以上を使っている場合は、すぐ次を実行します。Prerequisites部分は飛ばします。（https://github.com/BitCurator/bitcurator-access-redaction#prerequisites）

そして、Pythonのバージョンに注意が必要です。PDFのガイドにはこのことが書いてないので混乱しやすいです。

Note! In the BitCurator Environment, both Python 2.7 and Python 3.5 are installed, and the "pip" command links to Python 3.5 version of pip. You must use "pip2" to install with Python 2.7 (currently required due to a dependency on pylightgrep).

我々も以下の部分でエラーが発生しました。どうもpipにはPython3.5がインストールされるような設定になっているためのようです。

$ cd bitcurator-access-redaction

$ cd libredact
$ pip2 install -e . 　→ここでエラーが発生しました。

そこで、Pythonのバージョンを下げるために、pythonがあるディレクトリー下で以下を実施。エラーを解消できました。

sudo rm python-config
sudo ln python-2.7 python
sudo ln python2.7-config python-config
python -V #バージョン確認

※参考：インストール中にあるsudo -H とは？

https://teratail.com/questions/169492
ユーザのホームディレクトリ($HOME)を書き換えるオプション。

ツールの大まかな流れ

このツールが動く大まかな流れは、

disk imageを取る（test_image.rawを作成）
Digital Forensics XML fileを作成（fiwalkを利用、ファイル名やMD5のようなハッシュ値を比較するためのもの）
configファイルを作成（test_image_config.txt、どう墨消しするかを指定）
configファイルを実行（$ redact-cli -c ~/Desktop/test_image_config.txtで実行）
test_image_redacted.rawがアウトプットされる

です。

Configファイルのルール

ここでconfigファイルのルールを理解することが必要になります。以下はテストで実行するルールですが、マニュアルにはないコメント（＃）を赤で追加しました。

# インプットするファイルの指定
INPUT_FILE /home/bcadmin/Desktop/test_image.raw
# 事前に作成したDigital Forensic XMLファイルの指定
DFXML_FILE /home/bcadmin/Desktop/test_image_fw.xml
# アウトプットフアィルの指定
OUTPUT_FILE /home/bcadmin/Desktop/test_image_redacted.raw

# Targets The Whale.txt　
FILE_NAME_MATCH *Whale.txt FUZZ

# Targets Dorian Gray.txt
FILE_MD5 114583cd8355334071e9343a929f6f7c FILL 0x44

# Targets DRINKME.TXT
FILE_SHA1 7f9f0286e16e9c74c992e682e27487a9eb691e86 FILL 0x44

# Fill Kafka sequences in Metamorphsis.txt with K
SEQ_EQUAL Kafka FILL 0x4B

＃ employmentなんとかのファイルにある社会保障番号のようなものを0x44（ASCIIではアルファベットD)で埋める
SEQ_MATCH \d{3}-?\d{2}-?\d{4} FILL 0x44

# Scrub EATME.TXT
FILE_SEQ_EQUAL pineapple-upside-down-cake SCRUB

# Scrub Alice in Wonderland
FILE_DIRNAME_EQUAL looking-glass SCRUB

# Ignore EATME.TXT.BACKUP
IGNORE *.BACKUP

# Commit the redaction (write out a redacted disk image)
COMMIT

上記の操作は以下のルールに沿っています。（PDFガイドp11）

Rule Command Format: [target condition] [action]
Target Conditions:
FILE_NAME_EQUAL <filename> - target a file with the given filename
FILE_NAME_MATCH <pattern> - target any file with a given filename pattern
FILE_DIRNAME_EQUAL <directory> - target all files in the directory
FILE_MD5 <md5> - target any file with the given md5
FILE_SHA1 <sha1> - target any file with the given sha1
FILE_SEQ_EQUAL <string> - target any file that contains <a string>
FILE_SEQ_MATCH <pattern> - target any file that contains a sequence matching <a pattern>
SEQ_EQUAL <string> - target any sequences equal to <a string>
SEQ_MATCH <pattern> - target any sequences matching <a pattern>

Actions:
SCRUB overwrite the bytes in the target with zeroes
FILL 0x44 overwrite by filling with a given character (here, 0x44, or ASCII 'D')
FUZZ fuzz the binary, but not the strings 

しかし、指定した内容が正しく実行されたかがよくわかりません。例えば、SCRUBはゼロに埋めるという処理ですが、予想よりはるかに多いファイルの中がゼロで埋め尽くされていました。

画像の左が元のファイル、右が00で埋められたファイル

そこで、SCRUBが含まれている処理を付けたり外したりして、処理されたファイル数を調べて見ました。configファイルにある以下のSCRUB処理が対象です。

①　FILE_DIRNAME_EQUAL looking-glass SCRUB

②　FILE_SEQ_EQUAL pineapple-upside-down-cake SCRUB

①、②両方実行：42個　（ここだけXMLファイルを除外）
①のみ実行：9個
②のみ実行：41個
①、②両方除外：8個

この結果から、SCRUBがどう動いているか…よくわかりません。例えば、SEQ_EQUAL Kafka FILL 0x4Bの場合は、Kafkaの名前部分だけがKKKKKに変更されたことが確認できました。しかし、SCRUBのようによくわからない部分も…　

ここで他の設定を入れてみて処理ファイルの数を確認したりしましたが、ファイルの内容を全部把握していないこともあり、結果が正確かがいまいちわかりませんでした。ということで、今日はこのあたりで終わりです。次回は、Configファイルのルールについてもう少し勉強します。

---------------------------------------------

次回は、9月4日（金）です。

8月は、な・つ・や・す・み！　いぇ～～

後日追記

以下は参考資料です〜　読みましょう〜

Testing bca-redtools in the BitCurator Environment

http://docplayer.net/27127391-Testing-bca-redtools-in-the-bitcurator-environment.html

Redacting Private and Sensitive Information in Born-Digital Collections

https://www.researchgate.net/publication/279736261_Redacting_Private_and_Sensitive_Information_in_Born-Digital_Collections

2020年7月19日日曜日

【61】BitCurator Acess toolsお試しーPart２

久しぶりにブログ担当となりました平野です。しかも、当日（2020-07-10）ブログ担当を決めるのを忘れてしまい、遡及的に記憶を頼りに書くことを引き受けてしまいました。反省。

当日、少しZoom入室が遅れたため、入ったときには、前回うまくいかなったBitCurator Access Webtoolsについて、われらが導師である入澤先生と、具体的なオペレーションを担当している元さんとの間で「あーすればこーなるのだ」という会話が交わされ、前回の問題がすっかり解決するところでした。

というわけで、そこの部分の細かいところは、元さん、補足をお願いいたします。

あっさりWebtoolsが動いて、これを使えばディスクイメージのファイルをウェブブラウザ経由で見ることができることがわかりました。（そういうことですよね？）

インストールのしかた、使い方は　BitCurator Acess Webtools Quick Start Guide をご参照ください。

あっさり動いてしまったので、さて今日は何をしようかという話になり、とりあえずもう一つ残っているBitCurator Access Redactionを試してみることにしました。

これも、GitHub上の情報とBitCurator Access Redaction Quick Start Guide を参照しながら進めていきます。

そして、この時点で私たちは、いったいこのアプリケーションが何をするものなのか、よくわかっていなかったのでした（笑）。例によってあーでもないこーでもないと言いながらやっていると、じわじわと見えてくることもあるのですが、要するに、ディスクイメージをウェブブラウザで見えるようにするのはいいとして、そこには見えてしまったらこまる情報もたくさんあるだろうと。そういう情報を編集して、00を上書きしたり（scrub）、必要な処理を一括で行えるのがこのAcces Redactionであることがわかりました。

とりあえずどんな情報にどんな処理をして、どのディスクイメージに対して作業をするかを、Guideの通りにconfiguration fileに書き込んで、いよいよこのコマンドを打ち込みます。

$ redact-cli -c ~/Desktop/test_image_config.txt

今回は、ここでstuck。

インストールの開始時、ちょっと指示を読み違えて、作業するディレクトリとかを間違えていたのかもしれないね、ということになり、次回もういちど、慎重にやってみることになりました。

これで、だいたいBitCuratorが何をしているかわかったのですが、作業のあいまに（様々な処理をPCがしている間にけっこう待ち時間があるので）「アーカイブズとしてこれをどう使うのかねえ」という話になりました。

例えば大学アーカイブズが有名な先生の個人文書（PCやポータブルHDDやUSBを含む）を受贈することになったときに（どこかのサーバーからアーカイブズが管理するサーバーへファイルが移管されるときは別の話）

BitCuratorでディスクイメージを作成し、そのコピーに様々な処理をかけて、ファイルシステムやファイルに関する情報を抽出し、さらにファイルを読めるようにする

BitCurator NLPで、ディスクイメージに自然言語処理をかけて、ディスク全体にどんなトピックやエンティティが登場し、それらが相互にどう関係し合っているかを可視化する（おそらく、評価・選別や、整理の優先順位を決めるのに役立つ）

BitCurator Access Webtoolsで、ディスクイメージ上のファイルを、ウェブブラウザで見られるようにする

BitCurator Access Redactionで、Webtoolsで見せてはまずい情報を、コマンド一発で処理することができる

という話なのかなあという....これを組み合わせれば、例えば個人から受け入れたデジタル文書を、ざっくり機械的に処理して、とりあえず館内のPCで限定公開することも可能になるのかなあという感じでしょうか。

あとは、この最初のディスクイメージをしっかり保存しなきゃいけないわけですが、それをArchivematicaに入れるのか、入れるとどうなるのかを見てみたいね、という話にもなったような気がします。

私が記憶しているのは以上です。
参加していた方、補足をお願いしまーす。

2020年7月4日土曜日

【60】Bitcurator Access Toolのインストール

投稿者、私用のため余裕がありません。本ブログ記事のなかで、一番薄い内容になります。

Bitcurator Access Toolの内容は
https://bitcurator.net/bitcurator-access/
を見よう。

インストールの方法は次の二つを参照しよう。
Github：https://github.com/bitcurator/bitcurator-access-webtools
クイックスタート：http://distro.ibiblio.org/bitcurator/docs/BCA-Quickstart.pdf

このアプリはVirtual BoxとVagrant（ヴェイグラント）を使います。
Vagrantの解説は
https://qiita.com/ozawan/items/160728f7c6b10c73b97e
を読もう。

本日はまずbitcurator-access-webtoolsをWindows 10のマシンにダウンロードした。
“bitcurator-accesswebtools-X.X.X”を展開する。
Windowsマシンのコマンドラインを開き、次を実行。
vagrant box add bento/ubuntu-18.04
時間かかるので、今後の研究会などについて相談。

終わったので、次を実行。
cd \Users\your-user-name\Desktop\bitcurator-accesswebtools-X.X.X
vagrant up
説明書には30分と書いてあったが、小一時間たっても処理が終わらず。
Zoom解散。その後、処理は終わり、無事起動したらしい。
次回は、起動したアプリを確認します。

次回日程：7/10（金）19:00頃から。

お時間ありましたら、ご参加ください。

2020年6月20日土曜日

【59】Bitcurator NLPの続き・出来たけど。。。の巻き

前回に引き続き、Bitcurator NLPのセットアップからです。
前回スタックした、セットアップ。。。
今回、お師匠が問題解決虎の巻を整えていただきました。ので、それを書いていきます。

前回終了後・・・
「道場」後に有志のかたがたが作業を進めました。そのなかで、Hさんから提案があり、無事に解決した点を記します。
$ git clone https://github.com/bitcurator/bitcurator-nlp-gentm
を行った後、/home/bitcurator-nlp-gentm/にある"setup.sh"を開き、232行と233行の間に、
git init
を挿入したのち、改めてセットアップを実行します。
$ cd bitcurator-nlp-gentm
$ sudo ./setup.sh
これで、"sleuthkit"のエラーが解消されます。

再度、セットアップ作業と対峙
問題は、pythonとpython3の関係にありました。
そこで、インストール失敗したPCで下記のコマンドを実行します。
まずは、pythonとpython3のファイル属性を確認します。
$ ll /usr/bin/pytho*
すると、下記のよう表示されます。

例えば、
$ ........~~~~/usr/bin/python->python2.7
は、python2.7のファイルであり
$ ........~~~~/usr/bin/python2->python2.7
もまた、同様で、さらに
$ ........~~~~/usr/bin/python3->python3.6
と、"3"には、3.6が対応しており、単に"python"のみを実行すると、"2.7"が選択されることがわかります。
そこで、
python(2)関連を削除し、リンクを2から3にかえてあげることにします。
$ cd /usr/bin/
$ sudo rm python
$ sudo rm python-config
$ sudo ln -s python3.6 python
$ sudo ln -s python3.6-config python-config
そして、pythonのバージョンを確認すると
$ python -V
$ python 3.6.9
と、python2.7から"3.6.9"がデフォルトに変更されたことが確認できました。

つぎに、bitcurator-nlp-gentmにディレクトリを変更します。
$ cd bitcurator-nlp-gentm
そして、ツールを実行します。
$ python bcnlp_tm.py
すぐに、エラーメッセージが出ます！！メッセージにあるエラーのうち、最終行にあるメッセージに記された内容を確認し、それぞれ対処します。
※今回試した際に出たエラーです。
まず、python2から3に自動でコード変換させます。"2to3"をインストールし、実行します。
$ sudo apt install 2to3 -y
エラーが出たファイルを確認し、"2to3"を実行してpython3のコードに変換します。
・bcnlp_tm.py
$ 2to3 -w bcnlp_tm.py
・bcnlp_fxtract.py
$ 2to3 -w bcnlp_fxtract.py
・bn_filextract.py
$ 2to3 -w bn_filextract.py
・bn_filextract.pyの656行目を修正更新
sudo vi bn_filextract.py
if " " in f.info.name.name.decode():
name_slug = f.info.name.name.replace(b" ", b"%20")
・bn_filextract.pyの183行目をコメントアウト
##doc = str(doc, erros='ignore')
・bn_filextract.pyを修正更新
fs_desc = "Unknow file system"
※インデントを上段の"fs_desc"に合わせること！

Bitcurator-NLPを確認！
エラー箇所がなくなると走り出します。少々時間がかかりますが、うまくいくとWebブラウザー"firefox"が起動し、下記の画面が表示されます。

ここでは、NLPに同梱しているサンプルを使い、検証しました。
が！！！
これがなにを示しているのか？どう活かしていいのかがわからず、議論となります。
あ～でもない、こ～でもない、といいつつ、関連論文を見たりした結果、
●左側の各円に付された数字はトピックの割合の大きい順に付されている。
●右側のグラフは、トピックに属する具体的なワードを表示している。
●トピックが作成されるジャンル？属性？については、今回はわからず。
ということで、この件については、改めて論文を読んで次回議論することになりました。
以下を読んできましょう！答え合わせするよ！！
https://core.ac.uk/download/pdf/210610153.pdf
https://saaers.wordpress.com/2019/07/02/an-exploration-of-bitcurator-nlp-incorporating-new-tools-for-born-digital-collections/

関連確認
ディスクイメージの分析結果の根拠となるデータはどこに格納されているのか？ということでそれを確認しました。
/home/bitcurator-nlp-gentm/extracted_files/0/
で確認できました！
そして、先ほどの議論のなかで、われわれが把握できるディスクイメージを使ってみてはどうかということになり、以前、"Bitcurator"で作成したイメージファイルで試用することに。それを思い出したWさんエラいわ！！
早速、"config.txt"を修正します。
$ sudo vi config.txt
7行目にある"govdocs45sampler.E01"を試用するファイル名に置換。
そして忘れては絶対いけない作業、/home/bitcurator-nlp-gentm/extracted_files/を空にしてください！！この作業を忘れると"govdocs45sampler.E01"の結果と混ざります。。。
結果は、日本語はやはり厳しいようです。
ということで、今日は以上！
記載漏れがあるだろうな・・・ご指摘ください。
次回は、7月3日です！！
論文読むの忘れるなよーヨーﾖーｵー。。。
そして、最後にこれだけ、Natural Language Processingって私の脳力では理解できないのでは？

2020年6月6日土曜日

【58】Bitcurator モジュールNLPを試す…が！！！

世の中は通常モードに戻りつつあるようですが、道場は今日もリモートで勉強会です。作業の性格上、リモートの方がいいのかもしれませんが…
ということで、今日も初めていきます！

Bitcurator NLPを試す

前回、Bitcuratorの一連の作業を確認し、続けてモジュール・NLPのダウンロードで終了しました。その続きです。
一応の確認ですが、NLPについては、
概要：　https://bitcurator.net/bitcurator-nlp/
Wiki：　https://github.com/bitcurator/bitcurator-nlp/wiki
ダウンロード・作業手順： https://github.com/bitcurator/bitcurator-nlp-gentm
を確認してください。
以下は、作業手順に沿って進めていきます（いきたかった）。

Disk Image Selection and Configuration

ここでは、対象となるディスク・イメージを選択しますが、今回は、標準で入っているサンプル・イメージを使用することにしましたので、この作業はスキップします。オリジナルのディスク・イメージを使用する場合は、

/home/bitcurator-nlp-gentm/config.txt

を開き、テキストを修正・加筆します。

例）[image_section]

govdocs45sampler.E01 = 1 ⇨⇨⇨⇨ [my-image-name1].E01 = 1

※［］括弧内を対象ファイルの名前にします。

Running the Tool

それでは、NLPを動かします。ターミナルを開き、

$ python bcnlp_tm.py

でGO!

ImportError: No module named pytsk3

あれ…あれれ…エラー…メッセージです。"pytsk3"が無いということらしいです。

ここから本日の道場は、流浪します。そうです。久しぶりの

"STUCK"

です。

エラーの分析

そこで、ダウンロードしたはずのモジュールがないというならば、改めてダウンロードしてみようということになり、

$ sudo ./setup.sh

を再度実行しました。そこで、インストールの流れを確認したところ、

ディレクトリの権限問題
The directory '/home/bcadmin/.cache/pip/http' or its parent directory is not owned by the current user and the cache has been disabled. Please check the permissions and owner of that directory. If executing pip with sudo, you may want sudo's -H flag.
セットアップで指示されているファイルが無い
STATUS: nlp-webtools: Building and installing libuna
rm: cannot remove 'libuna-alpha-20170112.tar.gz': No such file or directory
モジュールがない
STATUS: nlp-webtools: Building and installing The Sleuth Kit

fatal: not a git repository (or any of the parent directories): .git
pythonのバージョンがサポート外かもしれない
Complete output from command python setup.py egg_info: Unsupported Python version: 2.7.17 (default, Apr 15 2020, 17:20:14)

[GCC 7.5.0], version 3.5 or higher required.

などの、エラーを確認し、それぞれの検証をした結果、

ディレクトリの権限をrootにするために下記のコマンドを実行した結果、解決
$ sudo chown -R root /home/bcadmin/.cache/pip/
'libuna-alpha-20170112.tar.gz'は"setup.sh"を見ると無くても問題ない
l.187: # Newer versions break a lot of stuff. Keep 20150927 for now.
分からず
後に調べてみると、python2は2.7が最後となっていることがわかりました。がこれが問題なのかどうかはわかりません。検証が必要

との結果に。いろいろと試してみましたが…どれも宿題となります。

また、BitcuratorをインストールしたVMにNLPをインストールすることが問題なのでは？といった意見も出ましたが、未検証です。

ということで、今回の作業は終わりです。

次回は、6月19日19時からとなります。

世の中が通常モードにもどりつつありますが、強制参加ではありませんので、時間があるときに顔を出していただければ！

ということで、次回お目にかかりましょう！

2020年5月30日土曜日

【57】BitCuratorー前回の続きから新しいモジュールのダウンロード

BitCuratorテストの続き

前回は、ディスクイメージのファイルエクスポートでつまづきました。
マニュアル（http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf）の51ページです。
違うUSBメモリではどうなるかを検証します。
やったことは前回の【56】と同じです。なので割愛。たまに担当するブログ当番がこんなに楽で嬉しいです。

BitCuratorを走らせる中で作成されるレポートについて一度話し合いになりました（マニュアルのp. 47）。
アーカイブズが受け取ったデータ集合体の中に、どんなフォーマットのファイルが個別にあるかを肉眼で確かめるのはほぼ無理です。なので、BitCuratorに探索してもらい、レポートにまとめてもらいます。アーキビストはそれを読んで、脆弱なフォーマットのファイルの所在などを確認できます。

さてファイルエクスポートでは、問題なくファイルを抽出し、GUIで読み取ることができました。テストしたUSBは、検証用に複数のファイルをセーブし、一度消去したものです。フォーマットし直す、ドリルで穴を空ける（どこかの国会議員スタイル）など手の込んだ処理をしていないので、オープンソースでも復元できました。

消去した電子ファイルの名称は、なぜか先頭の一文字が「_」となっています。USBのファイルシステムがFATだったことが関係しています。FATの場合、ファイル名の先頭の1バイトをいじって、無効であると示されるようです。

BitCurator NLPを試す

https://bitcurator.net/bitcurator-nlp/を参照。
受け入れたボーンデジタルの史料の持つ特徴を、自然言語処理の機能によって、抽出・分析しレポートを作ります。文書の中にある人物・地名・主題を抽出、それぞれの関係性を分析し、クラスター化し、最後は絵にして表示してくれるはずです。
恐らくは、膨大な電子ファイルを含むボーンデジタル資料群の持つ内容上の性質を自動的に分析し提示してくれるモジュールだと思います。紙資料だと整理担当者が一枚ずつめくって資料群の性質を読み取りインデックスを付けるという職人芸が求められますが、大量のデジタルデータとなるとほとんど不可能ではないでしょうか。だから、賢いツールに職人さんの代わりを務めてもらいましょうという話となります。

ダウンロードは
https://github.com/bitcurator/bitcurator-nlp-gentm
から行います。
$ sudo ./setup.sh
に時間がかかるので、途中で解散。

次回もzoom。
6/5（金）の19:00からです。

2020年5月23日土曜日

【56】BitCuratorー何者かを中心に

今日は久々にBitCuratorに戻り、もう一度動きと何をするためのソフトなのかについて勉強します！

インストールの準備
インストール用ファイルをダウンロードするだけで、10時間以上かかるとのことです。試す方は、時間の余裕を持って行ってください。

Bitcurator Quickguide
ではでは、以下のガイドの見ながら進めます。Bitcuratorのガイドは画像が多く、割と詳しく書いてあるのでガイドに沿って進めます。ガイドは容量が多く最初読み込む際には少し時間がかかります。

Bitcurator Quickguide
http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf

ガイドに沿って進める
p23には、Bitcuratorが何をするソフトなのかを簡単に説明しています。Bitcuratorでは、以下の4つのフォルダを使って作業を行います。
============================================
１．Imaging and Recovery folder (p24～）
物理的なメディアから情報を引き出すためにディスクイメージを取るところです。

この作業では、事前に準備したUSBを読み取ります。読み取るUSBは容量が多いと（PCの性能によりますが）とんでもない時間がかかります。テストの際には、容量の少ないもので試すことをお勧めします。道場では、256MBの中古のメモリを購入しました（BitCuratorにかけると解析される容量は267.5MBでした）。これに道場でいくつかファイルを書き込んだり、削除したりした状態のものをテストにかけました。これで10分程度かかった気がします。

これは余談ですが、道場で購入した中古のUSBをBitCuratorにかけたら、以前の持ち主が削除したファイルも復元されました。お～と思いましたがこういうのは売るもんじゃないですね。くれぐれもメルカリなどには出さないように。笑（一応言っておきますが、危ない情報はありませんでした。）

Tip
ディスクイメージを取るということは、ファイルシステムからは読み取りや複製ができない領域も含め、メディア上のデータを物理的に端から端まで読み取ることを言います。

２．Forensics and Reporting folder (p34~)
ここがアーカイブズ資料には最も重要な部分になります。読み取ったraw disk contentsをcarveしたり、DFXMLファイルを作成（ファイルシステムの階層情報などが入っている）したりして、解析した結果のレポートを作成します。分析内容をより詳しく知るには、ガイドの「APPENDIX A：Running BitCurator reporting tools individually」(p68～）を見てください。

レポートの作成には、Launch BEViewer（Bulk Extractor Viewer）を使います。ここでは、SSNやEmail住所、EXIFメタデータなどを抽出します。抽出したい情報は選択できるようになっていますが（p38）、ファイルの属性や形式によってどの情報を抽出するか判断するためには関連知識が必要ですね。素人には勉強が必要と思われます。

Bitcurator Reportsを作成するには、かなり時間が掛かります。永遠に終わらないんじゃないかと思うくらい終わりません。テストの際には注意してください。

Tip1
ここで専門家ぽいことを一つやってみましょう！（笑）
Ubuntuのコマンドラインにtopコマンドを打つと、CPUの使用状況が確認できます。USBの解析レポートを作成するには時間が掛かるので、このコマンドで動いているプロセスを確認してみるのも面白い。（皆ここでZoomの動きも確認することができ、よく動いている～という話になり、Zoomを誉めまくる時間となりました。笑）

Tip2
カービング（carving）：データ復元手法の1つ。各種データのヘッダやフッタのパターンを検索して抽出、復元する手法。、foremost、scalpel、PhotoRecなどのツールが知られています。これらは原則として、ファイル単位のカービングをするツール。

Tip3
Bulk Extractor：入力データに対して様々なパターン(シグネチャ)で検索して意味のある情報を抽出するツールであり、ファイルカービングのツールと似ていますが、ファイル単位に限らない幅広いデータパターンを抽出する。

※参考サイト
http://www.kazamiya.net/bulk_extractor-rec

３．Packaging and Transfer folder
転送とアクセスに使うBagger, Python-Baglt, Grsyncのツールがある。

４．Additional Tools folder
ディスクイメージやファイルの検査・処理に使うツールがある。
============================================

レポートの内容
ということで、BitCuratorでは2.Forensics and Reporting folderでに関することを理解することがメインになる気がします。なので、ここで作成されるレポートの内容を確認したいと思います。

bc_format_bargraph.pdf：ファイルフォーマットをグラフで表示
bulk_extractor_report.pdf：ディスクの特徴や内容の概要
fiwalk_deleted_files.pdf：削除されたファイル情報
fiwalk-output.xml.xlsx：ファイルシステムの概要
format_table.pdf：フォーマットの正式情報（略称ではなく長い名称をすべて表示）
premis.xml：PREMIS保存メタデータ表示

Tip

fiwalk：C言語で書かれたdata forensicsツールです。分析結果をXML or ARFF フォーマットで出してくれますが、次のサイトにXMLの例があるので見てみてください。https://forensicswiki.xyz/wiki/index.php?title=Fiwalk

今日の作業は、初めて取り組んだ時より順調でしたが、p51 ファイルをエクスポートのところでつまずきました。作成されるはずのexportフォルダが作成されません。今日はここまでにして、次回に続きをやります～

ここで感想を一言！

BitCuratorをアーキビストはどのように使えばよいか、ということが我々は気になるところですが、今日何者かを念頭に置きながら操作をしてみると、やはりファイル形式やメタデータ、0と1の世界をより理解する必要があるように感じました。例えば、現場で寄贈されたUSBをこれで分析したとして、アーキビストはその結果をどう利用するのか...自分にはちょっと難しい気がするのですが...なんだか、digital conservatorの力を借りる必要がある気がします。

=======================
次回
2020年5月29日（金）19：00～＠Zoom
またね～

2019年6月7日金曜日

【34】Bitcuratorのツールを使ってみる

今日は早速勉強会始まります〜
Bitcuratorマニュアルのp51から勧めます！

Quick guideline
http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

Disk image Access Tool
USBをBitcuratorで分析した結果、USBをどのように使ってきたもわかるように情報が取れることがわかりました。

例えば、我々が用意したUSBでは以下のような操作をしています。
１）USBの直下にいくつかのファイルがある状態から
２）「新しいフォルダー」を作成
３）すべてのファイルをこのフォルダーへコピー
４）「新しいフォルダー」の名前を「aaa」に変更
５）USBのすべてのデータを削除
６）この状態でBitcuratorに入れて分析

ここで、削除したデータが復元されただけではなく、上記の操作がわかるような情報が表示されました。下の画像をご参考ください。一部復元できなかった部分には「_」（アンダーバー）がついています。

FSlintを使ってみる
複製物（重複するデータ）を見つけて消す機能だそうです。マニュアルはp54。

参考サイト↓
ファイルシステムの整理に便利なFSlint
https://mag.osdn.jp/07/12/03/0131241

一番わかりやすいのはこれかも
http://write.flossmanuals.net/fslint/common-interface-items/

これはFSlintの操作画面です。
このMerge機能は、「選択したもの以外を、ハードリンクを使って（もし異なるファイルシステムにシンボリックリンクがある場合はそれを使う）、マージする」でしょうか。これは、http://write.flossmanuals.net/fslint/common-interface-items/　が一番わかりやすいとのこと。

ここで、登場した用語の中で、ハードリンク（hardlink）とシンボリックリンク（symlink、symbolic link、ソフトリンクとも）、マージ（merge）は知っておきたいですね。

※ハードリンク（hard link）とシンボリックリンク（symbolic link）
↓ここが概念としては参考になるかな？
http://e-words.jp/w/%E3%83%8F%E3%83%BC%E3%83%89%E3%83%AA%E3%83%B3%E3%82%AF.html

↓ここは技術的な仕組みがわかる
https://qiita.com/katsuo5/items/fc57eaa9330d318ee342

↓これが参考になる人もいるだろうけど、私はなんか紛らわしい。笑
https://wa3.i-3-i.info/word1152.html

※マージ

http://e-words.jp/w/%E3%83%9E%E3%83%BC%E3%82%B8.html

辞書的意味は、結合でしょうけど、調べるといろんな場面で使われているようです。ソースコードを比較して一つに結合するとか、画像ファイルなら順番で並べたり、同じものは削除して一つだけ残すとか…　FSlintのMergeは恐らく後者なのではないかと思いますが…（もし違ったらコメントして～～）

pyExifToolGuIを使ってみる
マニュアルp56

地理関係のデータを確認したり、修正したりできるツールです。メタデータとして地理情報をつけたりして、exportすることもできるみたいです。地理情報を自動で取得できるのかと思いましたが、それはまだないみたいです。（笑）左の画像が切れてしまいましたが、下の画像のような感じでデータを入れられます。
ここで知っておきたい用語↓

※XMP、GPano
https://ja.wikipedia.org/wiki/Extensible_Metadata_Platform
https://developers.google.com/streetview/spherical-metadata?hl=ja

使い方はここが詳しい↓
https://hvdwolf.github.io/pyExifToolGUI/
https://hvdwolf.github.io/pyExifToolGUI/manual/pyexiftoolgui.html

Disk Image Access Tool
ここでちょっと話題を変えて、前回途中でやめていたUSBの分析を続けます。以前は、いきなり古いUSBをBitcuratorにかけてみたのですが、わけがわからなかったので、どういうものが入っているかがわかる小さいUSBでまず試してみたのでした。少し慣れてきたので、ここで前回やめたところに戻ります。

いぇーカービングしてしまおうぜ〜　（なんか格好いいでしょう？）
何が出てくるかワクワクするぜ〜　（こわい〜）

ここで再度USBをBitcuratorにかけて、disk imageを取ってレポートを出してみます。

しかし・・・やはり時間がかかりますな〜（；^ω^）やたらCPUも使うし、今日中には終わらなさそうです。さてさて、作業を続けるかどうか・・・

これは、今頑張っている道場1号機の状態です。ちょっと無理をしているのでしょうか。ここで覚えておきたいのは、スワップかな？スワップは、メモリーに収まりきらない情報を一時的に記憶装置に書き出し、必要に応じて、メモリー内の情報と交換することだそうです。

ここを読めばわかるはず。
http://e-words.jp/w/%E3%82%B9%E3%83%AF%E3%83%83%E3%83%97.html

しばらく待ちましたが、やはりやめようか！になりました。笑

今日もこの作業は残念ですが、ここまでです。こんなに時間がかかる作業を大量のデータに対して行うって、現実的なのだろうかとか思ったりします。実際使っているところがあれば話を聞きたい！

とういうことで、今日もお疲れ様でした！

番外編
BitcuratorのYoutube動画もあります。参考にしましょう！
https://www.youtube.com/user/bitcurator

=========================

次回は、6月28日（金）です。
今日やめた作業の続きに再度挑戦
VirtualmachineにArchivematicaを構築

2019年5月30日木曜日

【33】BitCuratorに再チャレンジ

BitCurator自体がデータを作っていないかをチェック

前回、中古のジャンク品のUSBメモリをテストした際に、bulk_extractorでドメイン名やメールアドレスが多くスキャンされました。BitCurator自体がデータを作っていないかを確認するために、真っさらにしたUSBメモリで再テスト。
簡易フォーマットではないフォーマットを行い、中身はすべて０を記入した62mbのバイナリーファイルとそれを作るためのCのソースファイルとその実行ファイルで構成しました。

bulk_extractorでイメージファイルをスキャン。作成した覚えのないファイルを拾わなかったので、BitCuratorが健全に動いて、対象となるデバイスの情報だけをスキャンしていることを確認しました。

新品のUSBメモリでテスト

新たに、128MBのUSBメモリでテストします。一旦ファイルとディレクトリ構造を作って、全部消去したものです。いかがわしい画像・動画が入っていることを期待( ͡° ͜ʖ ͡°)！

bulk_extractorでスキャンした情報を確認。どうしていれた覚えのないdomain.txt（＝ドメイン情報）が入っているのかがわからない。
iphoneで撮影したデータを入れたが、そこに付随するドメイン情報を読み取っているのだろうか。
Wordファイル、PDFファイルに付随して、adobeやmicrosoftのdomain情報を読み取っている可能性もあります。

fiwalkのメタデータを確認

fiwalkのxmlファイルを参照。時間の表記がなぜそうなっているのかわかりません。
mtime＝修正時間（inode管理）
atime＝アクセス時間
crtime＝作成時間
テストしたイメージでは
mtime 2016-06-25T04:06:08
atime 2019-05-24T04:00:00
crtime 2019-05-24T17:34:18
mtimeがatimeとcrtimeより早くなっているという不思議な現象です。
crtimeとatimeは、別のマシンで作成したデータをまるまんまコピーしてUSBメモリに写した日時、mtimeは元のマシンで修正した日時を反映しているようです。
また、それぞれのtimeには誤差が生じる可能性があります。
atimeは±86400秒、crtimeは±2秒、mtimeは失念。
特にatimeの誤差は大きく、他のケースも見たところ、別媒体にコピーして未アクセスの場合、4:00:00になるのではと推測。

timeのところのZは、UTC（協定世界時＝グリニッジ標準時）で表記していることを示すもので、日本時間はUTC との時差を +09:00 などとして示されます。

ところで、コピーの貼り付けで電子ファイルの本当の時刻がわからなくなるのは大問題です。デジタルフォレンジックスの意味がない。

参加メンバーによると、Windowsの仕様で、USBファイルにドラッグコピーすると、書き込んだ時刻に変更されてしまう事例があるとのことです。要対策です。

備考

purl.orgの意味はこちら
http://blog.appling.jp/archives/1577

追加：ファイル数のカウント

BitCuratorには、ファイルのフォーマット別にファイル数をカウントし、レポートにまとめてくれる機能があります。しかし、ここで挙げられる数字と実際にUSBファイルに入れたデータファイルの数が合いません。何をBitCuratorがカウントしているのかを調査する必要があります。

次回日程

次回は6/7（金）です。忘れずに来てください。

2019年5月10日金曜日

【32】Bitcuratorインストール＆AtoM2.5リリース

道場のインフラの整理がとても時間がかかっていますが、今日も若干その続きです。ITの素人には、こういうのもお勉強ということで。勉強会始まります！

Bitcuratorのインストール

前回道場1号機にVirtureBoxを入れるまで終わったので、今日はBitcuratorをインストールします。まずは、virtureboxを立ち上げて、追加（プラスボタン）を押して、ダウンロードしたBitcurator2.0.14ファイルを選択してインストールします。

ガイドラインはいつものこれ↓

Bitcurator Quick guide

http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

USBメモリの認識
インストールが無事できたので、容量の少ないUSBメモリを解析してみます。しかし、前回と環境が変わってせいか、USBを認識させるのに苦労をしています。ググって出てきた情報を参考に設定を変えてみます。

参考サイトはここ↓
https://qiita.com/civic/items/684c4b82428feb0c4ae1

この中で、「USB機器の一覧がでないときは、virtualboxを起動するユーザがvboxusersグループに所属していないとダメ」という部分が要因のようです。つまり、道場1号機のユーザーが、Bitcuratorのグループに属していないといけない。これはサーバー上のコマンドラインで設定します。そこで以下を実行したら、やっとUSBを認識してくれました！

$ sudo gpasswd -a YOUR_USERNAME vboxusers

USBメモリの解析
次はガイドラインのp23、p24に進みます。
p28, p29へと進んで、ガイドラインにあるように（下記）設定して、startします。

上のimage directoryは、必ず入力しなければなりません。何も入力しないと、書く先がないということで、永遠に作業が終わらないみたいです。ガイドラインにだまされないように注意しましょう。我々は、/home/bcadmin/Desktop/SampleDataを入力しました。
しかしstartしたところ、試したUSB（16GB）の処理には30分から1時間くらいは時間がかかりそうでしたので、約200MBのUSBで再度試します。テストの際には、時間を考慮して容量の少ないものにしましょう。200MBくらいのUSBのbulk extractor scanは、約5分くらいでできました。では、reportを確認します〜（楽しみ〜）

今回は、中古の古いUSBを購入して解析してみましたが、なぜかurlがたくさん含まれていました。一般的に文書を作成する際に、これほどURLが書き込まれるのだろうか？一体今今見ているものは何なのか...実は、reportを見たところで人間が読める形ではないので（一部URL部分は解読できますが）、我々が一所懸命見たところで理解できるはずがありません。

といことで、今日はガイドラインのp38まで進みました。今日はここまでにします。この謎めいた結果の続きは、次回をお楽しみに！

AtoM2.5バージョンリリースについて

AtoMのNew featuresは、ユーザーフォーラムにあります。Treeviewが改善されたり、CSVのimportの性能もよくなったみたいです。

https://groups.google.com/forum/#!topic/ica-atom-users/6V_-leoTgwU

============================
次回
2019年5月24日（金）
テスト用のUSBメモリ（小容量、新品）を用意して、色な種類のデータを中に入れて試しましょう！

2019年4月5日金曜日

【30】道場の引っ越し作業（システム環境の再設定）

今日は、道場の引っ越しデーです。
今日は新しいメンバーを何人も迎え、賑やかな感じで始めます！

2019年度からは、立教大学の公認プロジェクトとなりました。ご尽力いただきましたHさんに感謝感謝！💛ということで、これからは何らかの成果物も残さなければなりません。心機一転して頑張りましょう！（ちゃんと勉強しないといけなくなっちゃった…笑）

では、今日のメイン作業は、道場のインフラ準備です。

ネットワーク設定
では、まず会場のネットワーク環境に合わせてマシンを設定しましょう。
新しい会場では、固定IPは使えないので（使うためには学校に申請し、取得しなければなりません）、DHCPでIPアドレスを取得するようになります。なので、マシンにあった既存の固定IP設定をやめて、IPアドレスを自動取得できるように設定を変更します。（変更作業は、素人にはちょっとわかりません…先生にやっていただきました。）

ここでは、固定IPとDHCPについて勉強しておきましょう。DHCPは簡単にいうと、IPアドレスを自動で割り当てする仕組みだそうです。ググってみてね。
https://wa3.i-3-i.info/word1959.html

ソフトのインストール
会場ではメインマシンは一つです。しかし、試したいソフトは色々あるので、VirtualBoxの中で複数のマシンを仮想で作り、ソフトを動かすことにしました。OSが同一のソフトは一緒に動作はしますが、負担のかかる複数のソフトが同時に動く場合、色々面倒な処理がマシンの裏側では行われるそうです。ということで、仮想マシンを立ててそのソフト専用のマシンとして動かす方が、やりやすいということですかね。今のところは、AtoM、Archivematica、BitCuratorが必要です。

順番としては、

マシン（道場1号機）のOSをインストール（Ubuntu 16.04、これは事前に終わっている状態なので、勉強会ではやりません。）
ネットワークの設定（ウェブという町に家を買うという感じです。これで、住所ができました。）
VirtualBoxをインストール（Linux用）
この後は、VirtualBoxの中に必要なソフトをインストールします。道場1動機には、すでにAtoMがインストールされているので、VirtualBoxで動かすのは、ArchivematicaとBitcuratorです。

VirtualBoxとBitcuratorをインストール
ということで、VirtualBoxをインストールします。
（しばし歓談～～）

ウェブで探してダウンロードするだけなので、難しいことはありません。しかし、道場の雰囲気は自由すぎて、注意散漫です（笑）。簡単な作業でも問題を起こすのが、我々ですから、今回もバージョンをちゃんと確認せずにインストールしてしまいました。結局、Bitcuratorが走るVirtualBoxのバージョンより新しいバージョンをインストールしてしまったため、Bitcuratorが動かないことが判明しました。（でも、Quick guideには最新バージョンをインストールするって書いてあったような…）

そこでVirturalBoxを削除したいのですが、消す方法を見つけるのも一苦労です。
ただプログラムを削除すれば済む話ではないようです。関連するDBなど、色々（笑）なものを削除する必要があるとのこと。今回参考にしたのは以下のサイトです。コマンドラインから作業しました。
https://rtmccormick.com/2018/03/03/remove-virtualbox-ubuntu-16-04-xenial/

気を取り直して、VirtualBox（5.2 extention verstion1)を再インストールしました。
今回は、ちゃんと資料を見ながら進みましょう。

Bitcurator Quick guide

http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

インストール時に注意が必要なのは、Quick guide p15に書かれている内容です。マシンのBIOS設定に入りますので、やったことがない方はびっくりするかもしれません。マシンが再起動する際に、F11、F12、F2などのどれかのキー（機種によって異なります）を押してBIOS設定に入るのですが、ここは怖がらずやりましょう。わからない人は事前にググってみましょう。

ここでは、VirtualBoxをアンインストールするということは、ただソフトを消すだけではダメだということが勉強になりました。追加情報として、VirtualBoxとセットで良く使われる、vagrantについても勉強しておきましょう。

説明として、わかりやすい例がありましたので、以下引用します。

例えるなら、VirtualBoxが「野球場」でVagrantが、チームごとの「マネジャー」です。
野球場があれば、人数さえ揃えばどこでも野球をすることができます。でも、チームごとのマネジャーがいれば、どのような場合に、どのようなプレーをするかメンバーで共有することができますし、チームメンバーのコンディションを管理してくれます。これによって、効率的に試合を進められることができます。
同じように、VirtualBoxがあればどこでも仮想環境を構築することができるけど、Vagrantがあれば、チームメンバーのコンディションを管理・把握した上で、同じ開発で環境を進めることができます。（https://qiita.com/kenju/items/00050972fdf74e37e71f　から引用）

※参考サイト

https://thinkit.co.jp/story/2015/03/19/5740
https://qiita.com/kenju/items/00050972fdf74e37e71f　

番外編
BitCuratorのインストール用ZIPファイルはダウンロードするのに結構時間がかかります。そこで道場では、すでにUSBに保存されたファイルを使おうとしました。しかし、使ったUSBのファイルシステムは、exFATだっため、マシンがUSBを読めないという事態が発生しました。
exFATは大容量を処理できるファイルシステムですが、Ubuntuが使用するファイルシステムとは異なるため、書かれたデータをマシンが読むことができません。これを読み込むためには、exFAT用ドライバーが必要とのことです。これで、ドライバーをダウンロードしてインストールし、やっとUSBを認識することができました。
USB3.0は古いマシンでは読めなかったりしますし、exFATも新しい仕組みで、macでもwindowsでも読めたり、大容量のデータを高速で処理できる利点などがあるらしいですが、マシンによってはこういう思わぬトラブルが発生しますので、これも知っておきましょう。これについては、FAT, NTFS, exFATなどでググってみてね～。ここで理解する必要があるのは、「ファイルシステム」かな？ (^_-)-☆

※参考サイト
https://eng-entrance.com/linux-make-filesystem
https://www.buffalo.jp/support/faq/detail/1079.html
http://office-qa.com/win/win126.htm

結局、今日は色々時間がかかり、Bitcuratorのインストール途中で時間切れとなりました。マシンのメモリが４GBとのことで、若干鈍いので次回は、メモリを増設する作業をします。使わなくなったPCからメモリを取って、道場1号機に移植する手術を行い、続きを進めます。次回もお楽しみに！

===================
次回
2019年4月26日（金）
道場1号機のメモリ増設、ソフトのインストールの続き、遠方から参加するメンバーの環境設定などをやります。

※後日追記
道場１号をPC（WindowsまたはMac）から操作するための設定は、
以下の情報が役に立つかと思います。
http://imamachi-n.hatenablog.com/entry/2018/04/28/211147

可能なら道場１号は固定IPが望ましいとのこと。
IPアドレスを自動取得する状況ですと、毎回、IPアドレスを確認する必要があり、
そのためにディスプレイ、キーボードおよびマウスを接続しなければならないからです。

2019年2月22日金曜日

【28】BitCuratorのインストールから

リッツ最高！（いきなりすみません！）空腹を我慢できず、ぺろりと一袋食べてしまいました。ちょっと元気が出たので、今日も頑張ってブログ書きます。
今日も一日をなんとか無事に終えた大人9名で、勉強会始めます〜
パチパチパチ〜

さて、前回の続きですが、インストールしたはずのBitCuratorが動きません。Virtural BoxからBitCuratorを可動させようとしましたが、なぜかシステム自体が立ち上がりません。原因は不明です。時間だけが過ぎるので、再インストールすることにしました。これは時間がかかるので、今日もインストールがメインの作業になりそうな予感がしてきました。（おっととと・・・）

空いた時間でガイドラインをちゃんと読みましょう。

※Quick Guide

http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

しかし、ここでVirture Boxを管理者モードで実行しなかったことに気づき、モードを変えて再起動をさせてみました。これはUSB認識のためらしいので（ガイドライン p9)、関係があるかはわかりませんが…　とりあえずなんでもやってみます！
そうすると、動かなかったマシンが動きはじめました。しかし、立ち上げの状態で真っ黒な画面のまま変化がありません。どうしたもんか・・・

ここでリーダーから前回の反省です。
うまくできた時の記録を取るべきだったわ….・゜゜・（／。＼）・゜゜・
（前回の勉強会ではわぁーと盛り上がりすぎましたね。）

ガイドラインでは、Virtual Boxを使う場合は、tarファイルでインストールすることをおすすめしています。しかし、前回isoファイルでインストールしちゃいました。その時なにか問題があったかもしれませんが、我らの優秀なエンジニアーさんがチャチャッとシステムを動かしたわけです。本日我らの優秀なエンジニアーさんは欠席のため（笑）、確認はできませんが…汗

ではでは、作業の話に戻ります。
いくら待ってもBitCuratorが立ち上げの処理が終わらないので、Virtual Boxを一旦中止して、Virtual Boxの設定から、メモリを１Gから３Gへ増やして再度立ち上げをしました。
そうしたら、なんとうまくいきました！！

メモリが少なすぎたようです。動作が遅すぎるとメモリをチェックしましょう。一応isoファイルをインストールしたことはあまり影響はないみたいです。

次は、BitCuratorが立ち上がったので、USBを読み込みます。
しかし、前回もUSBがすぐマウントされませんでしたが、今回も同じです。どうすればすぐ読んでくれるのでしょうか。ガイドラインではUSBのコントローラーの設定を3.0にするようにとありますが（p13）、古いUSBを入れた場合は、この限りではありません。

Ubuntu自体がディスクを認識できてない場合があるので、Ubuntuの右下から（Virture Boxで動かしているUbuntuです。Windows やMacのマシン自体のOSではないので混乱しないようにしましょう）USBのアイコンをクリックして、該当するUSBを選択して認識させてください。そうすれば、UbuntuがUSBを認識してくれます。

次は、ガイドラインのp28、p29へ進みます。

次は、30p diskのイメージを取ります。
ここでDestinationのimage directoryにはルート（/）ではなく、自分で保存先を指定してもいいです。

次は、p38まで進みましょう。

我々の設定画面はこちら↓

これで、submit runを押します。ここから時間がかかります。

前回の作業ではここまで進んで、システムを動かしておいて我々は帰りました。しかし、先生によると、2日が経っても作業は終わらず、おかしくて確認をすると、CPUが全く働いてないことに気づいたようです。一応、レポートなどは作成されたようですが、何を持って作業が終わり、進行状況を表すバーの動きが止まるかがわかりません。

そこで、今日は作業はまだ終わっていませんが、Fiwalk XML、Annotated features、Reportsの作成作業を試してみることにします（p73〜、ここでは44pに書いてある作業も参考にしてください。create folderを押さないでくださいのあたりです。）。

しかし、私たちの作業では、p81のようCommand Line Outputのところには、なんのメッセージも出ません。何が問題でしょう…しかし、report outputのところには、色々ファイルは作成されました。電話番号だけを集めたスプレッドシートとか、PREMISファイルとか・・・沢山できました。（しかし、bulk extractor outputのファイルがPDFで出力されるとのことですが、そのようなものはありません。）

アーカイブズでデータを受け入れた際には、このように分析できた情報の中から、個人情報や電話番号などをどうするか判断する必要があるようです。

今日の作業はそろそろ終わりですが、ここで、BitCuratorの終了方法を確認しましょう。次回また立ち上がらなくて時間を無駄にしないようね。笑
ガイドラインには終了方法が書いてないようなので、BitCuratorの右上にあるアイコンから電源を消す、再起動ができるボタンを見つけたので、それでやってみます。ここでは再起動にします。（restartとshutdownの動作には違いがあってシステムに何が起こるか心配な場合はrestartをするようです。これについてはググってみて！）

しかし、案の定、再起動ができません。（なに〜〜〜〜）やはり次回も、システムの起動に時間がかかるんでしょうか・・・（心が折れる…）

でも、今日は前回の復習から少しだけ進んで、レポートを出すプロセスがうまくいかないということが確認できました。ちょっと行き詰まり感はありますが、一応少しは前進したということにしたいと思います。

今後は、今日の問題をどう解決するか、ガイドラインをちゃんと読むことと、ユーザーフォーラムなどからヒントを探すなど、本当の勉強が必要です。
みんな、頑張って！！！

では、またね〜
┌(・。・)┘♪└(・。・)┐♪┌(・。・)┘

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
次回
3月8日（金）（この日はAtoMの日本語訳に取り組みます～）

後日追記
BitCuratorの再起動ができなかったのは、やはりVirture Boxにisoファイルでインストールしたことが問題かもしれません。システム自体が起動がスムーズではないので、BitCuratorの問題というより、周辺環境とBitCuratorの相性が合わないのではという意見がありました。次回は、素直に（笑）tarファイルでインストールからやり直してみるのもいいかもしれません。

2019年2月15日金曜日

【27】ついにBitCurator！

今日はバレンタインデーのあとということで、素敵な女子から、お酒入のチョコレートの差し入れを頂きました。やっぱりいい年の大人はお酒がないと頑張れないですよね〜

ということで、大人の勉強会はじまり、はじまりです！

今まで、Archivematica、AtoMについて色々実験なり、議論を重ねて来ましたが、今日からは、範囲を広げてBitcuraterについて勉強します。BitCuratorはデジタルフォレンジックのツールです。

とういうことで、まずはBitCuratorのダウンロードから始めます。
（ダウンロードに時間がかかります。トイレに行くなら今。笑）

※Quick Guide

http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

ここを読みながら進みましょう。
私たちは、VirtuarlBoxにBitCurator-2.0.12をインストールしました。

Quick Guide の23pから読みながらやってみます。

私たちは、1GBのUSBでテストします。
まずUSBを認識して、USBのイメージを取ります。（28p)

（ここで久々のこの曲の出番です。ちゃらんちゃんちゃんちゃん〜ちゃらんちゃんちゃんちゃん〜ちゃらちゃんちゃちゃちゃちゃちゃちゃちゃ〜〜〜〜　例の3分クッキングの時間です。）

これで、イメージが取れましたので、次に進みます。
ファイルイメージを処理するためのアプリ（BEViwer）を開いて、bulk_extractor利用してFile systemを分析します。（33-34p）

ここでFile carving もしくは、Data carvingについて勉強しておきましょう。
削除したファイルを復元するときに使われる手法のようです。
File carving, data carving, データカービング、ファイルカービングで検索してみてね！
https://en.wikipedia.org/wiki/File_carving
https://www.computerhope.com/jargon/d/data-carving.htm

これも読んでみると参考になるかな？
http://www.byakuya-shobo.co.jp/hj/moh2/pdf/moh2_p174_p179.pdf
http://port139.hatenablog.com/entry/2014/02/17/064119

そして、File systemの分析と、Data carvingなどの処理（39p）が終わったら、saveを押すとレポートを作成してくれます（44p）。これは、しばらく時間がかかります。Be patient!

ということで、トイレに行くなら今！　笑
じゃなくて、しばらく歓談です！

分析にはかなり時間がかかります。今回は１GBのUSBの中に10個くらいのファイルが存在するものをテストしています。なんとなく20分ほど動かしているのですが、分析がまだ終わりません。かなり時間が必要であることが判明しました。PCにはこのまま働いてもらい、我々は帰るしかないですね。

途中までのレポートがこれです↓

他にも情報は盛りだくさん！

公式HP https://bitcurator.net/

YoutubeにもBitCuratorの勉強ができる動画は沢山あるみたい。

（やるかやらないかはあなた次第〜〜）

https://www.youtube.com/user/bitcurator

今日も盛りだくさんでした。特に削除されたデータが復元されることには驚きとともに恐怖を覚えました。怖い〜〜〜〜　次回は、USBを提供してくれたHさんの過去を暴きます！！！　笑

ではでは、また次回！

======================================

次回 2月22日（金）
その次は、3月8日（金）（この日はAtoMの日本語訳に取り組みます～）

後日追記
HさんのUSBには、昔あったファイルを削除し、10個くらいのファイルだけを残していました。しかし、BitCuratorにかけた結果、削除したファイル内で使用していた画像ファイルが復元、その他もろもろ削除したはずのファイルが復元されました。つまり、電子記録を受け入れる際には、この点についても寄贈契約に含めないといけないとのこと。これは大事な点かと思います。

↓こちらは追加で教えてもらった参考資料です。皆読んでね～
Digital Forensics and Born-Digital Content in Cultural Heritage Collections
https://www.clir.org/pubs/reports/pub149/

登録: 投稿 (Atom)

2020年9月25日金曜日

2020年9月12日土曜日

2020年7月31日金曜日

2020年7月19日日曜日

2020年7月4日土曜日

2020年6月20日土曜日

2020年6月6日土曜日

Bitcurator NLPを試す

Disk Image Selection and Configuration

Running the Tool

エラーの分析

2020年5月30日土曜日

BitCuratorテストの続き

BitCurator NLPを試す

2020年5月23日土曜日

2019年6月7日金曜日

2019年5月30日木曜日

BitCurator自体がデータを作っていないかをチェック

新品のUSBメモリでテスト

fiwalkのメタデータを確認

備考

追加：ファイル数のカウント

次回日程

2019年5月10日金曜日

2019年4月5日金曜日

2019年2月22日金曜日

2019年2月15日金曜日

最近の投稿

人気の投稿