2020年9月25日金曜日

【66】BitCurator Access Redaction Tools チェック2

今日も前回の続きで、BitCurator Access Redaction Tools を試します。
今日も以下を見ながら勧めましょう。

bitcurator-access-redaction Quick Start Guide
https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubのマニュアル
https://github.com/BitCurator/bitcurator-access-redaction

今日も以下のconfigファイルの内容について勉強します。


FUZZ
前回は、一番目のFUZZだけで時間が過ぎてしまいましたが、今日もその続きです。binary fileをFUZZする理由とその仕組ががいまいちわからないままでしたが、今日も結論は出ませんでした。なんとなく、実行させたくないものは、それを防ぐために使うんだなというくらいにしておきましょう。このFUZZ、fuzzyだわ...^^;

上記の例がよくないので、以下のE. Fuzzing a binary (preventing execution)を参考にしたほうが良いです。

テキストデータとバイナリデータ
ごくごく簡単に言えば、エディターで読めるようなデータはテキストデータ、読めないデータはバイナリデータだそうです。笑

参考サイト

FILE_MD5
次は、FILE_MD5についてです。
MD5はハッシュ関数の一つです。(configファイルでMD5の次にあるSHA1も同じ)
コマンドラインで確認する方法は以下。
md5sumを利用すれば、Dorian Gray.txtのハッシュ値がわかります。




※参考サイト

ハッシュ値
電子記録の保存には必ず必要なものなので、勉強しておきましょう。


※豆知識
Configファイルで、DとかKで埋める処理をする理由
全部黒にしてしまうと、例えば裁判記録では、原告と被告がわからなくなってしまう場合もあるため、アルファベットで区別するらしいですよ。

今日は、残りのSCRUBとかもやってみました。
全部0で埋まることとかも確認しました〜

え?これで終わり?こんなさらっと終わる?と思う方。
正直前半白熱しすぎて、後半は集中力切れてしまいました。死ぬほど疲れました。それでも頑張る我々社会人、えらくないですか? じゃなくて…^^; 次回は真面目に書きます。ゆるして〜笑

一応configファイルの中身を丁寧に見て終わったということで、みんな満足です!
お疲れさまでした!

================================
次回は、10月9日(金)です。
新しいものについて勉強します。やりたいことがあれば、メールに流してください〜



2020年9月12日土曜日

【65】BitCurator Access Redaction Tools チェック1

夏休みが終わりました。参加者は、前回のことを何にも覚えてません。ちゃんと休めたという証拠です。

次のマニュアルを見ながら、プライバシー関係または個人識別情報の自動墨消しの機能を確認していきます。

bitcurator-access-redaction Quick Start Guide

https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubのマニュアル

https://github.com/BitCurator/bitcurator-access-redaction

以下、ページ数は、上記PDFファイルのものです。

前回の作業で、テスト用のイメージファイルが作成されています。test_image.rawです。

墨消しの前にイメージファイルの内容を確認します(p. 8)。

右クリック、Scripts > Image Mount を選択し、イメージファイルをマウントして、GUIで内容を見ることができます。もちろん、Read onlyで、内容変更できません。

テストの簡略化のため、処理するtest_image.rawをデスクトップに移動(p. 9)。

$ cp ~/bca-redtools-X.X.X/libredact/test/test_image.raw ~/Desktop

GUI上でのマウス操作でも構いません。

fiwalkをtest_image.rawにかける。

$ fiwalk -f -X ~/Desktop/test_image_fw.xml ~/Desktop/test_image.raw

fiwalkはこちらhttps://confluence.educopia.org/display/BC/Generate+Filesystem+Metadata+as+DFXML

ファイルを分析し、メタデータをxmlファイルで作成します。

前回、あまり理解できなかった墨消しの環境設定にトライします。

test_image.raw用に作られたp. 14の事例を一つずつ試していきます。

test_image_config.txtの作成の仕方はこちら。

$ cd ~/desktop

$ vi test_image_config.txt

test_image_config.txtにp. 14をコピーペーストしました。

1行目の

# Targets The Whale.txt 

FILE_NAME_MATCH *Whale.txt FUZZ

のみを確認しようと思います。FUZZ(ぼやかす)の意味が不明なので、やってみて理解するつもりです。

次の命令文で実行します。

$ redact-cli -c ~/Desktop/test_image_config.txt

ビフォーアフターを比較すると、ほとんど変化なし。
どうやら、Fuzzは.exeなど実行ファイルを無効化する命令ではないかと推測。ですから、テストに使ったThe Whale.txtというtxtファイルには効果がありません。どうして、txtファイルをテスト事例に上げてやがるんだ!

ですので、test_image.rawにあるexecutableディレクトリの.exeファイルを対象に検証を開始します。
の説明がわかりやすいです。

墨消し$ redact-cli -cを実行後、ビフォーアフターを比較します。
$ cd ~/Desktoop
$ diff -b PUTTY_ original.EXE PUTTY.EXE
あるいは、WindowsのOSに持ってきて確認できます。プロパティで比較すると、fuzzした.exeファイルからは、メタデータが消えているので、実証完了。

次回は9/25(金)です。
他の墨消し条件を1個ずつ検証していきます。




最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿