2020年9月12日土曜日

【65】BitCurator Access Redaction Tools チェック1

夏休みが終わりました。参加者は、前回のことを何にも覚えてません。ちゃんと休めたという証拠です。

次のマニュアルを見ながら、プライバシー関係または個人識別情報の自動墨消しの機能を確認していきます。

bitcurator-access-redaction Quick Start Guide

https://distro.ibiblio.org/bitcurator/docs/BCR-Quickstart.pdf

Githubのマニュアル

https://github.com/BitCurator/bitcurator-access-redaction

以下、ページ数は、上記PDFファイルのものです。

前回の作業で、テスト用のイメージファイルが作成されています。test_image.rawです。

墨消しの前にイメージファイルの内容を確認します(p. 8)。

右クリック、Scripts > Image Mount を選択し、イメージファイルをマウントして、GUIで内容を見ることができます。もちろん、Read onlyで、内容変更できません。

テストの簡略化のため、処理するtest_image.rawをデスクトップに移動(p. 9)。

$ cp ~/bca-redtools-X.X.X/libredact/test/test_image.raw ~/Desktop

GUI上でのマウス操作でも構いません。

fiwalkをtest_image.rawにかける。

$ fiwalk -f -X ~/Desktop/test_image_fw.xml ~/Desktop/test_image.raw

fiwalkはこちらhttps://confluence.educopia.org/display/BC/Generate+Filesystem+Metadata+as+DFXML

ファイルを分析し、メタデータをxmlファイルで作成します。

前回、あまり理解できなかった墨消しの環境設定にトライします。

test_image.raw用に作られたp. 14の事例を一つずつ試していきます。

test_image_config.txtの作成の仕方はこちら。

$ cd ~/desktop

$ vi test_image_config.txt

test_image_config.txtにp. 14をコピーペーストしました。

1行目の

# Targets The Whale.txt 

FILE_NAME_MATCH *Whale.txt FUZZ

のみを確認しようと思います。FUZZ(ぼやかす)の意味が不明なので、やってみて理解するつもりです。

次の命令文で実行します。

$ redact-cli -c ~/Desktop/test_image_config.txt

ビフォーアフターを比較すると、ほとんど変化なし。
どうやら、Fuzzは.exeなど実行ファイルを無効化する命令ではないかと推測。ですから、テストに使ったThe Whale.txtというtxtファイルには効果がありません。どうして、txtファイルをテスト事例に上げてやがるんだ!

ですので、test_image.rawにあるexecutableディレクトリの.exeファイルを対象に検証を開始します。
の説明がわかりやすいです。

墨消し$ redact-cli -cを実行後、ビフォーアフターを比較します。
$ cd ~/Desktoop
$ diff -b PUTTY_ original.EXE PUTTY.EXE
あるいは、WindowsのOSに持ってきて確認できます。プロパティで比較すると、fuzzした.exeファイルからは、メタデータが消えているので、実証完了。

次回は9/25(金)です。
他の墨消し条件を1個ずつ検証していきます。




最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿