2020年5月30日土曜日

【57】BitCuratorー前回の続きから新しいモジュールのダウンロード

BitCuratorテストの続き


前回は、ディスクイメージのファイルエクスポートでつまづきました。
マニュアル(http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf)の51ページです。
違うUSBメモリではどうなるかを検証します。
やったことは前回の【56】と同じです。なので割愛。たまに担当するブログ当番がこんなに楽で嬉しいです。

BitCuratorを走らせる中で作成されるレポートについて一度話し合いになりました(マニュアルのp. 47)。
アーカイブズが受け取ったデータ集合体の中に、どんなフォーマットのファイルが個別にあるかを肉眼で確かめるのはほぼ無理です。なので、BitCuratorに探索してもらい、レポートにまとめてもらいます。アーキビストはそれを読んで、脆弱なフォーマットのファイルの所在などを確認できます。

さてファイルエクスポートでは、問題なくファイルを抽出し、GUIで読み取ることができました。テストしたUSBは、検証用に複数のファイルをセーブし、一度消去したものです。フォーマットし直す、ドリルで穴を空ける(どこかの国会議員スタイル)など手の込んだ処理をしていないので、オープンソースでも復元できました。

消去した電子ファイルの名称は、なぜか先頭の一文字が「_」となっています。USBのファイルシステムがFATだったことが関係しています。FATの場合、ファイル名の先頭の1バイトをいじって、無効であると示されるようです。

BitCurator NLPを試す

https://bitcurator.net/bitcurator-nlp/を参照。
受け入れたボーンデジタルの史料の持つ特徴を、自然言語処理の機能によって、抽出・分析しレポートを作ります。文書の中にある人物・地名・主題を抽出、それぞれの関係性を分析し、クラスター化し、最後は絵にして表示してくれるはずです。
恐らくは、膨大な電子ファイルを含むボーンデジタル資料群の持つ内容上の性質を自動的に分析し提示してくれるモジュールだと思います。紙資料だと整理担当者が一枚ずつめくって資料群の性質を読み取りインデックスを付けるという職人芸が求められますが、大量のデジタルデータとなるとほとんど不可能ではないでしょうか。だから、賢いツールに職人さんの代わりを務めてもらいましょうという話となります。

ダウンロードは
https://github.com/bitcurator/bitcurator-nlp-gentm
から行います。
$ sudo ./setup.sh
に時間がかかるので、途中で解散。

次回もzoom。
6/5(金)の19:00からです。

2020年5月23日土曜日

【56】BitCuratorー何者かを中心に

今日は久々にBitCuratorに戻り、もう一度動きと何をするためのソフトなのかについて勉強します!

インストールの準備
インストール用ファイルをダウンロードするだけで、10時間以上かかるとのことです。試す方は、時間の余裕を持って行ってください。

Bitcurator Quickguide
ではでは、以下のガイドの見ながら進めます。Bitcuratorのガイドは画像が多く、割と詳しく書いてあるのでガイドに沿って進めます。ガイドは容量が多く最初読み込む際には少し時間がかかります。

Bitcurator Quickguide
http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.2.pdf

ガイドに沿って進める
p23には、Bitcuratorが何をするソフトなのかを簡単に説明しています。Bitcuratorでは、以下の4つのフォルダを使って作業を行います。
============================================
1.Imaging and Recovery folder (p24~)
物理的なメディアから情報を引き出すためにディスクイメージを取るところです。

この作業では、事前に準備したUSBを読み取ります。読み取るUSBは容量が多いと(PCの性能によりますが)とんでもない時間がかかります。テストの際には、容量の少ないもので試すことをお勧めします。道場では、256MBの中古のメモリを購入しました(BitCuratorにかけると解析される容量は267.5MBでした)。これに道場でいくつかファイルを書き込んだり、削除したりした状態のものをテストにかけました。これで10分程度かかった気がします。

これは余談ですが、道場で購入した中古のUSBをBitCuratorにかけたら、以前の持ち主が削除したファイルも復元されました。お~と思いましたがこういうのは売るもんじゃないですね。くれぐれもメルカリなどには出さないように。笑(一応言っておきますが、危ない情報はありませんでした。)

Tip
ディスクイメージを取るということは、ファイルシステムからは読み取りや複製ができない領域も含め、メディア上のデータを物理的に端から端まで読み取ることを言います。

2.Forensics and Reporting folder (p34~)
ここがアーカイブズ資料には最も重要な部分になります。読み取ったraw disk contentsをcarveしたり、DFXMLファイルを作成(ファイルシステムの階層情報などが入っている)したりして、解析した結果のレポートを作成します。分析内容をより詳しく知るには、ガイドの「APPENDIX A:Running BitCurator reporting tools individually」(p68~)を見てください。

レポートの作成には、Launch BEViewer(Bulk Extractor Viewer)を使います。ここでは、SSNやEmail住所、EXIFメタデータなどを抽出します。抽出したい情報は選択できるようになっていますが(p38)、ファイルの属性や形式によってどの情報を抽出するか判断するためには関連知識が必要ですね。素人には勉強が必要と思われます。

Bitcurator Reportsを作成するには、かなり時間が掛かります。永遠に終わらないんじゃないかと思うくらい終わりません。テストの際には注意してください。

Tip1
ここで専門家ぽいことを一つやってみましょう!(笑)
Ubuntuのコマンドラインにtopコマンドを打つと、CPUの使用状況が確認できます。USBの解析レポートを作成するには時間が掛かるので、このコマンドで動いているプロセスを確認してみるのも面白い。(皆ここでZoomの動きも確認することができ、よく動いている~という話になり、Zoomを誉めまくる時間となりました。笑)

Tip2
カービング(carving):データ復元手法の1つ。各種データのヘッダやフッタのパターンを検索して抽出、復元する手法。、foremost、scalpel、PhotoRecなどのツールが知られています。これらは原則として、ファイル単位のカービングをするツール。

Tip3
Bulk Extractor:入力データに対して様々なパターン(シグネチャ)で検索して意味のある情報を抽出するツールであり、ファイルカービングのツールと似ていますが、ファイル単位に限らない幅広いデータパターンを抽出する。

※参考サイト
http://www.kazamiya.net/bulk_extractor-rec

3.Packaging and Transfer folder
転送とアクセスに使うBagger, Python-Baglt, Grsyncのツールがある。

4.Additional Tools folder
ディスクイメージやファイルの検査・処理に使うツールがある。
============================================

レポートの内容
ということで、BitCuratorでは2.Forensics and Reporting folderでに関することを理解することがメインになる気がします。なので、ここで作成されるレポートの内容を確認したいと思います。

  • bc_format_bargraph.pdf:ファイルフォーマットをグラフで表示
  • bulk_extractor_report.pdf:ディスクの特徴や内容の概要
  • fiwalk_deleted_files.pdf:削除されたファイル情報
  • fiwalk-output.xml.xlsx:ファイルシステムの概要
  • format_table.pdf:フォーマットの正式情報(略称ではなく長い名称をすべて表示)
  • premis.xml:PREMIS保存メタデータ表示
Tip
fiwalk:C言語で書かれたdata forensicsツールです。分析結果をXML or ARFF フォーマットで出してくれますが、次のサイトにXMLの例があるので見てみてください。https://forensicswiki.xyz/wiki/index.php?title=Fiwalk

今日の作業は、初めて取り組んだ時より順調でしたが、p51 ファイルをエクスポートのところでつまずきました。作成されるはずのexportフォルダが作成されません。今日はここまでにして、次回に続きをやります~

ここで感想を一言!
BitCuratorをアーキビストはどのように使えばよいか、ということが我々は気になるところですが、今日何者かを念頭に置きながら操作をしてみると、やはりファイル形式やメタデータ、0と1の世界をより理解する必要があるように感じました。例えば、現場で寄贈されたUSBをこれで分析したとして、アーキビストはその結果をどう利用するのか...自分にはちょっと難しい気がするのですが...なんだか、digital conservatorの力を借りる必要がある気がします。

=======================
次回
2020年5月29日(金)19:00~@Zoom
またね~

2020年5月8日金曜日

【55】ePADD (メールの移管を受けた設定での実験)

今日もZoomでやります~
道場の皆で、Dojoさんのうそのメールアカウントを作って、一週間各自Dojoさんとメールのやり取りをしました。今日は、それの移管を受けたという設定で、ePADDを利用し処理をしてみます。ウキウキ!

メールは、日本語ではテストができませんので、すべて英語のメールにしています。今日は、寄贈を受けたという設定なので、さっくり最後の一般公開のモジュールまで、進んでみることにします。

Appraisal Module
まずは、グーグルからメールをごっそりePADDへインポートしました。場合によては、ログインができないときがあります。理由は、おそらくグーグルの2段階認証が原因ではないかと思います。

→ この問題は、一度そのPCからグーグルにログインしたら、無事動くようになりました。(グーグルのセキュリティーは意外とちゃんとしていますね。笑)
それに、どうもchromeとは相性が悪いようです。Firefoxのほうがスムーズにできます。

ePADDに表示されるEntitiesの分析には時間がかかります。それに、日本人の名前は分析できていない模様(有名人はできた)。おそらくwikiの人物名を活用しているようです。

Appraisal Moduleは、寄贈する人またはアーキビストが行う前提のようです。なので、このモデュールで処理したものをエクスポートするとZIPが出るので、それをアーカイブへ提出する仕組みのようです。

Processing Module
エクスポートされたデータを受け取ったアーキビストは、ここで様々な資料整理を行います。メールに公開制限をかけたり、Entityを編集したり、lexiconを入力したりします。ここは、かなり時間が掛かるところだと思われます。要するに、100箱の文書がどんーと来たという状況の同じですよね。

Delivery module
閲覧室用。Processing Moduleで整理されたデータは、閲覧室で公開されます。しかし、Processing Moduleで制限をかけたものは読めません。

Discovery module
一般公開用。すべてのメールが、リストだけが見られるような形で、本文はすべて...で消され読めない状態です。メールアドレスも半分は表示されないし、URLも判読できない状態で表示されます。

全体的な仕組みとしては、Appraisal moduleを経て作成されたデータは、Processing Moduleを経て、Delivery Module用のデータとDiscovery Module用のデータとしてエクスポートできます。そのデータは、epadd-processing,、epadd-discovery、epadd-deliveryのフォルダーに夫々格納されていれば、ePADDの該当するModuleに反映されます。

なので、各モジュールは別の人が担当しても、各モジュールに必要なデータを次の業務を担当する人が受け取って、該当するフォルダーに追加すればePADDに反映されるので、モジュールに分かれていることが、最初は不便に思われましたが、なんだか便利な気もします。

今日は、これで何となくePADDがどのように動くかということがわかりましたので、これでePADDはとりあえずお終いにしたいと思います!皆さまお疲れ様でした!パチパチパチ!!!

ーーーーーーーーーーーーーーーーーーー
次回
5月22日(金)19:00~
Bitcuratorをもう一度掘り下げることになりました~


2020年5月1日金曜日

【54】ePADD(Processing + Discovery module)

今日の勉強会もZoomで進めます。
京都組は、お腹を壊していた人もいたのに、さっそくハンバーガーにビールを手にして現れました。笑 

今日もePADDの続きです~ マニュアルは↓

ePADD User Manual
https://docs.google.com/document/d/1CVIpWK5FNs5KWVHgvtWTa7u0tZjUrFrBHq6_6ZJVfEA/edit#heading=h.3znysh7

文字コードについて
まずは、文字コードに関する議論から入りました。
メールを送受信する際の、文字コードについて理解する必要があるようです。そこで、メールのメッセージソースを見てみることにします。そこには、どういう文字コードで送受信したかが記録されているとのことですが… 先生の説明を消化できぬ我々でございます。汗

ということで、以下の記事が参考になりそうなので、皆勉強しましょう。

日本語メールの仕組み
https://sendgrid.kke.co.jp/blog/?p=10958

メールの文字コードを理解する
https://www.atmarkit.co.jp/ait/articles/0602/18/news009.html


Entitiesの数がModuleで異なる件
ということで、今日のePADDは日本語なしで試します。
今日は、前回Discovery Moduleへ入れたメールを見るところから続けます。しかし、Entitiesの数はAppraisal Moduleでは216ですが、Processing Module, Discovery Moduleでは228で、数が増えています。なぜでしょう… 

この原因は色々考えても答えが出ず時間だけが過ぎたので、スキップすることにしました。次回何かでひらめくことを期待します。

非公開設定問題
前回モリヤさんから来たメールに、公開制限を付けたものが見えなくなった問題に移ります。

非公開設定の変更は、時間が過ぎてもDiscovery Moduleに自動で反映されるのではなく、Appraisal Moduleで設定を変える仕様になっているようです。しかし、前回我々はProcessing Moduleで公開制限を設定したので、一旦そこに行って制限を解除します。

作業順番です。
  1. Discovery moduleで変更し、保存
  2. Discovery moduleでエクスポートします。
  3. エクスポートしたデータは「ePADD  archive of hoei-epadd-demo-Discovery」 フォルダーへ保存されます。
  4. それを、Discovery moduleが参照する「epadd-discovery」フォルダーへコピーペーします。
  5. その後、Discovery moduleを再度開きます。

これで、制限が解除されメールが読めるようになりました。

ここで

気づき1つ目
公開の制限はマニュアルではAppraisalで行うようになっています(Guiede3.3)。しかし、Processing Moduleでもその機能が含まれているので(Guide4.3)、非公開の設定は可能です。で、我々がProcessing Moduleで設定をしたわけです。

同じことが両Moduleでできるのは、どうしてでしょう?おそらく、ドナーがAppraisal moduleで色々設定をした場合、アーキビストはProcessing Moduleでそれをドナーと相談して変更するためだと思われます。

気づき2つ目
しかし、アーキビストは大量のメールの公開期間をどうやって確認するのでしょうか。自動で教えてくれる機能がないと、やってられない気が… Moduleを行ったり来たりすることが少し面倒のようにも思われますが、それくらい気を付けて行う作業であることを意味しているようにも思われます。これについては、もう少し調べる必要があるようです。

---------------------------------
次回
2020年5月8日(金)19:00~
ePADDの続きです。英語のメールデータを入れてみましょう。
Lexiconはここです。
https://library.stanford.edu/projects/epadd/community/lexicon-working-group

その次は、Bitcuratorについて勉強します
http://bitcurator.net/bitcurator-nlp/


最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿