2019年6月28日金曜日

【35】 仮想マシンにArchivematicaを入れる

先日の道場にて、ブログ執筆を参加者が順番に担当していくことになり本日担当することになりました。
今回の担当者は初めての執筆で、間違い等々あるかと思いますが、適宜ご指摘頂ければと思います。

さて本日の作業ですが、
道場が始まる前にemailを受け入れるためのアプリであるePADDを試してみよう!
という話が持ち上がったのですが、諸々の条件がまだ整っていないということで、当初の予定通りArchivematicaを入れることになりました。
ePADDの研究に関しては、時間外に個々人ですすめるということに。
因みにURLは↓です
https://library.stanford.edu/projects/epadd

ということで、VirtualBoxにubuntu18.04を入れてArchivematica14.1を走らせることが今回の目標です。

Archivematica用の仮想マシンを作成

①VirtualBoxの新規作成(追加)
 新規→名前「matica」→Ubuntu(64-bit)

②あれこれ設定をしていきます
 desktop版とサーバー版の選択→Desktop版
 メモリ→4GB
 仮想ハードディスク→追加する
 ディスクイメージの選択→VirtualBox Disk Image
 Diskの可変サイズ→50GB

③CPUの数とグラフィックメモリのサイズ、ネットワークの設定
設定→システムで
 ・CPUの数:1つ→4つに(ホストマシンは8つ)
 ・グラフィック:ビデオメモリーを128Mb
 ・ネットワーク:NAT/NATネットワーク/ブリッジアダプター/内部ネットワーク/ホストオンリーアダプター/汎用ドライバーから選択
→NATなら外からインストールができるようになるけど、ブリッジだとインストールできない場合があるとのことで、初期設定はNATにして、色々条件を整えてからブリッジに変更することに。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ネットワークについて、執筆担当者はこのあたりちんぷんかんぷんだったのですが、わかりやすいサイトを教えて頂きました
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
Vertualboxは無事に起動。

④Ubuntuを入れる
Ubuntuをインストール→言語設定→Ubuntuのインストール→インストールの種類(推奨)→TimeZoneの設定→名前:kyouseiken/コンピュータの名前:Matica/PW
→インストール→リブート
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
マシンが頑張っている間は歓談です。
 ・大容量のUSBメモリでBitCuratorを扱いたかった、朝から走らせれば間に合う?
 ・実際にBitCurator等を扱っている機関はどれ位のマシンを使っているのか?
 ・マシンの性能を上げるか、長く走らせるか→NARAで大量のデジタルデータを大統領府から受け入れているときどうしているのだろう?   etc.
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

無事にインストールが完了しましたので、必要なあれこれをいれることに
コマンドラインを使って
 ・net-tools(IPアドレスを調べるためのツール)
 ・VIM(コマンドラインの操作性をあげる拡張子)
の2つをインストールしました。

Archivermaticaのインストール

ホストマシンにあらかじめ作成しておいた、ArchivematicaをインストールするためのディレクトリをVirtualBox上のUbuntuに移します。
コマンドラインでの操作。

やっていることは
https://www.archivematica.org/en/docs/archivematica-1.9/admin-manual/installation-setup/installation/install-ubuntu/#install-pkg-ubuntu
とほぼ同じようです。

ただ幾つか違う点もあり
MySQLのユーザーとパスワードをdemoにする
などがあります。(理解が追いつかなかった…)

実行!!
・・・なぜか動かない

原因はリモートデスクトップにあったようでして。
Windowsのリモートデスクトップでメモリの異常消費があるみたいです。
ホストマシンの方はおおむね順調に稼動していた模様。
しかし、ホストマシンがある場所は大人数での作業に適さないため、今後の課題になりそうです。

今回はこれにて一旦終了です!
次回はArchivematicaのインストールの続きから。

次回は7月12日を予定しています。

2019年6月7日金曜日

【34】Bitcuratorのツールを使ってみる

今日は早速勉強会始まります〜
Bitcuratorマニュアルのp51から勧めます!

Quick guideline
http://distro.ibiblio.org/bitcurator/docs/BitCurator-Quickstart-v2.pdf

Disk image Access Tool
USBをBitcuratorで分析した結果、USBをどのように使ってきたもわかるように情報が取れることがわかりました。

例えば、我々が用意したUSBでは以下のような操作をしています。
1)USBの直下にいくつかのファイルがある状態から
2)「新しいフォルダー」を作成
3)すべてのファイルをこのフォルダーへコピー
4)「新しいフォルダー」の名前を「aaa」に変更
5)USBのすべてのデータを削除
6)この状態でBitcuratorに入れて分析

ここで、削除したデータが復元されただけではなく、上記の操作がわかるような情報が表示されました。下の画像をご参考ください。一部復元できなかった部分には「_」(アンダーバー)がついています。



FSlintを使ってみる
複製物(重複するデータ)を見つけて消す機能だそうです。マニュアルはp54。

参考サイト↓
ファイルシステムの整理に便利なFSlint
https://mag.osdn.jp/07/12/03/0131241

一番わかりやすいのはこれかも
http://write.flossmanuals.net/fslint/common-interface-items/


これはFSlintの操作画面です。
このMerge機能は、「選択したもの以外を、ハードリンクを使って(もし異なるファイルシステムにシンボリックリンクがある場合はそれを使う)、マージする」でしょうか。これは、http://write.flossmanuals.net/fslint/common-interface-items/ が一番わかりやすいとのこと。

ここで、登場した用語の中で、ハードリンク(hardlink)とシンボリックリンク(symlink、symbolic link、ソフトリンクとも)、マージ(merge)は知っておきたいですね。

※ハードリンク(hard link)とシンボリックリンク(symbolic link)
↓ここが概念としては参考になるかな?
http://e-words.jp/w/%E3%83%8F%E3%83%BC%E3%83%89%E3%83%AA%E3%83%B3%E3%82%AF.html

↓ここは技術的な仕組みがわかる
https://qiita.com/katsuo5/items/fc57eaa9330d318ee342

↓これが参考になる人もいるだろうけど、私はなんか紛らわしい。笑
https://wa3.i-3-i.info/word1152.html

※マージ
辞書的意味は、結合でしょうけど、調べるといろんな場面で使われているようです。ソースコードを比較して一つに結合するとか、画像ファイルなら順番で並べたり、同じものは削除して一つだけ残すとか… FSlintのMergeは恐らく後者なのではないかと思いますが…(もし違ったらコメントして~~)

pyExifToolGuIを使ってみる
マニュアルp56

地理関係のデータを確認したり、修正したりできるツールです。メタデータとして地理情報をつけたりして、exportすることもできるみたいです。地理情報を自動で取得できるのかと思いましたが、それはまだないみたいです。(笑)左の画像が切れてしまいましたが、下の画像のような感じでデータを入れられます。
ここで知っておきたい用語↓

※XMP、GPano
https://ja.wikipedia.org/wiki/Extensible_Metadata_Platform
https://developers.google.com/streetview/spherical-metadata?hl=ja

使い方はここが詳しい↓
https://hvdwolf.github.io/pyExifToolGUI/
https://hvdwolf.github.io/pyExifToolGUI/manual/pyexiftoolgui.html


Disk Image Access Tool
ここでちょっと話題を変えて、前回途中でやめていたUSBの分析を続けます。以前は、いきなり古いUSBをBitcuratorにかけてみたのですが、わけがわからなかったので、どういうものが入っているかがわかる小さいUSBでまず試してみたのでした。少し慣れてきたので、ここで前回やめたところに戻ります。

いぇーカービングしてしまおうぜ〜 (なんか格好いいでしょう?)
何が出てくるかワクワクするぜ〜 (こわい〜)

ここで再度USBをBitcuratorにかけて、disk imageを取ってレポートを出してみます。

しかし・・・やはり時間がかかりますな〜(;^ω^)やたらCPUも使うし、今日中には終わらなさそうです。さてさて、作業を続けるかどうか・・・


これは、今頑張っている道場1号機の状態です。ちょっと無理をしているのでしょうか。ここで覚えておきたいのは、スワップかな?スワップは、メモリーに収まりきらない情報を一時的に記憶装置に書き出し、必要に応じて、メモリー内の情報と交換することだそうです。

ここを読めばわかるはず。
http://e-words.jp/w/%E3%82%B9%E3%83%AF%E3%83%83%E3%83%97.html

しばらく待ちましたが、やはりやめようか!になりました。笑

今日もこの作業は残念ですが、ここまでです。こんなに時間がかかる作業を大量のデータに対して行うって、現実的なのだろうかとか思ったりします。実際使っているところがあれば話を聞きたい!

とういうことで、今日もお疲れ様でした!

番外編
BitcuratorのYoutube動画もあります。参考にしましょう!
https://www.youtube.com/user/bitcurator

=========================
次回は、6月28日(金)です。
今日やめた作業の続きに再度挑戦
VirtualmachineにArchivematicaを構築

最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿