2018年6月23日土曜日

ふたたびワークフロー問題

すみません。なんだかやはりこの問題が気になっちゃって。
ちょっと古いArchivematicaのフローを見てみると、やはりSIP段階でDCメタデータを付与しています。

https://wiki.archivematica.org/images/9/96/Archivematica-0.6-WorkflowInstructions-v3.pdf

たしかに、Archivematicaを通さないとウィルスなどチェックできないので、micro-serviceを全部通しちゃって、DIPをAtoMにuploadしちゃえば、ArchivematicaのGUIよりはずっとましです。そしてAtoMにのせてしまうと、今度はAtoMのGUIでは、アイテムレベルを一つ一つ記述するのはたいへん。そこでいったんexportして、記述し直して再インポートする、というフローを今実現しようとしているわけですよね。で、そのうえでもう一回その全体をArchivematicaに入れ直せば、Archivematicaに保存用のAIPとして大事に保存されるのは、記述メタデータつきのよいデータと言うことになる。それもわかるんですが、でもなんだか妙にムダが多いようにも思います。

デジタルオブジェクトは基本的にフラットにArchivematicaには入っていくわけで、それをDCでとりあえず最低限記述しておく(つまりアイテムのタイトルなどはついている)。それをSIP段階で編成すれば、METS上で、Structmapでしたっけ、あそこのlogicalにその編成が反映される。そうすればAtoM上には構造を持ったデータとして入っていく以上、あとはフォンドやシリーズなど上位レベルの記述を充実させるだけですから、それはGUIでもいい、という感じなのではないかなーと。なんか、その方が楽じゃないですかね。

でもやっぱり違うのかなー。悩ましいなー。

でもやっぱり(しつこいですね(笑))これでもpre-ingestでdescriptive metadataつけてる。

https://inforum.library.utoronto.ca/sites/inforum.library.utoronto.ca/files/course_files/winter2018-archivematica-slides.pdf

CCAのTim Walshも、当初BitCuratorでdescriptionつけたりもしていたようですね。
https://www.bitarchivist.net/blog/2017-05-01-buf2017/

ではまた7/5に!




2018年6月22日金曜日

【15】AtoMの再インストール


今日はストレス解消から始めます!
つまり、前回狂ったAtoMを壊すぞ〜〜〜〜 イェ〜

設定は残したまま(?)、AtoMとデータベースをすべて削除します。
その後、
1)AtoMを再インストール
2)データベースをクリエートします。
https://www.accesstomemory.org/ko/docs/2.4/admin-manual/installation/linux/ubuntu-xenial/

でも、削除するのはエンターを押したらあっという間で、全然ストレス解消になりませんでした。 ^^;

AtoMの設定が完了したら以下の設定を追加します。
1)言語に日本語を追加
2)pluginを全部インストール

まず、exampleのCSVを入れて動作を確認します。
ubuntuのマシン(サーバー)でexportします。
exportしたもののタイトルだけを変更して、変更が反映されるか試します。

ここで、また前回からの続きの問題にぶつかりました。
exportしたCSVへ追記を行う際にもとのフォンドを同定する条件に関する問題です。

どうも、Legacy IDは複数あるという話が。(え?)
なぜかというと、import時に設定したLegacyIDと、export時に出てくるLagacyIDが異なることに気づいたのです。どうもexport時のLegacyIDはjob番号のよう。
しかし、LegacyIDは所蔵先が入れるものでコントロールするものじゃなかったっけ?

ここで、永遠と続く実験の世界に入り込んでしまったわけでして…(ーー;)
若干場当たり的な実験が続きますが、お付き合いくださいまし。

1)
CSVのLagacyIDに3000を入れてimportしてみる。
それをexportして、3000が残っているかを確認します。
3000は残ってない。
やはりexportしたCSVのLegacyIDはAtoMのjob番号が付与されているよう。

2)
最初importしたCSV(マッチング条件LegacyID、source nameを満足)のタイトルを変えてから再度importしてみる。
結果が…思いつかない… T..T

3)
exportしたもののタイトルを変えて、delete matching and replace... をオプションにすると、変更が反映された。しかし、それをexportすると、legacyIDが変更された。これは完全に削除してから新しく書き換えているので、LagacyIDも新しいjob番号が付与された模様。deleteは、親(Fond)が合えば下は自動で全部消える設定になっている(マニュアルにそう書いてあるよ〜)。

4)
exportしたCSVのマッチングさせるための2つの条件と関係ない項目を変更して、もう一度実験。タイトルはマッチするかの判断の2番目の条件になっているので、そこが変わるとマッチしてないと判断している可能性があるように思われる。
予感は的中した。アップデートに成功。
つまり、タイトルを判断基準にしているようだ。

5)
6)




何度か実験は続きましたが、条件をどう変更したか、結果がどうなったか覚えられなくなりました。(頭の限界です〜 (^^)a )

しかし、今日の発見は、マッチングの条件
1)legacy ID, source name
2)title, identifier, repository
の考えられる組み合わせで実験してみると、DIPへの追記のコツがわかりそうだと言うことでした。

現在、CSVに追記してimportした時に該当部分が変更されるのではなく、変なアイテムが追加されちゃったり、階層が狂って追加されたりする現象をなくすためにも、これは確認する価値があるかもしれません。

ということで、今日はここまでです。
ガソリンも2倍注入して、かなり遅くなりました。
若干くたびれたけど、次回も頑張りましょうね。

========================================
次回は、引き続き謎解きに挑戦し、コツが分かったらDIPをAtoMへuploadします〜



2018年6月15日金曜日

【14】 CSVでAtoMへ色々 importする。

今日は足元悪い中、ご来場いただきありがとうございます〜
雨にも負けず、道場は始まります。


★前回CSVエクスポート空っぽだった理由★
現在のAtoMのCultureは、日本語設定になっている。
前回入れたものはシリーズを英語(En)設定にしてしまった。
cultureが英語ではない場合のバグが3つ報告されえている。
これが原因だと思われる。
https://projects.artefactual.com/issues/12155

確実にCSVをエクスポートできるのはやはりEnで設定した場合。
多言語対応と言っている割には、実際そうでもない気がしてきました。(^^;)

ということで 、環境を英語に変えてもう一度チャレンジします。
その前に、とりあえずガソリン入れましょうか〜〜〜 (ニヤリ〜)

その間、先生に設定を直してもらいます。(なんという生徒たちなんだ!)
作業内容を優しく説明してくださいましたが、半分理解不能なので、われわれはガソリンを入れて、見守ります!cultureの変更には、Timezoneも変更します。(America/Vancouverに設定)

ちょんちょんちゃん ちょんちょんちゃん〜 ♪(c= ̄∇ ̄=)c" (作業中)


では、cultureを英語に変更したので、CSVを importして、exportします。
結果は、成功!!(やはりculutureの問題でした。)

この状態で、いまや問題児に変わってしまったフォンドConimal2をexportしてみます。
ダウンロードしたCSVに追記して、importします。
ここで操作を若干見逃し「重複を 無視する」をチェックしてなかったので、シリーズとかアイテムとか重複して全部二重に入力されちゃいました。

でも、これどうやって消すんでしたっけ?(ふむ…)
ここでついに道場には派閥が現れました。
実験組、議論組、ボカン〜組(私はここです)
(しばし議論が飛び交う)

では、 もう一度画面に集中してもらいます。
ボカン~としている間、実験組がいろいろいじっている間に、CSVをimportができなくなりました。
シンプルなデータで、エラーが出そうな内容は何もないのに…
AtoMは気まぐれです。(T,.T)

単純なフォンド、シリーズ、アイテムのCSVを入れているのだけど、なぜか階層が作成されず、全部ばらばらでプラットでimportされました。 何度やっても同じ…
(再起動を〜〜〜 (ノ゚ο゚)ノ オオオオォォォォォォ- 京都からの叫びです。)

どうもFondsが認識されないのではないかという意見が 。
Fondsの階層があってないようなエラーが出ているので、Fondsの表記が気になる。
なぜかTaxonomyも狂っていて、Fondsがいくつもあるので、整理してみます。
これはすでに入力されているデータに影響があるかもしれないので、注意が必要。

★ここでTaxanomyの偽物を見極めるコツ★
TaxanomyのLevel of DescriptionにあるFondsとか、seriesとかが、たくさん生成されてしまった場合はいらないものを削除できます。FondsとかをクリックするとURLが表示されますが、偽物にはURLの最後が「Fonds-2」のように番号が付いた名前になっている。番号がないものがほんものです。偽物は消しましょう。


もう一度importをチャレンジしますが、失敗。Taxonomyの問題じゃないかもです。

ではexampleCSVファイルを入れてみます。これは、テスト用で提供されているものだからimportされないと本当におかしい。

ちゃじゃん〜

でも失敗。しかも関係のないconimalのdigital objectが 入力された。なぜ? 


おかしい…今日cultureを変えたから?
うん? これはまさかculture ショック? ( ̄□ ̄;)!!

これはもうAtoM自体が壊れたような感じです。
今日は頑張ってももう何もできない・・・


★こんな状態でも一つ発見はありました!★
例えばitemsが 100件ほど間違った場合、 itemsゼロのfondsを「delete matches and replace・・・」にチェックを入れてimportします。そうすると、 fondsがマッチしているので全部消されたあと、入力したfondsにリプレースされる。つまり、100個のitemsが消えます。


とういうことで、カルチャーショックを受けて今日は終わります!
機械を相手にする作業って大変です。
今日のAtoMはさよならして、次回は生まれ変わったAtoMと作業します。

皆気を付けて帰ってね〜

====================================
次回はAtoMのインストールから復習します。
あたらしいAtoMの環境で、今回出たエラーの解決を再度チャレンジします。
時間があれば、AICを勉強します!




2018年6月8日金曜日

【13】 AtoMのCSV→Archival Description追記→DIPを追加



今日はスカイプメンバーなしでお送りします。
一人は京都でレクチャー中のため欠席、一人は道場にリアルで登場です~


前回はどこまでやったっけ?
AtoMからエクスポートしたCSVを利用して、Archival Descriptionの追記ができることまで確認しました。はい、そうです。
(皆記憶が曖昧で、ここまで思い出すのに結構時間がかかりました。歳を取るとしかたないですね~)

とういうことで、今日は前回のおさらいをしつつ、追記されたFondをターゲットにして、ArchivemeticaからデジタルオブジェクトのDIPを生成し、AtoMへ流すことを目指します!

===================================================

今回使うのは testtest.csv です。

まずは、AtoMにあるtesttest.csvから登録したFondのデータをCSVでエクスポートする。
そこに情報を追記して再インポートしよう。


+++ Tips +++++++++++++++++++++++++++++++++++++++++++
Exportするときは、普通にexportを押すと全リストが出てしまいます。必要なものはクリップマークをクリックしたあと、「クリップボードに行く」をクリックすれば、クリップボードに入れたものだけをexportできる。途中にチェックを入れるところが3つあるので(これでわかるのかな? ^^;)、それを全部チェックしてからエクスポートする。
++++++++++++++++++++++++++++++++++++++++++++++++++

追記する際には、CSVのLegacyID、Source NameをターゲットFondに合わせる。
Source NameはCSVファイル名です。

では、インポート!えいっ =====> ~(+。。+)~ 僕、AtoM


しかし、なぜか追記に失敗しました。

原因がわからず、しばし議論…



では、CSVを同定する際に使われる条件を一つずつつぶして行こうという話になりました。
追記の際に、比較するのは?(覚えていますか?)

1) LegacyID, Source Name
2) 1)がだめだったら、title, repository, identifierを比較する

1)を合わせても追記に失敗したので、原因がわからないのは当然だよね~
(やっぱり、機械はくせものだ!にゃぁ~疲れる~ ヾ(。>﹏<。)ノ゙ )

原因だとは思わないが、ほかに心当たりもないため、2)の条件を試してみる。
まず、title, repository, identifierを登録されているフォンドの情報と合わせてからインポート。
そしたら、なんと追記に成功した。

CSVのデータ: title=Conimal2、repository=Example Repository、 identifier=F1
AtoMのデータ: title=Conimal2、repository=Repository、identifier=空白

これを、両方以下に統一させてインポートしたら、追記に成功した。
title=Conimal2、repository=Repository、identifier=F1



ふむ。。。。でもこれは原因にならないはず。。。
逆になんで成功したんだ。。。という意見が。

そこで、他のもためしてみる。
つまり、CSVとAtoMのターゲットFondのデータを異なるように設定してインポートしてみる。

(まさに、実験だ! ちょっと科学者ぽくなってないわれわれ。( ̄ー ̄)ニヤ...  )


1)CSVのidentifierだけを異なるように設定 → 成功
2)repositoryだけを異なるように設定 → 成功
3)titleだけを異なるように設定 → 成功


ほら!なんの関係もないじゃん~~~


ということで、今までの実験はなかったことにして、次にすすむ。
(おいおい、開き直ったぞ。)

というか、一応次を進めてみます。

AtoMのConimal2をターゲットにして、デジタルオブジェクト(画像2個、PDF1個、DOCX1個)をArchivematicaにTransfer→Ingest→create SIP→して、DIPを作成する。このDIPをAtoMのConimal2のFondへ流し込む。

えいっ! よっし!
DIPの入力に成功しました。(パチパチパチ)


そして、AtoMからConimal2のCSVをエクスポートしてみます。
Job management(だったけ?)へ行って、ファイルをダウンロードして中身を確認したところ、AtoMにある記述が全て出力されていないとんでもない状況が判明。フォンドのタイトルもAtoMには入っているけど、CSVにはない。なぜ?(# ゚Д゚)つ〃



ここで突然皆飽きたのか、疲れたのか急にいなくなった。
トイレ?ガソリン取りに行った?終わり?


でも、ここでもなぜCSVの記述が完全ではないかはさておき、もう少しがんばります。
(また開き直ったぞ)

今度はFondのタイトルを、Conimal3にして(フォンド名が変わるかどうかを確認するため)、uploadしちゃえ〜〜〜

それで、importします〜 えいっ!

でも、import失敗した。

なぜ〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜

後日追記
なぜならエラー・チケットだからさ!

CSV export issues in cultures not in English

https://projects.artefactual.com/issues/12155

なんか同じ作業をなんどもしているような…
まだまだ科学者には近づけませんぬ。

ということで、今日は以上!



========================
次回は

今日は、AtoMでLegacy IDとsource nameが一致してもインポートができない謎を解けなかった。
なので次回は、DIPを流し込んだAtoMのFondデータをエクスポートして、記述をCSVで更新する作業をもう一度やります~


最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿