2020年4月25日土曜日

【53】ふたたびePADD

なんとなく、金さんが書いてくださるような期待を抱いていたのですが、今回はわたくしが担当いたします。

今日も今日とて、ePADDをお試しします。

この前はインストールするとデフォルトで表示されるAppraisal moduleで、Gmailから落としてきたメールのimportに関するレポートを読んでみたり(文字コードの問題に気づく)メールの検索をしたり(日本語や韓国語は全くだめであることを確認。ヨーロッパ言語でも、意味というよりは文字列で機械的に引っかけていることがわかった)、検索したメールにlabelをつけたり、というあたりを試してみました。感想としては、「結局、けっこう手間かかるのでは?」という感じになったのですが、さて今回は、Processing moduleから先に行ってみます。

結論からいうと、PC1台で遊んでいる限りにおいては、Discovery moduleを使うために、別のモジュールをダウンロードしてインストール必要はないようです。

User Guide p.12 Selecting Module

に書いてある通り、localhost:9099/epadd/switch-module に行って、Processing moduleに入ればよいのです。が、なぜか他のモジュールに進んで新しい作業をするときは、ePADDを一回終了しなさい、とGuideに書いてあるので、それを律儀に実行します。しかし、これがめんどくさいのですわ。

それはさておき、無事Processing moduleに移れることがわかりました。

で、とりあえずhome/user/ユーザー名の直下に、epadd-settingとかepadd-appraisalという名前のディレクトリが自動でできている、それと同じレベルに、epadd-processsingというディレクトリを作成しておきます。

さて、その前に前にePADDを閉じてー開いてーしたのだったかどうかは忘れましたが、やることやったらAppraisal moduleに入って、データを、home/user/ユーザー名の直下を指定してエクスポートします。(Guide 3.6 今後はセクション番号にします)

ぶじ....二つのディレクトリができました。
Guideでは、"ePADD archive of なんとか"というディレクトリが一つできるはずなのですが、今回はその後ろにDeliveryとついたものと、Discoveryとついたものが二つできています。なぜかしら。

まああまり深く考えず先に進むことにして、これが、ドナーがざっくり選別した、アーカイブズに寄贈したいメールと、関連のメタデータ等のひとまとまり(うーむ、なぜかふたまとまり....片方はDiscovery用、もう一方はDelivery用だということは明らかですが、なぜ今できるのかがよくわかりません)ということになります。

これを今度は、アーカイブズが処理するためのProcessing moduleにimportするわけです。そのためには、今は Appraisal moduleにいるので、閉じて開いて、switch-moduleからProcessing module に入ります。

Guide 4.1 通りに入力していきます。どこの作業でも、ディレクトリを選択するのがちょっとやりにくいね、というのが感想。

で、やりました。すると、おおー!入りました!

Guide 4.2 に、先ほど入れたメタデータなどが表示されます。
この段階では、所蔵機関などの情報が入っていなくて、そのままパスしてしまったのですが、後で「これ入れたいよねー」という話になり、Az Ozさんがみごとに入り口を発見!画面左、「Summary」の横のアイコンをクリックすると、編集できます。

このProcessing moduleは、ドナーから受け入れたメールを、アーカイブズ機関が自らのポリシーや判断にしたがって、さらに評価・選別したり、アノテーションをつけたり、公開期限を定めたりすることができます。

まあいろいろあったのですが、昨日はいろいろと交錯しまして、誰もちゃんとメモしていなかったのでした。

というわけで、とにかくここで何か処理をしようということになり、一人のcorrespondentのメールに、「restricted」というラベルを作成して付与しました。
そして、翌日である2020/04/25まで非公開、という条件をつけたのです。

さて、これで処理が終わったので、この全体をsaveして、またまたexportします。
さきほどと手順は同じで、とりあえずepadd-settingなどのディレクトリがあるところに、同じレベルで、epadd-discoveryというディレクトリを作っておきます。

それで、またさきほどと同じところをめがけてexportすると....

なんだか、前と同じDeliveryとDiscoveryのディレクトリが二つあるわけです。はい。
堀内さんの記憶では、なんだかさっきとファイル数が違う、という話も出たのですが、よくわからないので、結局同じ名前でフォルダが出力されて、上書きされたのではないかという全く根拠のない推測をしたうえで、次に進むことにしました。

Guide 5.1 通りに、Discoveryディレクトリを、丸ごとepadd-discoveryにコピーします。

それで、閉じて開いてDiscovery moduleに行ってみると、最初はちょっとがっかりしたのですが、インポートされたメール数は同じでした。「じゃあ、さっき非公開にしたの、結局見えちゃうんじゃね?」と考えて行ってみると、ない!見えません!

というわけで、きちんと、公開用のDiscovery module上では閲覧制限がかかっていたのでした。はたして今日、解除されているでしょうか。楽しみです。

で、いまGuide 6の出だしを読んでみたら、Delivery moduleは、アーカイブズ機関内部で、制限されているものも含めて全てみることができるモジュールなのだそうです。
(20020505追記:Discoveryモジュールは、オンラインのユーザがだいたいこんな人のこんなメールがあるのだな、とあたりを付けるためのもので、メール本文はほとんど読めないような表示になるそうです。そして、あたりを付けたユーザは、来館して館内のPCで、Delivery Moduleを通してメールにアクセスできるという運用方法なのだそうです。デジタル化してもオンラインにはできないような書簡でも、館に行けば見られるのとパラレルに考えるとわかりやすいかも?)

というわけで、まとめてみると:

「有名な教員のアーカイブズをまるごと引き受ける大学アーカイブズ」

先生メール魔でアカウントもたくさん。でもPCけっこういけるので、メールはこれで選別してね、とePADDの使い方指導する。

先生自分のPCでAppraisal module上で作業。
メールどかどかダウンロードして、「これはやばいから捨てちゃおう」とか「これは100年非公開」とか自分で評価選別し、終わったら結果をエクスポートして、アーカイブズに渡す。

アーカイブズはそれをProcessing moduleに入れて、さらに作業。「100年非公開って、それはないでしょう」と先生と交渉して短くしたり、「先生これいいって言ってるけどFERPAに引っかかりそう」というのをよけたりとか、その他もろもろ作業をする。

それが終わったら結果をエクスポートして、Discovery module(外部用)と、Delivery module (内部用)に放り込む。

ということかな。


さて、今回大きな話題となったのが文字コードでした。
ここのところ、私は話がややちんぷんかんぷんだったので、どなたかお助けくださいませ。

見たところ、ePADDは日本語のメールを読み込んで、全てではないが一部のメールをふつうに表示することができるのに、検索は全くできないわけです。そこには文字コードとその変換の問題がありまして、それを解決しなければならない。さらに日本語自体をePADDに学習させるプロセスが必要なので、日本語対応させるのは A. そうとう困難 B. 意外とできるかもしれない の2つの可能性が見えてきた、ということだったような.....

とりあえず、「これ日本語で使えたらいいなーと思うけどどうしたらいいかしら?」という感じのメールを、開発者の方に送ってみることにしました。(あるいはフォーラムで聞いてみる)

では、文字コードについて、どなたかよろしく。

最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿