2020年4月25日土曜日

【53】ふたたびePADD

なんとなく、金さんが書いてくださるような期待を抱いていたのですが、今回はわたくしが担当いたします。

今日も今日とて、ePADDをお試しします。

この前はインストールするとデフォルトで表示されるAppraisal moduleで、Gmailから落としてきたメールのimportに関するレポートを読んでみたり(文字コードの問題に気づく)メールの検索をしたり(日本語や韓国語は全くだめであることを確認。ヨーロッパ言語でも、意味というよりは文字列で機械的に引っかけていることがわかった)、検索したメールにlabelをつけたり、というあたりを試してみました。感想としては、「結局、けっこう手間かかるのでは?」という感じになったのですが、さて今回は、Processing moduleから先に行ってみます。

結論からいうと、PC1台で遊んでいる限りにおいては、Discovery moduleを使うために、別のモジュールをダウンロードしてインストール必要はないようです。

User Guide p.12 Selecting Module

に書いてある通り、localhost:9099/epadd/switch-module に行って、Processing moduleに入ればよいのです。が、なぜか他のモジュールに進んで新しい作業をするときは、ePADDを一回終了しなさい、とGuideに書いてあるので、それを律儀に実行します。しかし、これがめんどくさいのですわ。

それはさておき、無事Processing moduleに移れることがわかりました。

で、とりあえずhome/user/ユーザー名の直下に、epadd-settingとかepadd-appraisalという名前のディレクトリが自動でできている、それと同じレベルに、epadd-processsingというディレクトリを作成しておきます。

さて、その前に前にePADDを閉じてー開いてーしたのだったかどうかは忘れましたが、やることやったらAppraisal moduleに入って、データを、home/user/ユーザー名の直下を指定してエクスポートします。(Guide 3.6 今後はセクション番号にします)

ぶじ....二つのディレクトリができました。
Guideでは、"ePADD archive of なんとか"というディレクトリが一つできるはずなのですが、今回はその後ろにDeliveryとついたものと、Discoveryとついたものが二つできています。なぜかしら。

まああまり深く考えず先に進むことにして、これが、ドナーがざっくり選別した、アーカイブズに寄贈したいメールと、関連のメタデータ等のひとまとまり(うーむ、なぜかふたまとまり....片方はDiscovery用、もう一方はDelivery用だということは明らかですが、なぜ今できるのかがよくわかりません)ということになります。

これを今度は、アーカイブズが処理するためのProcessing moduleにimportするわけです。そのためには、今は Appraisal moduleにいるので、閉じて開いて、switch-moduleからProcessing module に入ります。

Guide 4.1 通りに入力していきます。どこの作業でも、ディレクトリを選択するのがちょっとやりにくいね、というのが感想。

で、やりました。すると、おおー!入りました!

Guide 4.2 に、先ほど入れたメタデータなどが表示されます。
この段階では、所蔵機関などの情報が入っていなくて、そのままパスしてしまったのですが、後で「これ入れたいよねー」という話になり、Az Ozさんがみごとに入り口を発見!画面左、「Summary」の横のアイコンをクリックすると、編集できます。

このProcessing moduleは、ドナーから受け入れたメールを、アーカイブズ機関が自らのポリシーや判断にしたがって、さらに評価・選別したり、アノテーションをつけたり、公開期限を定めたりすることができます。

まあいろいろあったのですが、昨日はいろいろと交錯しまして、誰もちゃんとメモしていなかったのでした。

というわけで、とにかくここで何か処理をしようということになり、一人のcorrespondentのメールに、「restricted」というラベルを作成して付与しました。
そして、翌日である2020/04/25まで非公開、という条件をつけたのです。

さて、これで処理が終わったので、この全体をsaveして、またまたexportします。
さきほどと手順は同じで、とりあえずepadd-settingなどのディレクトリがあるところに、同じレベルで、epadd-discoveryというディレクトリを作っておきます。

それで、またさきほどと同じところをめがけてexportすると....

なんだか、前と同じDeliveryとDiscoveryのディレクトリが二つあるわけです。はい。
堀内さんの記憶では、なんだかさっきとファイル数が違う、という話も出たのですが、よくわからないので、結局同じ名前でフォルダが出力されて、上書きされたのではないかという全く根拠のない推測をしたうえで、次に進むことにしました。

Guide 5.1 通りに、Discoveryディレクトリを、丸ごとepadd-discoveryにコピーします。

それで、閉じて開いてDiscovery moduleに行ってみると、最初はちょっとがっかりしたのですが、インポートされたメール数は同じでした。「じゃあ、さっき非公開にしたの、結局見えちゃうんじゃね?」と考えて行ってみると、ない!見えません!

というわけで、きちんと、公開用のDiscovery module上では閲覧制限がかかっていたのでした。はたして今日、解除されているでしょうか。楽しみです。

で、いまGuide 6の出だしを読んでみたら、Delivery moduleは、アーカイブズ機関内部で、制限されているものも含めて全てみることができるモジュールなのだそうです。
(20020505追記:Discoveryモジュールは、オンラインのユーザがだいたいこんな人のこんなメールがあるのだな、とあたりを付けるためのもので、メール本文はほとんど読めないような表示になるそうです。そして、あたりを付けたユーザは、来館して館内のPCで、Delivery Moduleを通してメールにアクセスできるという運用方法なのだそうです。デジタル化してもオンラインにはできないような書簡でも、館に行けば見られるのとパラレルに考えるとわかりやすいかも?)

というわけで、まとめてみると:

「有名な教員のアーカイブズをまるごと引き受ける大学アーカイブズ」

先生メール魔でアカウントもたくさん。でもPCけっこういけるので、メールはこれで選別してね、とePADDの使い方指導する。

先生自分のPCでAppraisal module上で作業。
メールどかどかダウンロードして、「これはやばいから捨てちゃおう」とか「これは100年非公開」とか自分で評価選別し、終わったら結果をエクスポートして、アーカイブズに渡す。

アーカイブズはそれをProcessing moduleに入れて、さらに作業。「100年非公開って、それはないでしょう」と先生と交渉して短くしたり、「先生これいいって言ってるけどFERPAに引っかかりそう」というのをよけたりとか、その他もろもろ作業をする。

それが終わったら結果をエクスポートして、Discovery module(外部用)と、Delivery module (内部用)に放り込む。

ということかな。


さて、今回大きな話題となったのが文字コードでした。
ここのところ、私は話がややちんぷんかんぷんだったので、どなたかお助けくださいませ。

見たところ、ePADDは日本語のメールを読み込んで、全てではないが一部のメールをふつうに表示することができるのに、検索は全くできないわけです。そこには文字コードとその変換の問題がありまして、それを解決しなければならない。さらに日本語自体をePADDに学習させるプロセスが必要なので、日本語対応させるのは A. そうとう困難 B. 意外とできるかもしれない の2つの可能性が見えてきた、ということだったような.....

とりあえず、「これ日本語で使えたらいいなーと思うけどどうしたらいいかしら?」という感じのメールを、開発者の方に送ってみることにしました。(あるいはフォーラムで聞いてみる)

では、文字コードについて、どなたかよろしく。

2020年4月20日月曜日

【52】ePADDお試し(個人的に)

今日はお休みなので、元さんが見つけてくださったビデオをざーっと見てみました。が、機能の紹介のような気がしまして、それはそれでいいのですが、どうもやり方がよくわからないのです。

で、またUser Guideを見ながらお試ししてみました。
しかし、User Guideに書いてあることと、実際にPC内で起こっていることが微妙に違う気がして、いろいろやってみた末に、結局一回アンインストールしてみることに。

このアンインストールのしかたが、ふつうのアプリケーションみたいにアンインストールするのかなと思ったら、そうではないようです。

ePADDが動いていないことを確認して、データが必要ならバックアップして、epadd-appraisalなど、プログラムが自動的に、あるいは必要に応じて作成したディレクトリを消しなさいと....。

https://epadd.nimeyo.com/55/how-do-i-uninstall-epadd

で、無事消しまして、もう一回入れてみました。
User Guideを読んでみると、テスト環境で1台のPCで全部のモジュールを試す場合は、
localhost:9099/epadd/switch-module に行って変えればいいようです。(User Guide p.12)

そうかいなと思って行ってみたら、あっさりProcessing Moduleに入れました。

このあとがなぜかうまく行かなかったのですが、とにかくいったんProcessing Moduleから出て、Appraisal Moduleに戻って、メール2件くらいをDo not transferにして、saveして、エクスポートしてみました。その際、c/users/(user)を行き先に指定してみると、おお、確かに「ePADD archive of dojo」というフォルダができているではあーりませんか!

その中身を確認すると、もともとインポートしたデータの他にいろいろ、テキストファイルが入っています。ふむふむ。

で、ePADDを一回閉じて、また開いて(むすんでひらいて♬みたいですが)、Processing Moduleに入ります。あとはマニュアル通りに...と思ったら意外とうまくいかなかったのでした。詳しくはメモっていないのですが、とりあえずepadd-appraisalと同じレベルにepadd-processing フォルダがなかったので、作成しました。

で、やってみるとまずはjavaがなんとかいうエラーがでました。これと同じです。


こりゃーだめかなーと思ったら、見てみると元のフォルダがepadd-processingフォルダにコピーされてたのです。ということは、動いてるんじゃん!と思って、再挑戦。しかし、データがないとかデータがすでにあるとかいうメッセージが、やってもやっても出てきます。

もういやになってきたときに、元さんの教えを思い出し、いちど落として、再起動して、再挑戦してみました。

そうしたら、意外なことに、あっさりうまくいってしまったのです。というわけで、みなさんは一発でうまくいくことをお祈りしております。

このProcessing Moduleは、Appraisal Moduleがちょっとプロ仕様になった感じですね。
で、ここの作業の最終成果を、次のDiscovery moduleに入れればいいみたい。さらに、Discovery moduleをローカルで試す場合、どうもダウンロードもしなくていいみたいです。User Guide p.72を読むと。


5.1 Testing the Discovery Module

To test the Discovery module on your local workstation, copy the folder “Email archive of <name>-Discovery,” exported through the Processing Module to the “epadd-discovery” folder in your user directory. (Please see Section 2: Getting Started for more information about locating your user directory). If an “epadd-discovery” folder does not already exist within your user directory, create that folder.”
取り急ぎ、メモでした。

2020年4月17日金曜日

【51】ePADD入門

今日は感染の疑いのある人も含め(O..O)!ZOOMで勉強会始めます〜
皆の無事を確認しつつ、ePADDについて軽く触れるくらいで終わりたいと思います。

ということで、今日はいくつかの基本情報だけメモします。

ePADD User Manual
https://docs.google.com/document/d/1CVIpWK5FNs5KWVHgvtWTa7u0tZjUrFrBHq6_6ZJVfEA/edit#heading=h.3znysh7

関連記事:ePADD, Stanford University

今回テストしたのとは別のthe stand-alone discovery module.もありました。
Transferはこちらに行えるのでしょうか。

----------------------------------------------------
次回は、4月24日(金)19:00〜です。
皆さん、コロナで外出できず、寂しいです。
ぜひご参加を!

後日追記
appraisal moduleはドナーが使うというワークフローを想定していたみたいですね。
https://blogs.loc.gov/thesignal/2014/10/the-epadd-team-on-processing-and-accessing-email-archives/


最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿