ラベル ePADD の投稿を表示しています。 すべての投稿を表示
ラベル ePADD の投稿を表示しています。 すべての投稿を表示

2020年5月8日金曜日

【55】ePADD (メールの移管を受けた設定での実験)

今日もZoomでやります~
道場の皆で、Dojoさんのうそのメールアカウントを作って、一週間各自Dojoさんとメールのやり取りをしました。今日は、それの移管を受けたという設定で、ePADDを利用し処理をしてみます。ウキウキ!

メールは、日本語ではテストができませんので、すべて英語のメールにしています。今日は、寄贈を受けたという設定なので、さっくり最後の一般公開のモジュールまで、進んでみることにします。

Appraisal Module
まずは、グーグルからメールをごっそりePADDへインポートしました。場合によては、ログインができないときがあります。理由は、おそらくグーグルの2段階認証が原因ではないかと思います。

→ この問題は、一度そのPCからグーグルにログインしたら、無事動くようになりました。(グーグルのセキュリティーは意外とちゃんとしていますね。笑)
それに、どうもchromeとは相性が悪いようです。Firefoxのほうがスムーズにできます。

ePADDに表示されるEntitiesの分析には時間がかかります。それに、日本人の名前は分析できていない模様(有名人はできた)。おそらくwikiの人物名を活用しているようです。

Appraisal Moduleは、寄贈する人またはアーキビストが行う前提のようです。なので、このモデュールで処理したものをエクスポートするとZIPが出るので、それをアーカイブへ提出する仕組みのようです。

Processing Module
エクスポートされたデータを受け取ったアーキビストは、ここで様々な資料整理を行います。メールに公開制限をかけたり、Entityを編集したり、lexiconを入力したりします。ここは、かなり時間が掛かるところだと思われます。要するに、100箱の文書がどんーと来たという状況の同じですよね。

Delivery module
閲覧室用。Processing Moduleで整理されたデータは、閲覧室で公開されます。しかし、Processing Moduleで制限をかけたものは読めません。

Discovery module
一般公開用。すべてのメールが、リストだけが見られるような形で、本文はすべて...で消され読めない状態です。メールアドレスも半分は表示されないし、URLも判読できない状態で表示されます。

全体的な仕組みとしては、Appraisal moduleを経て作成されたデータは、Processing Moduleを経て、Delivery Module用のデータとDiscovery Module用のデータとしてエクスポートできます。そのデータは、epadd-processing,、epadd-discovery、epadd-deliveryのフォルダーに夫々格納されていれば、ePADDの該当するModuleに反映されます。

なので、各モジュールは別の人が担当しても、各モジュールに必要なデータを次の業務を担当する人が受け取って、該当するフォルダーに追加すればePADDに反映されるので、モジュールに分かれていることが、最初は不便に思われましたが、なんだか便利な気もします。

今日は、これで何となくePADDがどのように動くかということがわかりましたので、これでePADDはとりあえずお終いにしたいと思います!皆さまお疲れ様でした!パチパチパチ!!!

ーーーーーーーーーーーーーーーーーーー
次回
5月22日(金)19:00~
Bitcuratorをもう一度掘り下げることになりました~


2020年5月1日金曜日

【54】ePADD(Processing + Discovery module)

今日の勉強会もZoomで進めます。
京都組は、お腹を壊していた人もいたのに、さっそくハンバーガーにビールを手にして現れました。笑 

今日もePADDの続きです~ マニュアルは↓

ePADD User Manual
https://docs.google.com/document/d/1CVIpWK5FNs5KWVHgvtWTa7u0tZjUrFrBHq6_6ZJVfEA/edit#heading=h.3znysh7

文字コードについて
まずは、文字コードに関する議論から入りました。
メールを送受信する際の、文字コードについて理解する必要があるようです。そこで、メールのメッセージソースを見てみることにします。そこには、どういう文字コードで送受信したかが記録されているとのことですが… 先生の説明を消化できぬ我々でございます。汗

ということで、以下の記事が参考になりそうなので、皆勉強しましょう。

日本語メールの仕組み
https://sendgrid.kke.co.jp/blog/?p=10958

メールの文字コードを理解する
https://www.atmarkit.co.jp/ait/articles/0602/18/news009.html


Entitiesの数がModuleで異なる件
ということで、今日のePADDは日本語なしで試します。
今日は、前回Discovery Moduleへ入れたメールを見るところから続けます。しかし、Entitiesの数はAppraisal Moduleでは216ですが、Processing Module, Discovery Moduleでは228で、数が増えています。なぜでしょう… 

この原因は色々考えても答えが出ず時間だけが過ぎたので、スキップすることにしました。次回何かでひらめくことを期待します。

非公開設定問題
前回モリヤさんから来たメールに、公開制限を付けたものが見えなくなった問題に移ります。

非公開設定の変更は、時間が過ぎてもDiscovery Moduleに自動で反映されるのではなく、Appraisal Moduleで設定を変える仕様になっているようです。しかし、前回我々はProcessing Moduleで公開制限を設定したので、一旦そこに行って制限を解除します。

作業順番です。
  1. Discovery moduleで変更し、保存
  2. Discovery moduleでエクスポートします。
  3. エクスポートしたデータは「ePADD  archive of hoei-epadd-demo-Discovery」 フォルダーへ保存されます。
  4. それを、Discovery moduleが参照する「epadd-discovery」フォルダーへコピーペーします。
  5. その後、Discovery moduleを再度開きます。

これで、制限が解除されメールが読めるようになりました。

ここで

気づき1つ目
公開の制限はマニュアルではAppraisalで行うようになっています(Guiede3.3)。しかし、Processing Moduleでもその機能が含まれているので(Guide4.3)、非公開の設定は可能です。で、我々がProcessing Moduleで設定をしたわけです。

同じことが両Moduleでできるのは、どうしてでしょう?おそらく、ドナーがAppraisal moduleで色々設定をした場合、アーキビストはProcessing Moduleでそれをドナーと相談して変更するためだと思われます。

気づき2つ目
しかし、アーキビストは大量のメールの公開期間をどうやって確認するのでしょうか。自動で教えてくれる機能がないと、やってられない気が… Moduleを行ったり来たりすることが少し面倒のようにも思われますが、それくらい気を付けて行う作業であることを意味しているようにも思われます。これについては、もう少し調べる必要があるようです。

---------------------------------
次回
2020年5月8日(金)19:00~
ePADDの続きです。英語のメールデータを入れてみましょう。
Lexiconはここです。
https://library.stanford.edu/projects/epadd/community/lexicon-working-group

その次は、Bitcuratorについて勉強します
http://bitcurator.net/bitcurator-nlp/


2020年4月25日土曜日

【53】ふたたびePADD

なんとなく、金さんが書いてくださるような期待を抱いていたのですが、今回はわたくしが担当いたします。

今日も今日とて、ePADDをお試しします。

この前はインストールするとデフォルトで表示されるAppraisal moduleで、Gmailから落としてきたメールのimportに関するレポートを読んでみたり(文字コードの問題に気づく)メールの検索をしたり(日本語や韓国語は全くだめであることを確認。ヨーロッパ言語でも、意味というよりは文字列で機械的に引っかけていることがわかった)、検索したメールにlabelをつけたり、というあたりを試してみました。感想としては、「結局、けっこう手間かかるのでは?」という感じになったのですが、さて今回は、Processing moduleから先に行ってみます。

結論からいうと、PC1台で遊んでいる限りにおいては、Discovery moduleを使うために、別のモジュールをダウンロードしてインストール必要はないようです。

User Guide p.12 Selecting Module

に書いてある通り、localhost:9099/epadd/switch-module に行って、Processing moduleに入ればよいのです。が、なぜか他のモジュールに進んで新しい作業をするときは、ePADDを一回終了しなさい、とGuideに書いてあるので、それを律儀に実行します。しかし、これがめんどくさいのですわ。

それはさておき、無事Processing moduleに移れることがわかりました。

で、とりあえずhome/user/ユーザー名の直下に、epadd-settingとかepadd-appraisalという名前のディレクトリが自動でできている、それと同じレベルに、epadd-processsingというディレクトリを作成しておきます。

さて、その前に前にePADDを閉じてー開いてーしたのだったかどうかは忘れましたが、やることやったらAppraisal moduleに入って、データを、home/user/ユーザー名の直下を指定してエクスポートします。(Guide 3.6 今後はセクション番号にします)

ぶじ....二つのディレクトリができました。
Guideでは、"ePADD archive of なんとか"というディレクトリが一つできるはずなのですが、今回はその後ろにDeliveryとついたものと、Discoveryとついたものが二つできています。なぜかしら。

まああまり深く考えず先に進むことにして、これが、ドナーがざっくり選別した、アーカイブズに寄贈したいメールと、関連のメタデータ等のひとまとまり(うーむ、なぜかふたまとまり....片方はDiscovery用、もう一方はDelivery用だということは明らかですが、なぜ今できるのかがよくわかりません)ということになります。

これを今度は、アーカイブズが処理するためのProcessing moduleにimportするわけです。そのためには、今は Appraisal moduleにいるので、閉じて開いて、switch-moduleからProcessing module に入ります。

Guide 4.1 通りに入力していきます。どこの作業でも、ディレクトリを選択するのがちょっとやりにくいね、というのが感想。

で、やりました。すると、おおー!入りました!

Guide 4.2 に、先ほど入れたメタデータなどが表示されます。
この段階では、所蔵機関などの情報が入っていなくて、そのままパスしてしまったのですが、後で「これ入れたいよねー」という話になり、Az Ozさんがみごとに入り口を発見!画面左、「Summary」の横のアイコンをクリックすると、編集できます。

このProcessing moduleは、ドナーから受け入れたメールを、アーカイブズ機関が自らのポリシーや判断にしたがって、さらに評価・選別したり、アノテーションをつけたり、公開期限を定めたりすることができます。

まあいろいろあったのですが、昨日はいろいろと交錯しまして、誰もちゃんとメモしていなかったのでした。

というわけで、とにかくここで何か処理をしようということになり、一人のcorrespondentのメールに、「restricted」というラベルを作成して付与しました。
そして、翌日である2020/04/25まで非公開、という条件をつけたのです。

さて、これで処理が終わったので、この全体をsaveして、またまたexportします。
さきほどと手順は同じで、とりあえずepadd-settingなどのディレクトリがあるところに、同じレベルで、epadd-discoveryというディレクトリを作っておきます。

それで、またさきほどと同じところをめがけてexportすると....

なんだか、前と同じDeliveryとDiscoveryのディレクトリが二つあるわけです。はい。
堀内さんの記憶では、なんだかさっきとファイル数が違う、という話も出たのですが、よくわからないので、結局同じ名前でフォルダが出力されて、上書きされたのではないかという全く根拠のない推測をしたうえで、次に進むことにしました。

Guide 5.1 通りに、Discoveryディレクトリを、丸ごとepadd-discoveryにコピーします。

それで、閉じて開いてDiscovery moduleに行ってみると、最初はちょっとがっかりしたのですが、インポートされたメール数は同じでした。「じゃあ、さっき非公開にしたの、結局見えちゃうんじゃね?」と考えて行ってみると、ない!見えません!

というわけで、きちんと、公開用のDiscovery module上では閲覧制限がかかっていたのでした。はたして今日、解除されているでしょうか。楽しみです。

で、いまGuide 6の出だしを読んでみたら、Delivery moduleは、アーカイブズ機関内部で、制限されているものも含めて全てみることができるモジュールなのだそうです。
(20020505追記:Discoveryモジュールは、オンラインのユーザがだいたいこんな人のこんなメールがあるのだな、とあたりを付けるためのもので、メール本文はほとんど読めないような表示になるそうです。そして、あたりを付けたユーザは、来館して館内のPCで、Delivery Moduleを通してメールにアクセスできるという運用方法なのだそうです。デジタル化してもオンラインにはできないような書簡でも、館に行けば見られるのとパラレルに考えるとわかりやすいかも?)

というわけで、まとめてみると:

「有名な教員のアーカイブズをまるごと引き受ける大学アーカイブズ」

先生メール魔でアカウントもたくさん。でもPCけっこういけるので、メールはこれで選別してね、とePADDの使い方指導する。

先生自分のPCでAppraisal module上で作業。
メールどかどかダウンロードして、「これはやばいから捨てちゃおう」とか「これは100年非公開」とか自分で評価選別し、終わったら結果をエクスポートして、アーカイブズに渡す。

アーカイブズはそれをProcessing moduleに入れて、さらに作業。「100年非公開って、それはないでしょう」と先生と交渉して短くしたり、「先生これいいって言ってるけどFERPAに引っかかりそう」というのをよけたりとか、その他もろもろ作業をする。

それが終わったら結果をエクスポートして、Discovery module(外部用)と、Delivery module (内部用)に放り込む。

ということかな。


さて、今回大きな話題となったのが文字コードでした。
ここのところ、私は話がややちんぷんかんぷんだったので、どなたかお助けくださいませ。

見たところ、ePADDは日本語のメールを読み込んで、全てではないが一部のメールをふつうに表示することができるのに、検索は全くできないわけです。そこには文字コードとその変換の問題がありまして、それを解決しなければならない。さらに日本語自体をePADDに学習させるプロセスが必要なので、日本語対応させるのは A. そうとう困難 B. 意外とできるかもしれない の2つの可能性が見えてきた、ということだったような.....

とりあえず、「これ日本語で使えたらいいなーと思うけどどうしたらいいかしら?」という感じのメールを、開発者の方に送ってみることにしました。(あるいはフォーラムで聞いてみる)

では、文字コードについて、どなたかよろしく。

2020年4月20日月曜日

【52】ePADDお試し(個人的に)

今日はお休みなので、元さんが見つけてくださったビデオをざーっと見てみました。が、機能の紹介のような気がしまして、それはそれでいいのですが、どうもやり方がよくわからないのです。

で、またUser Guideを見ながらお試ししてみました。
しかし、User Guideに書いてあることと、実際にPC内で起こっていることが微妙に違う気がして、いろいろやってみた末に、結局一回アンインストールしてみることに。

このアンインストールのしかたが、ふつうのアプリケーションみたいにアンインストールするのかなと思ったら、そうではないようです。

ePADDが動いていないことを確認して、データが必要ならバックアップして、epadd-appraisalなど、プログラムが自動的に、あるいは必要に応じて作成したディレクトリを消しなさいと....。

https://epadd.nimeyo.com/55/how-do-i-uninstall-epadd

で、無事消しまして、もう一回入れてみました。
User Guideを読んでみると、テスト環境で1台のPCで全部のモジュールを試す場合は、
localhost:9099/epadd/switch-module に行って変えればいいようです。(User Guide p.12)

そうかいなと思って行ってみたら、あっさりProcessing Moduleに入れました。

このあとがなぜかうまく行かなかったのですが、とにかくいったんProcessing Moduleから出て、Appraisal Moduleに戻って、メール2件くらいをDo not transferにして、saveして、エクスポートしてみました。その際、c/users/(user)を行き先に指定してみると、おお、確かに「ePADD archive of dojo」というフォルダができているではあーりませんか!

その中身を確認すると、もともとインポートしたデータの他にいろいろ、テキストファイルが入っています。ふむふむ。

で、ePADDを一回閉じて、また開いて(むすんでひらいて♬みたいですが)、Processing Moduleに入ります。あとはマニュアル通りに...と思ったら意外とうまくいかなかったのでした。詳しくはメモっていないのですが、とりあえずepadd-appraisalと同じレベルにepadd-processing フォルダがなかったので、作成しました。

で、やってみるとまずはjavaがなんとかいうエラーがでました。これと同じです。


こりゃーだめかなーと思ったら、見てみると元のフォルダがepadd-processingフォルダにコピーされてたのです。ということは、動いてるんじゃん!と思って、再挑戦。しかし、データがないとかデータがすでにあるとかいうメッセージが、やってもやっても出てきます。

もういやになってきたときに、元さんの教えを思い出し、いちど落として、再起動して、再挑戦してみました。

そうしたら、意外なことに、あっさりうまくいってしまったのです。というわけで、みなさんは一発でうまくいくことをお祈りしております。

このProcessing Moduleは、Appraisal Moduleがちょっとプロ仕様になった感じですね。
で、ここの作業の最終成果を、次のDiscovery moduleに入れればいいみたい。さらに、Discovery moduleをローカルで試す場合、どうもダウンロードもしなくていいみたいです。User Guide p.72を読むと。


5.1 Testing the Discovery Module

To test the Discovery module on your local workstation, copy the folder “Email archive of <name>-Discovery,” exported through the Processing Module to the “epadd-discovery” folder in your user directory. (Please see Section 2: Getting Started for more information about locating your user directory). If an “epadd-discovery” folder does not already exist within your user directory, create that folder.”
取り急ぎ、メモでした。

2020年4月17日金曜日

【51】ePADD入門

今日は感染の疑いのある人も含め(O..O)!ZOOMで勉強会始めます〜
皆の無事を確認しつつ、ePADDについて軽く触れるくらいで終わりたいと思います。

ということで、今日はいくつかの基本情報だけメモします。

ePADD User Manual
https://docs.google.com/document/d/1CVIpWK5FNs5KWVHgvtWTa7u0tZjUrFrBHq6_6ZJVfEA/edit#heading=h.3znysh7

関連記事:ePADD, Stanford University

今回テストしたのとは別のthe stand-alone discovery module.もありました。
Transferはこちらに行えるのでしょうか。

----------------------------------------------------
次回は、4月24日(金)19:00〜です。
皆さん、コロナで外出できず、寂しいです。
ぜひご参加を!

後日追記
appraisal moduleはドナーが使うというワークフローを想定していたみたいですね。
https://blogs.loc.gov/thesignal/2014/10/the-epadd-team-on-processing-and-accessing-email-archives/


最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿