2018年5月25日金曜日

AtoMでCSVのimport (自習メモ1)

AtoMのマニュアル(下記)を読んで書くメモです~
長すぎるため、どこまでできるか分からないけど…
https://www.accesstomemory.org/en/docs/2.4/user-manual/import-export/csv-import/#update-existing-descriptions-via-csv-import

CSVインポートのウェブサーバでのタイムアウトを避けるために、裏で非同期的に行われる。これはAtoMのGearmanが管理。「Manage>Jobs」ページで確認できるって。
CSVをインポートするユーザーは管理者としてログインすること。

=======================================

★★データをインポートする前にやること★★

1)インポート作業の複雑さを予想:AtoMがインストールされているサーバーのコマンドラインから、「csv:chenk-import」コマンドを利用して、CSVファイルを確認。行と列の数や、パイプ文字「|」がどのくらいあるか、サンプル行の値(?)を調べる。

2)列(column)を合わせること:CSVの最初列は項目名が入る(データを入れないこと)、項目名の順番は変えないでね。そのままAtoMで表示される。決まったテンプレートを使うこと。我々はISADを使う。

3)文字はUTF-8でなければならない。Windows, MacのスプレッドシートはUTF-8ではない。注意してね。オープンソースのLibreOffice CalcはUTF-8への変換が可能。Excelをいじりたい場合はここ↓
https://answers.microsoft.com/ja-jp/msoffice/forum/msoffice_excel-mso_winother-mso_2010/excel-%E3%81%A7-utf8-%E3%81%AE-csv/25d8bea2-f20c-4feb-9216-e06cb3bf0757

4)end-of line characterはUnix/Linuxの改行文字を使う
=Line ending、EOL(End of Line)、line breakともいう。

Unix / Linux / FreeBSD / OS X use LF (line feed, \n, 0x0A)
Macs prior to OS X use CR (carriage return, \r, 0x0D)
Windows / DOS use CR+LF (carriage return followed by line feed, \r\n, 0x0D0A)

つまり、システムによって、改行を表す文字が異なるので注意!AtoMは「\n」を使う。
ExcelだとAtoMと合わないnewline characterが沢山ある。\rを削除する方法は下記が参考になるかも(やってみてないけどできるはず…^^;)
https://linux.just4fun.biz/?%E9%80%86%E5%BC%95%E3%81%8DUNIX%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89/%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%81%8B%E3%82%89%E6%94%B9%E8%A1%8C%E3%82%92%E5%89%8A%E9%99%A4%E3%81%99%E3%82%8B#f76585db

5)データ変換
もし他のシステムからエクスポートしたCSVであれば、AtoMへ合わせて変換してね~
(当たり前だけど親切に書いてくれてる…あまり親切じゃない時もあるけど…)

6)時間を予想
例えば20,000ある場合、1000やってみて×20で時間を予測してね~

7)テスト
準備ができたらcloneを作成してテストしてから、本番サーバーに入れてね~
でもcloneの作成方法がわからないのじゃ… 
多分↓のことだろうけど。
http://www.itmedia.co.jp/enterprise/articles/0811/20/news019.html



今日はここまでかな。
時間掛かり過ぎ。しょぼん…


作成:Bee



最近の投稿

【108】Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを読む

 Gijs Aangenendt氏の修士論文、Archives in the Digital Age: The use of AI and machine learning in the Swedish archival sectorを半分読みました。 前半は、AIを扱ったアーカ...

人気の投稿