Darwin Core Archive¶

ちょっと時間が掛かりそうだなこれ、と思ったのでしばらく放置していたデータペーパーの処理を始める。

機械的に生成したデータファイルっぽい、というところまでは解る。おそらく IPT が吐き出したんだろう。メタデータの先頭部分に http://rs.tdwg.org/dwc/terms/Occurrence とあるので、おそらく観察データ用のフォーマットなのだろうと推測するが、なかなか定義を見つけられなかった。生物多様性関係は情報量が多いから門外漢は難儀する。

データファイルを見ると、全部で 159カラムのうち、データが入っているのは 18カラムだけで、あとはひたすら空欄になっている。随分ムダなことをする。 optional な空カラムも律儀に出力するのは機械生成だからか、それとも GBIF の流儀なのか。多分、meta.xml や、データファイルのヘッダ行が無くても困らないようにフォーマットを固定しているんだろうなぁ。

meta.xml を処理する方法は無いものかと色々ググってみたら PyPI に python-dwca-reader なるものを発見！　これはいいものを見つけたぞ、と思ってちょっと使ってみたが、動作が遅い。まぁいきなり 10万行のデータを読み込ませたらメモリスワップするよな。機能的にもほとんどパーサ程度の機能しか無さそうだったので、今回の作業には使えないと結論づけた。

その後、 http://rs.gbif.org/core/dwc_occurrence.xml を探し当てる。 TDWG じゃくて GBIF の方にあったのね。これを元にして EML の <attribute> を生成するスクリプトを組めば良い。流用できそうなのは definition だけだろうが、何も無いよりはましだ。それ以外は EML の仕様上ほとんど一意に定まる筈だし。

前の投稿: DCI は有料サービスです次の投稿: 内閣府オープンサイエンス検討会報告書

Darwin Core Archive¶

2015-04-07

最新の投稿

タグ

カテゴリ

アーカイブ