Thomson Reuters DCI

今日から本気出す、と毎日のように決意を新たにしております。

さて棚上げしてあった DCI 事案であるが、まずは情勢を精確に把握するために 資料を集めることに。 ウェブにTR社の資料があるのでまずそれを読む。

REPOSITORY EVALUATION, SELECTION, AND COVERAGE POLICIES に目を通していたら、幾つか興味深いことが書いてあった。 今後、DCI について他人に説明するよう命じられるかも知れないので、 メモを残しておく。

まず TR社としては、データであれば何でもいいという訳ではなく、 DCI に収録するべきリポジトリを選別しているようだ。 向こうからの最初のメールに “JaLTER has been selected as a potential resource…” って書いてあって、まるで詐欺メールの「当選おめでとうございます!!!!!!」 みたいな文面だな、と胡散臭く思ったが、TR社としては真面目に選別しているようだ。 その評価基準が幾つか挙げられている。英語苦手なので和訳する。

永続性と持続性

リポジトリ及びその中のデータの永続性(persistence)は、基本的な評価基準である。 DCI への取り込みが検討されるのは、長期的な維持が明示されているリポジトリだけである。 TR社はまた、新しいデータが現在も預託されているかどうかも吟味する。 つまり、新しいデータが継続的に預託されているということは、そのリポジトリが 現在もアクティブであることの証拠となる。 一般には、データそのものもリポジトリに預託される方が良い、 リポジトリにデータそのものを置かずに外部にあるデータへのリンクだけを登録する よりも。と言うのも、引用の集計やデータ再利用を考えた時に、より頑強な引用が できるからである。 データの公開プロセスは、理想的には、データ提供者・制作者の所属情報とともに はっきりと記載されるべきである。 リポジトリが採択されたら、そのリポジトリ内の全データは DCI に収録する。 サブリポジトリのデータも同様に収録するが、データそのものが預託されていないものは 除外とする。

資金の明示

DCI は、データの引用の促進、及びデータと研究文献を結びつけることを目的としている。 その目的のために、文献の来歴や研究費の情報を表示するリポジトリに対して 格別な配慮を与える。

英語のメタデータ

英語は現時点の科学において共通語である。 そのため TR社は、メタデータを英語で公開しているリポジトリや、 少なくとも十分な情報を英語で供給することができるリポジトリに関心がある。 DCI が収録しているリポジトリの中には、メタデータのみ英語で公開して 実際のデータは他の言語を使用しているものもある。 しかしながら、ゆくゆくは、国際的研究コミュニティにとって最重要なリポジトリが 英語でデータを公開するであろうことは明白である。特に自然科学においては間違いない。 更に言えば、全てのリポジトリはローマアルファベットで書かれたメタデータと引用を 保持しなければならない。 (英語化が無理ならせめてアルファベットにしろということか)

ピアレビュー

預託データのピアレビューは決して普遍的ではないものの、 ピアレビュープロセスの適用はリポジトリの基準の明示であり、 格納しているデータや引用された参照の完全性について全般的な品質の表明である。 また、可能ならばいつでも、リポジトリ、data studyやデータセットには その研究を支援した資金源の情報を付記することを推奨する。

材料の年齢

TR社はリポジトリと研究データの長期保存と持続性に基づいた判断をしなければならない。 従って、預託データの年齢に関しての制限は設けない。 多分野的サービスと同様に、 「古い」データに関しては分野ごとに研究者の態度や要求事項がまったく異なることが 知られている。 時流に乗っているかどうかも制限にはならない。 研究助成金を受けていたプロジェクトが終了する時のように、 価値のある研究成果が将来必ずしも更新されないであろうが、それにも関わらず それらが最新の研究で引用され続け、時には再利用されたりするかも知れない ということは認められることである。 また、著者や助成団体による猶予措置により、関連する研究論文に比べて データの公開が遅れることはあり得る。

研究文献へのリンク

データ引用のための標準を広めるため、そしてその結果として、学問における データ引用のインパクトを計測するために、 データセットとその研究文献の関連を示す来歴情報を提供するリポジトリには 優先権が与えられることになるだろう。

(ここまで)

JaLTER DB との関連だと、メタデータのみのパッケージや、研究助成や関連文献の 情報不足などが問題になりそうだ。 ER Data Papers の方もデータ登録のプロセスについてウェブサイトとかに ほとんど情報を出していない。 TR社の要求水準にちゃんと対応するにはそれなりに作業が必要になりそうだ。