公開データの共著者権

今の時代、公開データの利用規約で共著を要求するのは時代遅れだぜ、 ということを説得するための資料収集中。

ICSU-WDS Data Sharing Principles 第3項

All who produce, share, and use data and metadata are stewards of those data, and have responsibility for ensuring that the authenticity, quality, and integrity of the data are preserved, and respect for the data source is maintained by ensuring privacy where appropriate, and encouraging appropriate citation of the dataset and original work and acknowledgement of the data repository.

データとメタデータを生産・共有・利用する人は、すべて、 これらのデータの管理人である。 従ってこれらの人は、以下のことについて責任がある。

  • データの信頼性、品質、完全性が保全されるように保証すること。
  • プライバシー保護が必要な場合は、それを確実にすること。
  • データセットやその元となった作業の適切な引用、 及びデータリポジトリへの謝辞を奨励することによって、 データの出典への配慮が守られるようにすること。

citation, acknowledgement を推奨する一方で co-authorship への言及無し。 典型かな。

EMLの単位(5)

(承前)

さてこの L-1 の単位を定義しなければならないのだが、実に悩ましい。 STMML 形式では普通 xxxPerYyy という書き方をするが、perYyy という書き方は しないようだ。

参考までに、 T-1 (周波数)には Hz という固有単位が与えられているので、 これを使って定義している。

<unit id="hertz" name="hertz"
      unitType="frequency" multiplierToSI="1"
      abbreviation="Hz">
  <description>hertz</description>
</unit>

波数には SI の固有単位はないようだ。CGS単位系ではカイザー(K)という単位名が 与えられているらしい。 では波数の定義がどうなっているかと言うと、

<!--waveNumber-->
<unit id="waveNumber" name="waveNumber"
      unitType="lengthReciprocal" multiplierToSI="1">
  <description>1/meters</description>
</unit>

つまり、単位名に物理量の名称を当ててしまっている。これは本当はおかしなことで、 それは SI接頭辞を付けた kiloWaveNumber とか megaWaveNumber という語が 何を言っているのか判らないことから明らかだ。 苦し紛れであることは論を俟たないが、他に記法が無いような気も、確かにする。 kiloParMeter 等とするのもやはりおかしい。

そう言う訳で、結論としては以下のような custom unit を定義した。

<!-- attenuation coefficient (m^-1) -->
<unit id="attenuationCoefficient"
          name="attenuationCoefficient" unitType="lengthReciprocal"
      multiplierToSI="1" abbreviation="1/m">
  <description>Coefficient of exponential attenuation</description>
</unit>

釈然としないところがあるが、どうにもならん。

EML の単位(4)

指数関数的減衰における減衰係数の単位は対象とする物理現象によって異なるが、 ここではある物質中を電磁波(光線)が通過することを考える。 すると電磁波は物質中を進む距離に応じて減衰するので、この場合は 減衰係数の単位は L-1 の次元になる。

まぁ要するに日射光の減衰である。

この L-1 の次元の物理量は珍しいようで、EML標準の単位定義には 波数しか無い。

<unitType id="lengthReciprocal" name="lengthReciprocal"> <!--waveNumber-->
  <dimension name="length" power="-1"/>
</unitType>

しかも単位の型名として「距離の逆数(length reciprocal)」などという こなれない語句を当てていて、いかにも苦し紛れな感じがする。 そう言われてみると確かに L-1 次元の物理量はにわかには 思いつかない。不思議な感じがする。

ともあれ係数は扱いが難しく、EML標準定義にはほとんど無い。 少ない中のひとつが transmissivity で、 L2 T-1 の次元である。

<unitType id="transmissivity" name="transmissivity"> <!--metersSquaredPerSecond-->
  <dimension name="length" power="2"/>
  <dimension name="time" power="-1"/>
</unitType>

 Transmissivity は地質学では透水量係数を意味するようだが、 生態学にはあまり関係がないように思うので、 拡散係数を表現しているのではないかと思われるが、どうだろう。 分野を限定しないと用語の意味が確定しないのは科学の難点のひとつである。

EMLの単位(3)

(承前)

ところで意外なことに EML標準にはエネルギーのフラックスを表す単位が 定義されていない。いや、別に意外ではないのか? よく判らないが、日射フラックスなどを表すのに MJ m-2 h-1 とか W m-2 を使う。 次元を計算してみると M T-3 という不思議な次元になる。

<!-- energy flux -->
<unitType id="energyFlux" name="energyFlux">
  <dimension name="mass" power="1"/>
  <dimension name="time" power="-3"/>
</unitType>
<unit id="joulesPerSquareMeterPerSecond"
  name="joulesPerSquareMeterPerSecond"
  unitType="energyFlux"
  multiplierToSI="1"
  abbreviation="J/㎡/s">
  <description>flux of radiation</description>
</unit>
<unit id="megajoulesPerSquareMeterPerHour"
  name="megajoulesPerSquareMeterPerHour"
  unitType="energyFlux"
  parentSI="joulesPerSquareMeterPerSecond"
  multiplierToSI="277.7778"
  abbreviation="MJ/㎡/h">
  <description>flux of radiation</description>
</unit>
<unit id="megajoulesPerSquareMeterPerDay"
  name="megajoulesPerSquareMeterPerDay"
  unitType="energyFlux"
  parentSI="joulesPerSquareMeterPerSecond"
  multiplierToSI="11.5741"
  abbreviation="MJ/㎡/d">
  <description>flux of radiation</description>
</unit>

今日は一日、高校物理の復習をして過ごしたような気がする。

EMLの単位(2)

(承前)

とは言え、他人の仕事の粗探しをしても自分の仕事が進む訳ではないのだ。 自分なりに考えて実装してみると、以下のようになった。

<!-- amount of photons -->
<unitType id="amountOfPhotonFlux" name="amountOfPhotonFlux">
  <dimension name="amount" power="1"/>
  <dimension name="length" power="-2"/>
  <dimension name="time" power="-1"/>
</unitType>
<unit id="einsteinsPerSquareMeterPerSecond"
  name="einsteinsPerSquareMeterPerSecond"
  unitType="amountOfPhotonFlux"
  multiplierToSI="1"
  abbreviation="E/㎡/s">
  <description>Einsteins (mols of photons) per square meter per secound</description>
</unit>
<unit id="microeinsteinsPerSquareMeterPerSecond"
  name="microeinsteinsPerSquareMeterPerSecond"
  unitType="amountOfPhotonFlux"
  parentSI="einsteinsPerSquareMeterPerSecond"
  multiplierToSI="0.000001"
  abbreviation="μE/㎡/s">
  <description>micro Einsteins (10^-6 mols of photons) per square meter per secound</description>
</unit>

molesOfPhoton のように Of を使う用例は EML 標準には少ないので、 素直に einstein を使うようにした。

ところで flux という用語は、 EML標準の単位定義では T-1 の次元に 使われているのだが、私の業界では L-2 T-1 を意味する。 一般にフラックスは「単位時間、単位面積あたりの流量」のことだから、 EML標準の用法がおかしいように思う。 一方で EML標準では rate という用語も T-1 の次元を意味するらしく、 混乱する。 これらの用法は一体どこから来ているのだろうか。よく判らない。

EML の単位

EML(Ecological Metadata Language) は 生態学データに特化した規格であるとされているが、 色々と不足がある。中でも、標準で用意されている数値データの物理量の単位が 網羅的でなく、使いたい単位が無い場合も多い。 そういう場合は custom unit を定義して、その定義を EML メタデータに 個々に追加する必要がある。

今回問題となったのは、光合成の研究で使われる光子量の単位で、 例えば μmol photons m-2 s-1 である。 光合成量は光子のエネルギー量ではなくて光子の個数によって決まるため、 ジュール(J)等ではなくて物質量(mol) の単位を使う。 なお、光子 の mol 数を表す単位としてアインシュタイン(E)がある (ということを今回初めて知った)。 従って μmol photons m-2 s-1 は μE m-2 s-1 でもほぼ等価である。

さて、光合成の研究などは世界各地でうんざりするほど実施されている訳で、 そのデータ用の EML メタデータも既に作成されている筈である。 Google で検索してみたところ、早速 2,3 個ヒットした。

Harvard Forest Research の knb-lter-hfr.140.9

<stmml:unit
    name="micromolePerMeterSquaredPerSecond"
    unitType="arealMassDensityRate"
    id="micromolePerMeterSquaredPerSecond"
    parentSI="molePerMeterSquaredPerSecond"
    multiplierToSI="0.000001"
    constantToSI="0.0"
    />

シカゴ大 Marine Biological Lab. の knb-lter-pie.92.3

<unit
    name="microEinsteinPerMeterSquaredPerSecond"
    unitType="illuminance"
    id="microEinsteinPerMeterSquaredPerSecond"
    parentSI="" multiplierToSI="1">

ミネソタ州立大 McMurdo Dry Valleys の knb-lter-mcm.3001.34

<stmml:unit
    id="umolphotons/m2/second"
    name="umolphotons/m2/second"
    abbreviation=""
    unitType="">

フロリダ国際大 FCE サイトの 単位リスト

microEinsteinsPerSquareMeterPerSecond
illuminance
µE/m^2/s
Einsteins (1E-06 moles of photons) per square meter per second (radiant flux density)

定義が 4者4様で興味深いが、どれも間違いがあるのは頂けない。

HFR と MBL はそれぞれ “micromole…” “microEinstein…” としているが、 s を入れて “micromoles…” “microEinsteins…” とするべきだ。

MCM の “umolphotons/m2/second” は STMML 書式ですらない (<stmml:unit> というタグを使用しているのに)。

MCM と FCE は単位のカテゴリを illuminance としているが、 illuminance(照度)は心理物理量で、人間の視覚システムが感じる明るさ、 を意味しており、光子の物理学的なエネルギーや個数とは一意な関係には無い。 また HFR はカテゴリを arealMassDensityRate としているが、 mass は質量(kg, ton など)のことであり、 mol 数は 物質量(amount of substance)である。

EML は custom unit という名目で自由に単位を追加することができるが、 反面、それを正しく使うのにはそれなりの知識が必要で、 正確に記述できるかどうかは担当者の力量に強く依存する。 人間がメタデータを読む分には問題は生じないだろうが、 将来的に機械で自動処理させる段になったら困りそうだ。

CCライセンスは何故ソフトウェアには適さないのか

故あって CCライセンスを調べている時に、クリエイティブコモンズジャパンの FAQ に、 CCライセンスはソフトウェアには使わない方がよい、ということが書いてあるのを見つけた。 どういう理由でそう主張しているのか知りたかったのだが、詳しいことが書いていない。 CCジャパンの FAQ は古いもののようで、本家の FAQ に明らかに追随していないので、 本家FAQ を読んだついでに、備忘のために和訳しておく。

元テキスト

CCライセンスをソフトウェアに適用できるか?

我々は、CCライセンスをソフトウェアに使用しないことを推奨する。 その代わりに、既に利用可能な、非常に出来の良いソフトウェアライセンスのひとつを 使用するように強く奨励する。 FSF が作成したライセンスや、Open Source Initiative が “open source” として リストしているライセンスを検討するようにお勧めする。

ソフトウェア専用のライセンスとは違って、CCライセンスはソースコードの配布という 観点を持っていない(その観点はソフトウェアの自由な再利用と改変を保証するために 非常に重要であることが多いのだが)。 また多くのソフトウェアライセンスはパテント権を扱っている (パテントは、ソフトウェアにとっては重要だが、他の著作物にはあまり当てはまらない)。 さらに、CCライセンスは現在のところ主要なソフトウェアライセンスとは互換ではなく、 従ってCCライセンスの作品と他のフリーソフトを統合することが難しい。 既存のソフトウェアライセンスはソフトウェアに使用することに特化して 設計されており、CCライセンスと似たような権利群を提供している。

CC-BY-SA 4.0 ライセンスは GPLv3 に対して一方向の互換性がある。 この互換性は、コンテンツが、分離も識別もできないような形態で ソフトウェアコードに統合されるような状況のために設計された。 この互換性を利用する前には特別な熟慮が必要だ。詳しくは別項を見よ。

また、CC0 はGPL互換で、ソフトウェアにも適切である。詳しくは別項を見よ。

CCライセンスをソフトウェア自体に使用することは推奨しないが、 ソフトウェアの説明書とか、ゲームアートや音楽などの独立性のある要素には CCライセンスが使える可能性がある。

(ここまで)

解説

CCライセンスがソフトウェアに適さない理由は、主に、 ソフトウェアの実体がソースコードにあるからである。

比較としてイラストを考えると、イラストの複製・再利用を認める場合、 PNG や JPG などの完成品が自由に複製・再利用できれば基本的に充分で、 Photoshop の元データとかまで公開する必要は通常は無い。

しかしソフトウェアは、コンパイル済みのバイナリでは再利用や改変が難しく、 元となるソースコードの公開が必要である(オープンソースというのはまさに そういう意味だ)。

このような構造的な差異があるため、CCライセンスはソフトウェアに適さない、 と主張しているのであろう。

platex + dvipdfmx で日本語フォント埋め込み

時々思い出したように tex を使うが、その度に色々変わっていて 戸惑っているような気がする。

Mac 附属のヒラギノフォントを PDF に埋め込むための手順を調べた。 基本的に ここここ を参考にしたが、後で混乱しないようにメモしておく。

環境:Mac OS X 10.9 + TeXLive2015(MacPorts)
# mkdir -p /opt/local/share/texmf-local/fonts/opentype/public/hiragino
# cd !$
# ln -s "/Library/Fonts/ヒラギノ明朝 Pro W3.otf" HiraMinPro-W3.otf
# ln -s "/Library/Fonts/ヒラギノ角ゴ Pro W6.otf" HiraKakuPro-W6.otf
# mktexlsr
# updmap-sys --setoption kanjiEmbed hiragino
# kanji-config-updmap hiragino

その上で、dvipdfmx に -f オプションでフォントを指示する。

$ dvipdfmx -f ptex-hiragino.map hogehoge.dvi
../../../_images/hiragino.png

ちなみに -f オプションを指定しないとヒラギノではなくて IPAフォントが埋め込まれた。

../../../_images/ipa.png

MOOCについて補足

前記事を書いた後で CiNii で検索したところ、 船守「デジタル空間に移行する大学教育」情報の科学と技術 65: 258-263, 2015 という文献が見つかった。これには MOOC について興味深いことが記述されており、

  • MOOC の開発費用(教材作成費用?)は1コースあたり 1000-3000万円と高額
  • これに対して学生からは、学費を負担している正規の学生への教育でなく、学外の 不特定多数に無料の講義を提供することに多額の資金を費やす大学側の姿勢に 批判が出ている
  • 大学当局は、MOOC を学内教育にも流用することでこの批判を躱そうとしている (いわゆる反転授業)

そうである。

開発費が 1000-3000万円というのは、想像していたよりも文字通り一桁大きいので 単純に驚いた。既存の講義資料を流用すれば安上がりにできるだろうと思っていたが、 そうではなくて新規に製作しているのか。ならば金も掛かるし、 学生が怒るのも無理はない。

gacoo の教材はどのくらいの予算で作ってんでしょうね。

MOOC というものがあったらしい

基本的に時勢に疎い人間なので、 新しい流行について私が初めて見聞きした時には既に その流行は廃れかけていた、ということがよくある。

MOOC (Massive Open Online Course) という言葉を目にしたのは昨日が最初で、 JST の STI Updates に 総務省、データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」を再開講 という記事があったので、そのオンライン講座とやらの内容にちょっと興味が湧いて gacoo のサイト に行ってみた訳である。 レジュメ を見ると、 内容自体はおおよそ初歩的な統計ネタで(平均値の見方、とか)、 私の期待とは違ったのだが、最後の方に「e-Stat の使い方」という項目があって、 私は e-Stat を使ったことがないのでちょっと見てみたい、と思った。

それで、どうやったら中身を見られるのか知るために、 gacoo のシステムや運営 についてサイト内を調べて回ったのであるが、 「開講期間」とか「修了証」とか「相互採点」とか、 意味が理解できない用語が幾つも出てくるので混乱してしまった。 どうも、講義資料が PDF や slideshare みたいな感じで置いてあって、 興味があるところだけ見られる、というようにはなっていないらしい。 中身を見るには、受講手続きして、開講するのを待って、 週一で課題を解いて提出して、最終試験を受けたりしないといけないらしい。

なにこれめんどくさい。と心の底から思った。

gacoo の元締めの JMOOC のサイト に MOOC について解説があって、 そこには「今、世界中で MOOC が流行ってます」といったようなことが 書かれていたが、私にはこんな面倒なものが流行るとは思えず、 不可解な気分になった。

こういう場合は、自分が間違っているのか、それとも世界が間違っているのか、 きちんと調べて理解しなければならない。 自分は正気であると信じている人間は、常に、自分の知性が正常に機能しているか 否かを点検し続ける義務があるからである。

“MOOC” でググったところ、割と上位に TechCrunch の オンライン講義のMOOCが大学に取って代わることができない理由 という記事が出てきて、やはり私の直観通り、MOOC の流行は既に終わっているようだ。

この記事は 2015年5月のものだが、その約1年前、日本国内でも その事実は認識されており、しかもそれが JMOOC の関係筋(放送大学の人) から語られている。 山田恒夫「MOOCとは何か ポストMOOCを見据えた次世代プラットフォームの課題」 情報管理 57(6): 367-375, 2014. DOI: 10.1241/johokanri.57.367 (2014年7月受理、とある)

別の文書によると、2013年後半には既に「MOOC は Hype(誇大宣伝)だ」と 言われ始めたそうである。MOOC が出現したのは 2012年らしいので、 1年くらいは幻想が保ったようだ。 堀真寿美「ポストMOOCと日本の大学経営」ViewPoint 14: 50-52, 2014.

一方で JMOOC 関係者は、MOOC は今でも世界的に拡大していると主張している (2015年5月の記事)。 MOOCの広がりと登録者12万人のgaccoの取り組み これが本心からの言葉か、立場上の発言なのかは判別できない。

MOOC の対極に SPOC (Small Private Online Course) があるが、 MOOC よりも SPOC の方に注目している人も出てきている。 荒木博行「オンライン教育でリーダーは育つか?」 マネタイズや学習効果という点では確かに SPOC の方が有利だろう。

上記荒木氏によると、MOOC の関係者ももはや Massive や Open に あまり拘らずにサービスを変容させて行き詰まりを乗り越えようと しているそうである。 荒木博行「MOOCは儲かるのか?」 「「MOOC」という呼び名が過去のものになるのも時間の問題かもしれません。」 と書かれているが、私もそんな気がする。

さて、私の MOOC に対するイメージは gacoo サイトを見た印象から得たものだが、 gacoo/JMOOC と本場の MOOC は質的にまったく異なるという意見もあるようだ。 tkyon「MOOCを利用し始めて1年が経過した」 これを読むと、gacoo を見ただけで MOOC について解ったような気になっては いけないらしいことが理解できる。少なくとも本場の MOOC には 高等教育に対する高い理想があるんだな。