キラキラの一等星のような実験データもあるけれど、
六等星のような目立たない実験データだって、大切な努力の結晶。
それらが論文に埋もれたままだなんて、もったいない。
データの存在すら知られずに、誰かがまた同じ実験をやり直すなんてもってのほか。
一等星だけのデータベースでは、わからないことがたくさんあります。
満天の星空のようなデータベースを作って、未知の法則を見つけましょう。
設計:桂ゆかり(東京大学・NIMS)・熊谷将也(理研AIP)
コーディング:熊谷将也
近年、データ科学や機械学習の発展により、Materials Informaticsが発展してきました。
ただ、これを行うには教師データとして膨大なデータセットが必要です。
理論計算では膨大なデータセットを簡単に作れますが、理論計算ではわからないことも多いです。
データ科学が大活躍するような、本当の意味の未知情報が含まれているのは、実験データの中だと思います。
ところが、大量の実験データを集めたデータベースというのは、材料科学分野ではほとんどありません。
1物質あたり1~数試料の、いくつかのトップデータを収録した実験値データベースなどはありますが、
機能材料開発とは、製法の工夫によって材料特性が大きく改善できるという分野なので、
そんな少ない試料数で本当の材料特性を表現しきれているのかというのは疑問です。
ただ、論文を読んでデータベースを作るというのは、やってみるとなかなか心の折れる作業です。
実験よりも簡単なはずなのですが、「面倒で楽しくない」「成果にならない」というのが研究者の皆さんの印象です。
ならば、簡単かつ効率的にデータが集められるようにして、研究成果にもつながるようにすれば、
今まで集めることのできなかった、大規模データが集まるようになるのではないだろうか?と考えました。
満天の星空のようなたくさんのデータを集めたデータベースになるようにと、
願いをこめて、このWebシステムにStarrydataという名前をつけました。
初代Starrydataシステムでの試行錯誤を経て、新しく作り直した二代目のシステムです。
研究者の論文情報整理ツールとして使っていただくことで、データ収集を効率化してみました。
論文を読むというのは、研究者たちの日常的な習慣のひとつです。
そこで、論文を読んだときに「そこに書いてあったデータを保存しておく」という作業を
研究者のひとりひとりが行っていけば、少しずつ数値データが集まってきます。
ただ、今までは、数値データを効率的に回収・整理する仕組みが整っていませんでした。
そこで、論文中のグラフから、実験データを数値データとして取り出して、データベースとして世界中の研究者と共有できるWebシステムを開発しました。
私たちの専門である、材料科学での使用を想定して作ったWebシステムです。
論文中の文章やグラフなどの画像は出版社の著作権で守られているため、勝手にWebで共有はできません。
ただし、科学的な測定データ自体は誰かの創作物や表現物ではありません。
よって、グラフを読んで元の数値データを抽出すれば、出版社の著作権は及ばず、Webで共有することができます。
ただし、引用元を示すという慣習に従うことが求められます。
私たちは、このWebシステムの最初の応用として、熱電変換材料のデータベース「TEdb project」の作成に取り組んでいます。
将来的には他の材料科学分野の実験値データベースも立ち上げて、材料科学の総合的な実験値データベースを作りたいと考えています。
他の材料科学分野の実験値データベースを立ち上げたい方は、ぜひご一報ください。
研究者が自由に、「論文のリンク集」を作ることのできるWebシステムです。
テーマごとに複数のマイリストを作って管理できます。
検索を行うか、論文のDOIを送信することで、好きな論文をマイリストに追加できます。
論文の書誌情報(著者・タイトル・雑誌名など)が自動表示されます。
論文ページへのリンクが自動生成されます。
マイリストから論文用の文献リストを自動生成できます。
論文中のグラフから数値データを読み出して、他のユーザーとシェアできるWebシステムです。
マイリスト内の論文リンクから、論文と関連付けられた数値データが閲覧できます。
論文のグラフ画像をコピー&ペーストすると、データ点を半自動的にトレースできます。
データ抽出後、本文を読んでデータの説明を書き込めば、データ登録完成です。
数値データを、データ科学で使いやすい形で取得できるWebシステムです。
マイリスト中の論文に関連付けられた数値データを、JSON形式でダウンロードできます。
データ解析や機械学習、グラフ化に使いやすい、数値のみで構成されたデータセクションがあります。
書誌情報や試料情報などのメタデータが、同じJSONファイルに入っています。
http://starrydata2.org/signupにアクセスしてください。
希望ユーザー名(スペースなし)、パスワード、メールアドレスを設定してください。
画面左の、"Create List"をクリックします。
マイリスト名を入力します。サブテーマの名前などがおすすめです。
(スペースは使用できません。日本語も使えますが、バグがあるかもしれないので、英語を推奨します。)
マイリスト名左の+ボタンをクリックすると、マイリストができます。
作成したマイリストには、右上のマイリスト用タブをクリックすることでアクセスできます。
(目的のマイリストが表示されていないときは、タブ内でスクロールを行うことで現れる場合があります。)
左上の検索欄に、キーワードを入力して検索してください。
タイトル・SID(Starrydata ID)・DOI・雑誌名・著者名による検索が可能です。
大文字小文字を区別せず、入力した文字列を含む論文が検出されます。
(スペースなどを利用した複数キーワードによる探索には、今の所対応しておりません。)
出てきた論文リストから、興味のある論文にチェックを入れてください。
左のメニューから、論文を追加したいマイリストにチェックを入れてください。
Addを押すと、マイリストに論文が登録されます。
論文のDOI(Digital Object Identifer)を、出版社ページや論文ファイルなどからコピーしてください。
左のメニューから、論文を追加したいマイリストにチェックを入れてください。
Starrydata 2の左下のテキストボックスにDOIをペーストして、Addを押してください。
Starrydata 2がDOIに対応する書誌情報をWeb(CrossRef.org)から読み込み、Starrydata 2の内部データベースに登録していきます。
登録が終わると、マイリストに論文が表示されます。失敗した論文のDOIは、ピンクの帯に表示されます。
(大学や研究機関でScopusが使えるユーザー向けの手順です)
Scopusで論文検索を行い、検索結果をcsvファイルとしてダウンロードしてください。(2000件以内ならその場で、20000件以内ならメールでダウンロードできます。)
Excelなどの表計算ソフトでcsvファイルを開き、DOIが書かれた列をコピーしてください。
適当なマイリストにチェックを入れ、Starrydata 2の左下のテキストボックスにDOIのリストをペーストして、Addを押してください。(改行区切り)
Starrydata 2がDOIに対応する書誌情報をWeb(CrossRef.org)から読み込み、Starrydata 2の内部データベースに登録していきます。
登録が終わると、マイリストに論文が表示されます。失敗した論文のDOIは、ピンクの帯に表示されます。
一度誰かによって登録された論文は、他のユーザーが検索した際にも検索結果に現れるようになります。
マイリストを表示させて、Get DOIListボタンを押して下さい。
DOIのリストを含むダイアログが出るので、Copy to Clipboardを押してください。
このDOIのリストをEメールなどで送付してください。
受け取り側の人は、自分のアカウントで新しいマイリストを作成し、チェックしてください。
受け取ったDOIのリストを左下のテキストボックスにペーストして、Addを押してください。
ページ下部のDisplay [ 25 ] results per pageという欄に、別の数字を入れてEnterを押すと、1ページに表示する論文数を変えられます。
ページ右下の>>をクリックすると、次のページに移ります。<<をクリックすると、前のページに戻ります。
各論文の左に書いてある「↕(上下矢印)」を上下にドラッグすると、論文の表示順を入れ替えられます。
(AllタブとUploadedタブは、マイリストではないので上下矢印は表示されず、表示順の変更もできません)
Remove Items from Listを押すと、チェックを入れた論文をマイリストから除去できます。
Remove Listを押すと、マイリスト全体を消去できます。”Are you sure?"とダイアログが出ますが、消去したマイリストは復活できないので、慎重に消去してください。
マイリストを表示させて、Get Reference Listボタンを押してください。
マイリスト内の論文を、引用文献用のスタイルで表示したダイアログが出るので、Copy to Clipboardを押してください。
Wordなどに貼り付けて、論文執筆などにお使いください。
(今後、いろいろな引用方式に対応していく予定です。)
大学や研究機関など、論文フルテキストにアクセスできるインターネット環境で、Starrydata 2にアクセスします。
読みたい論文の"Link"をクリックします。
Webブラウザの別タブに出版社のページが表示されるので、PDFファイルへのリンクを探してクリックします。
WebブラウザでPDFファイルを読むことができます。
PDFファイルをローカル環境に保存しておきたいが、他の論文と区別するためのファイル名の設定が面倒な人は、
Copy filenameをクリックすると、推奨ファイル名をクリップボードにコピーできるので、
保存ダイアログにペーストして保存してください。
マイリストの論文のうち、fignumが0でない論文を探し、Dataボタンを押します。
Dataページが開きます。
各軸の物性の対応表(左上)を参照して、Figure nameプルダウンからFigureを選択します。
試料名と組成の対応表(右上)を参照して、Sample nameプルダウンからSampleを選択します。
右のグラフに、特性のグラフが表示されます。薄い色のグラフは、同じ論文に登録されている他の試料の特性です。
グラフの元データが欲しい場合は、テキストボックスの中身をコピーしてください。
閲覧しているデータに、不備などがあった場合は、自分でデータの編集ができます。
なお、編集したユーザーの名前と、編集履歴はシステムに保存され、ページ上部に表示されます。
数値データ表示テキストボックスの右上にある”EDIT"を押すと、データ編集モードになります。
Figure nameとSample name以外の、すべての項目の編集ができます。
編集が終わったら、Saveボタンを押してください。
Figure nameもしくはSample nameを変更すると、新しいデータセットとして登録されてしまいます。
データセットの重複を防ぎたい場合は、新しいデータとして登録後、古いデータを開き、
古いデータ内の数値データを削除した上でSaveしてください。
目的の論文に数値データがまだ登録されていなかった場合は、自分でデータを追加します。
目的の論文を開き、データの収集を行いたいグラフのスクリーンショットを撮ります。
(Print Screen機能を使っても良いし、選択した領域のみをコピーできるFire Shotなどのプラグインや、
Acrobat Readerに付属しているスナップショット機能などが利用できます。)
目的の論文のDataページを開き、ページ下部に移動して、画像のペーストを行います。(Win: Ctrl+Vなど)
WebPlotDigitizer内に、グラフ画像がペーストされます。
WebPlotDigitizerの機能を活用して、数値データをトレースします。
WebPlotDigitizer内のView Dataをクリックし、現れた数値データをコピーします。
Starrydata2のデータ保存画面をEDITモードにして、数値データをペーストします。
Figure name, Sample name, X軸・Y軸の物理量、単位などの情報を記入します。CaptionとCompositionは任意です。
プルダウンに目的のものがない場合は、新しい内容を書き込んでも大丈夫です。
Saveボタンを押します。
一括ダウンロードを行いたいマイリストを開きます。
ページ上部の"Get Data"ボタンを押し、ダウンロードが完了するまでしばらく待ちます。
保存ダイアログが出たら、ファイル名を指定して保存します。ファイルはJSONフォーマットです。
JSONファイルは2階層です。rawdataセクションに数値データのすべてが入っていますので
この部分を機械学習やグラフ表示に使うことができます。
メタデータとして、paper, figure, sample, propertyなどのセクションがあり、
これらはIDを通してrawdataから参照している形になります。