マテリアルズインフォマティクスの発展に向けた実験データセットの構築

-Datasets extracted from figures, tables, 

and text in published papers-

物質系・学術専門職員

藤田 絵梨奈

新領域創成科学科 物質系専攻 木村薫研究室 学術専門職員

研究室 home page 

データを集めて6年間,集めたデータは15万件以上。一般企業での研究職を経てアカデミアに入った少し変わった経歴の持ち主です。7年間自分で手を動かした経験から実験がどれだけ労力が掛かるものか身を以って理解しています。それが故,論文に残された実験データに愛おしさを感じます。先人の努力を材料科学の発展に繋げる橋渡し役を目指し日々奮闘中。

研究テーマ


私たちの研究室では第3の固体物質と言われる準結晶の研究を行っています。

例えば食塩などの結晶は結晶の形が決まっていて,平行に移動させるとその構造が重なります。一方ガラスなどは結晶の構造がぐちゃぐちゃとしていて決まった形を持っていません。

これに対して準結晶は不思議な周期性を持っています。構成しているパズルのピース(結晶の構造)は何個かあるのですが,単純に並べただけでは隙間ができてしまいます。しかし,そこに一定のルールを決めて並べてあげると隙間なく埋めることができてしまうのです。

結晶だけど普通の結晶とはなんだか違う,,そんな準結晶は実は構造だけでなく性質も普通の結晶とは違っているのです。電気の通し方や熱の通し方も普通の結晶とはちょっと違います。これは今までにない便利な材料を作れるかもしれない!そんなモチベーションで,このミステリアスな準結晶の研究を行っています。

実験データセットの作り方


AIは今や誰しも知っている単語。しかしその機構までご存知の方はまだ多くないのではないでしょうか。なんとなく機械が全部やってくれてすごい結果を出してくれるものじゃないの?なんてイメージの方も多いのでは。


しかし残念ながら実際はまだまだ機械は万能ではありません。予測にはまず入念に下ごしらえされたデータが必要なのです。機械はなかなかグルメで偏食なので,きっちり正確に準備されたデータじゃないと実際とは全然違う結果が返ってきてしまうことも。。良い結果を得るには機械が食べやすいデータを準備して,やり方をよくよく教えてあげる必要があります。


さて機械のご飯,データの準備です。まずは種を撒いて,野菜を育てて,,という手順になりますが,幸いなことに種から育てる必要はありません。すでに先人が論文という膨大な畑に多くの貴重な研究結果を残してくれています。大切に育てられた実験データは論文の中の文章,グラフの中,表の中,色々なところに散りばめられています。言うなれば,畑に野菜が埋まっている状態です。しかし,雑草や食べれないものも埋まっています。私はこの畑から一つ一つ大事に作り上げられたデータを収穫しています。


もちろんこのままではグルメな機械は食べてくれません。その後にはよく洗って(データクレンジング),よく調理して(データ成形),試作を繰り返して(データ構造の評価),盛り付けも綺麗にできたか確認して(データの可視化)やっと機械の元に届きます。


私の研究はデータを作ってくれる実験屋さん*1,機械を動かしてくれる計算屋さん*2の架け橋研究とも言えます。


なかなか大変な道のりではあります。しかし埋もれていたデータが自分の手を経ることで,美しい結果に結び付いた時は感無量です。


マメ知識 (藤田の周り編)

*1 実験屋さん: 実際に合成実験を行い物性の測定や解析を行う研究者。

*2 計算屋さん: 機械学習の他,物性や構造特性を算出したりする研究者

開発中のデータセット



世界初ハイパーマテリアルに特化した3つのデータセットを開発中です。


どれも基本は手作業で抽出しています。なかなか骨の折れる作業ではありますが,じわじわ溜まってくるデータ数は,だんだん貯金額が増えていくようなうきうきがあります。そして何よりたくさんのデータを並べて誰よりも最初に不思議な挙動を確認できるのはこの積み重ねあってこそ!至福の時です。


データを集めるのにstarrydataウェブシステムという便利ツールを使っています。よければ覗いて下さいね。

starrydataホームページ 

温度依存性物性データセット

図1 電気抵抗の温度依存特性

一本一本の線は論文の図から手作業で抽出しています。(ピンク: ハイパーマテリアル,灰色: 熱電材料)この他にも熱伝導率,比熱,磁性といった特性についても収集しています。

組成・製法・構造データセット


図2 データ収集画面

一つ一つのセルに入っているのは組成,製法,構造の情報です。計約50項目について論文の本文を読みこんで各組成ごとに抽出しています。

 組成領域データセット


図3 論文中の相図から抽出した       組成領域

緑,ピンク,黄色の領域はそれぞれ準結晶,近似結晶,その他の相を表します。これらは論文内の相図の領域の輪郭を座標化して抽出しています。

研究成果


最後に実験データを用いた研究の成果について紹介させて下さい。

「機械学習による新規準結晶の探索」という研究が2021年7月に「Advanced Materials」に掲載されました。

Machine Learning to Predict Quasicrystals from Chemical Compositions, Advanced Materials, 2102507. https://doi.org/10.1002/adma.202102507


研究は統計数理研究所の劉を始めとし、東京大学、東京理科大学の共同研究グループにより行われました。

実験的に確認されている組成を使って機械を訓練し,予測結果からは以下の成果が得られました。

1,実験結果とほぼ一致する組成予測に成功しました。

2,組成の学習のみで準結晶生成の経験則の再現に成功しました。

 

3,5つの特徴量が準結晶の生成と関連が深いことを発見しました。


その後今年の9月にはなんと2つの新しい準結晶が発見されました!予測結果が実を結んだ実例を作ることができました。

研究の概要は5分間の動画にまとめてあるので是非ご覧ください。