昨今のデジタル端末の教育現場への普及により、学習・教育の過程がきめ細かいデータとして記録されるようになりました。このような教育データは、学習の過程に関する研究など、それまで困難だった研究に大きな可能性をもたらします。しかし、個人情報保護の観点から、教育データの二次利用はほとんど進んでいません。
そこで、本プロジェクトが現在研究・開発を進めているシステムが、ReLEAF です。ReLEAFは、デジタル学習基盤 LEAF のデータの二次利用を支援するシステムです。同時に、教育データの信頼できる二次利用に向けた枠組みの提案です。LEAF システムの残した落ち葉(データ)をしっかりと再利用(Reuse)することで、未来の LEAF がより良くなるための土壌(基礎研究の場)を作ることを目指します。本プロジェクトは、このような教育データの一次利用と二次利用の循環を目指す挑戦的な試みです。
ReLEAF の特徴は以下の二つです。
差分プライバシーを用いた匿名加工
ステークホルダー(学校、学習者、保護者など)と二次利用者のコミュニケーション
伝統的な匿名加工は、補助情報を持った攻撃者や予測不能な未来の攻撃に対して情報保護を保証できないため、差分プライバシーを用いることでそのようなリスクを数学的に制御します。また、ステークホルダーの理解と信頼を得るためには、二次利用がなぜ重要か、それを可能にするためにReLEAFがどのように個人情報を保護しているかを適切にコミュニケーションする必要があります。
具体的に、ReLEAF は Lab、Review、Trustの三つのモジュールと、LEAF システムを管理している各教育・研究機関等に分散した「データサイト」から構成されます(下図)。まず、各機関で LEAF のデータが自動で匿名・仮名加工され、専用のデータサイトに格納されます。Lab がこれらのデータサイトのハブとして機能することで、研究者は様々な機関の匿名加工データをダウンロードすることができます。匿名加工データは合成データであり本物のデータではないことに注意が必要です。そのため、例えば以下のような利用事例が考えられます。
教育データサイエンスの授業で学生に使わせる
データが少ない教育現場(小規模な学校など)で、機械学習モデルの事前学習に使う
システム開発のテストデータとして使う
学習科学などの基礎研究の研究者が仮説形成のために使う
研究のアイデアを出すためにとりあえず触ってみる
一方で、データを解析した結果を論文として出版する場合や、政策立案のための報告書を作成する場合など、合成データ(匿名加工データ)での解析結果を実際のデータ(仮名加工データ)で確認する必要のある場合があります。このような場合、研究者はリクエストを作成し、解析結果を再現するための Python のコードを提出することができます。リクエストには、コードの他に、研究の目的や公共性などを記述する必要があります。Review モジュールでの審査に通れば、コードがデータサイトで実行され、実際のデータでの結果をダウンロードすることができます。このようにして、実際のデータが必要な場合は、実際のデータを直接見ることなく、解析結果のみ受け取ることができます。詳しくはマニュアルをご覧ください。
最後に、ReLEAF を用いた二次利用に関するステークホルダーとのコミュニケーションを支援するのが Trust モジュールです。これは現在開発中ですが、Lab の利用状況を確認したり、二次利用に関する疑問や懸念に応え、二次利用の効用を共有する場を目指しています。今後の試験運用を通じて研究開発を進めていきますので、研究者の皆様、ステークホルダーの皆様のご協力をお願い申し上げます。詳しくは試験運用ページをご覧ください。
ReLEAFの概要