第1回
教育データ分析コンテスト
概要
教育の情報化が加速し,学習管理システム(LMS)やデジタル学習教材を利用する機会が急激に増えてきています.そのようなシステムに蓄積される教育データを利活用したデータ駆動型教育の実現にも近年期待が高まっております.一方で,教育データの解析手法や活用手法についてはまだまだ研究段階であり,実際にどのようなデータが学習者から収集され,どのような解析ができるのかなどのノウハウについては,あまり情報が共有されていないのが現状です.
そこで本コンテストでは,実際の教育現場で収集されたログデータを参加者に提供し,実際の教育データを分析をしていただき,その結果の精度や分析方法あるいは分析の着眼点の斬新さについて参加者間で競争,共有をしていただくコンテストを開催することにいたしました.特に本コンテストでは,2020年のCOVID-19の流行に伴うオンライン授業期間中の教育データと,それ以前の対面授業期間中の教育データの両方を提供することで,授業時の学習活動時の分析だけではなく,対面授業とオンライン授業の比較分析も行うことができます.また,提供する教育データはCSVフォーマットで記述されており,そのデータの読み込みや,抽出,集計,可視化などを行う基本処理関数群OpenLAも提供しております.OpenLAはPythonで記述されたライブラリですので,他のPython系のライブラリとも親和性が高く,例えばscikit-learnによる機械学習やPlotlyによる高度な描画などを行うライブラリにも簡単に処理結果を接続することが可能です.ぜひ,この機会に教育データ分析コンテストを通して教育データに触れていただき,より多くの方々と教育データ利活用の可能性について共有いただければ幸いです.
参加者(個人またはチーム)は,教育データ分析の着眼点,分析手法,得られた結果を,主催者側が後日指定する形式で投稿していただきます.投稿いただいた内容を評価員により審査を行い,上位者を2022年3月に開催予定のシンポジウムで発表・表彰いたします.入賞者には賞状と副賞が贈呈される予定ですので,奮ってご参加ください.
データについて
本コンテストで提供する教育データは2種類あります.
それぞれのデータセットの想定される利用方法についても記載しておりますが,分析の用途を限定するものではありません.
Kyo-dataset
データ収集期間:2020年1月~4月
想定される利用方法:5週間,10週間,15週間のデジタル教材閲覧行動データ分析による成績予測
Kyu-dataset
データ収集期間:2019年,2020年のクォーター学期
想定される利用方法:対面授業(2019年)とオンライン授業(2020年)のデジタル教材閲覧行動の比較分析
開発環境について
Google Colaboratory (Google Colab) の利用を推奨しております.
プログラム開発の効率化のためのオープンソースライブラリ:OpenLA(詳細は後述)もGoogle Colabで簡単に利用できます.
分析結果を投稿する際もGoogle Colabで記述していただいたコードをノートブック形式(ipynb形式)で提出していただきますので,開発当初からご利用いただくことを推奨いたします.
なお,入賞者についてはよろしければ後日開発コードをGitHub等で公開させていただきたいと思っておりますので,あらかじめご理解のほどよろしくお願いいたします.該当者には公開前にあらためてご相談差し上げます.
分析結果の提出について
Google Colabで記述していただいたコードをノートブック形式(ipynb形式)で提出していただく予定です.
詳しい方法については,参加登録後に各参加者に対してメールで連絡を差し上げます.
FAQ(new)
Q1.分析結果を提出する際に,ファイル名にはどのような名前を付ければよいですか?
A1.参加登録時のメールアドレスの@(アットマーク)の前の文字列をご利用いただき,以下のようなファイル名でGoogle Colabのノートブック(ipynb形式)を保存してください.
メールアドレスの@(アットマーク)の前の文字列が「hogehoge」の場合:
成績予測の場合の例:
hogehoge_seiseki.ipynb
エビデンス発見の場合の例:
hogehoge_evidence.ipynb
Q2.分析結果の提出時はGoogle Colabのノートブック(ipynb形式)を提出すればよいですか?
A2.提出されたノートブックを事務局側で実行しますので,ノートブック以外に必要なファイル(ノートブック実行時に読み込む必要があるファイルなど)があれば併せて提出してください.なお,本コンテストで提供している教育データについては提出していただく必要はありません.
評価について
教育データ分析コンテストには次の2タイプがあります.いずれか一方,あるいは両方に取り組んで結果を投稿してください.
成績予測
対応するデータセット:Kyo-dataset
チャレンジ:5週間,10週間,15週間のデジタル教材閲覧行動データ分析により成績を予測します.
提出物:成績予測のプログラムを実行できるプログラムが書かれたGoogle Colabのノートブック(ipynb形式)を提出してください.
予測モデルの構築の際に機械学習を使うなどで学習時間を要する場合は,機械学習を実行するコードの提出は不要です.
代わりに,機械学習後のモデルパラメータを保存したファイルと,そのファイルを読み込んで成績予測のみを行う評価部分のコードが書かれたノートブックを提出してください.
評価方法:提出されたコード(Google Colabノートブック)を評価者側で実行して成績予測の精度を評価します.
評価にはあらかじめ提供していないデータを使います.
精度評価指標としてRMSE(平均平方二乗誤差)を使用して順位付けをします.
(予測精度の評価は,複数の異なる機関で同じ評価データを用いて厳正に行います.)
エビデンス発見
対応するデータセット:Kyu-dataset
チャレンジ:2019年と2020年にそれぞれ開講された同一科目を受講する学習者のデジタル教材閲覧行動を比較分析し,COVID-19流行の前後で学習行動に変化が生じたこと,あるいは,生じなかったことについてデータ分析を行ってください.2019年は対面授業時のデータ,2020年はオンライン授業時のデータになりますので,対面授業とオンライン授業での学習時間の変化や取り組み方の変化など,自由な視点での比較分析に挑戦していただけますと幸いです.
提出物:分析の観点,分析の方法,得られた結果,その数値的根拠をPPT形式の資料(ページ数の上限は設けませんが,できるだけコンパクトに要点をおまとめください)を後日案内する方法で投稿してください.
また,Google Colabのノートブック(ipynb形式)の提出もお願いします.
評価方法:評価者によるピアレビューを行います.分析の着眼点の斬新さ,得られた分析結果,エビデンスの信ぴょう性などを評価します.
教育データの入手
以下の参加登録ボタンから別ページに移動していただき,必要情報をご記入のうえ,参加登録をお願いします.
また,教育データが収集された学習プラットフォームならびにデジタル教材配信システム(BookRoll)については以下のURL先の情報を参照してください.
OpenLA:教育データ分析のためのオープンソースライブラリ
本コンテストで提供されているBookRollのログファイルの読み込み,データ抽出,データ変換,簡単な可視化を行うことができるPythonライブラリを提供しています.(開発元:九州大学イメージ・メディア理解研究室)
教育データ分析のためのオープンソースライブラリ:OpenLA
OpenLAのWebサイトは英語で書かれておりますが,ブラウザの翻訳機能をお使いいただければそこそこ可読性のある日本語が表示されると思います.
Google Colaboratoryを利用したチュートリアルもありますので,ぜひご活用ください.
問い合わせ先
教育データ分析コンテスト事務局:data [at] limu.ait.kyushu-u.ac.jp