第3回
教育データ分析コンテスト

概要

教育の情報化が加速し,学習管理システム(LMS)やデジタル学習教材を利用する機会が急激に増えてきています.そのようなシステムに蓄積される教育データを利活用したデータ駆動型教育の実現にも近年期待が高まっております.一方で,教育データの解析手法や活用手法についてはまだまだ研究段階であり,実際にどのようなデータが学習者から収集され,どのような解析ができるのかなどのノウハウについては,あまり情報が共有されていないのが現状です.

コンテストは,実際の教育現場で収集されたログデータを参加者に提供し,実際の教育データを分析をしていただき,その結果の精度や分析方法あるいは分析の着眼点の斬新さについて参加者間で競争ならびに情報共有をしていただくことを目的として開催をしております.第3回目となる今回のコンテストでは,「デジタル教材閲覧行動データ分析による成績予測」に焦点を絞り,より多くの方にご参加いただけるように,評価プロセスの明瞭化と簡素化を行う予定です.

提供する教育データはCSVフォーマットで記述されています.プログラム開発をする際には,データの読み込みや,抽出,集計,可視化などを行う基本処理関数群OpenLAも提供しております.OpenLAはPythonで記述されたライブラリですので,他のPython系のライブラリとも親和性が高く,例えばscikit-learnによる機械学習やPlotlyによる高度な描画などを行うライブラリにも簡単に処理結果を接続することが可能です.ぜひ,この機会に教育データ分析コンテストを通して教育データに触れていただき,より多くの方々と教育データ利活用の可能性について共有いただければ幸いです.

成績上位者(個人またはチーム)に対して,2024年3月に開催予定のシンポジウムで発表・表彰いたします.入賞者には賞状と副賞が贈呈される予定ですので,奮ってご参加ください.

スケジュール

WebサイトOpen:2023年7月6日

教育データ提供開始:2023年8月予定9月中旬予定9月14日
 ※お待たせしました.データセットの提供を始めました.

チュートリアル:2023年12月9日

参加登録締切:2024年1月16日

分析結果投稿締切:2024年1月31日

new 結果発表・表彰式:2024年3月24日:14:30 - 15:30  ※情報処理学会CLE研究会との共催

データについて(予定)

Kyo-dataset

データ収集期間:2020年1月~4月

想定される利用方法:5週間,10週間,15週間のデジタル教材閲覧行動データ分析による成績予測

開発環境について

Google Colaboratory (Google Colab) の利用を推奨しております.

プログラム開発の効率化のためのオープンソースライブラリ:OpenLA(詳細は後述)もGoogle Colabで簡単に利用できます.

分析結果を投稿する際もGoogle Colabで記述していただいたコードをノートブック形式(ipynb形式)で提出していただきますので,開発当初からご利用いただくことを推奨いたします.

なお,入賞者についてはよろしければ後日開発コードをGitHub等で公開させていただきたいと思っておりますので,あらかじめご理解のほどよろしくお願いいたします.該当者には公開前にあらためてご相談差し上げます.

今回のコンテストでは現在のところ開発コードを提出していただく定は考えておりません.

分析結果の提出と評価について(予定)

チャレンジ5週間,10週間,15週間のデジタル教材閲覧行動データ分析により成績を予測します.

提出物
データ利用申請者に案内をしております500件の評価データに対して各学習者と予測成績が書かれたCSVファイル(書式はデータセット内にサンプルとして提示)を提出してください.
評価方法提出されたコード(Google Colabノートブック)を評価者側で実行して成績予測の精度を評価します.
評価にはあらかじめ提供していないデータを使います.
現在公開しているデータは,最終評価用ではなく,開発検証用のデータです.以下の予測精度の確認用にご利用ください.
精度評価指標としてRMSE(平均平方二乗誤差)を使用して順位付けをします.
予測精度の確認自動評価システムに投稿していただくことで,現在の予測結果に対する精度を確認していただくことが可能です.参加者は1日に1回,結果を投稿することができますので是非ご活用ください.

OpenLA:教育データ分析のためのオープンソースライブラリ

本コンテストで提供されているBookRollのログファイルの読み込み,データ抽出,データ変換,簡単な可視化を行うことができるPythonライブラリを提供しています.開発元:九州大学イメージ・メディア理解研究室

教育データ分析のためのオープンソースライブラリ:OpenLA 

OpenLAのWebサイトは英語で書かれておりますが,ブラウザの翻訳機能をお使いいただければそこそこ可読性のある日本語が表示されると思います.

Google Colaboratoryを利用したチュートリアルもありますので,ぜひご活用ください.

FAQ

Q1.デジタル教材閲覧行動データ でOpenのイベントが無いのにCloseのイベントが記録されているケースがありますが,これはデータの抽出期間外にOpenのイベントが記録されていたと考えればよいでしょうか.
A1.そのような要因も含めてリアルデータにはまれに時間の順序整合が取れないことが起こり得ますので,適宜フィルタリングをするなどしてご対処いただけますようお願いします.

Q2.同じuseridの学習者が同時刻に同じ教材に対するアクションを起こしているデータがあるようですが,これは同時刻に同じアクションが複数回行われたと考えてよいでしょうか.
A2.実際にブラウザ(タブ)を複数起動して操作しているケースや,同時刻内にアクションを複数起こしているケースもあり得ます.

Q3.データセットの5週,10週のデータは15週(all)のサブセットになっていると考えてよいでしょうか.
A3.サブセットになっています.評価用データも同様になります.

Q4.予測制度確認サイトの更新頻度は1日1回でしょうか.
A4.サーバの負荷を考慮して当初は1日1回の更新で運用しておりましたが,コンテスト期間終盤は利用頻度も高まることが予想されますので,1時間に1回の更新で運用を行います.

Q5.予測精度確認のフォーマットではuseridは順不同で提出しても判定されますか?
A5.判定されます.

Q6学習用データの書籍IDと評価用データの書籍IDが異なっていますがそれは仕様でしょうか
A6教育データで利用している書籍IDは学習用データと評価用データでは異なる場合もありますが,全く違う分野の書籍ではありません.


問い合わせ先

教育データ分析コンテスト事務局:data [at] limu.ait.kyushu-u.ac.jp