第2回
教育データ分析コンテスト

お知らせ

第3回 教育データ分析コンテストの案内を開始しました.
詳しくはこちらをご覧ください.
https://sites.google.com/view/ede-datachallenge-3rd

概要

教育の情報化が加速し,学習管理システム(LMS)やデジタル学習教材を利用する機会が急激に増えてきています.そのようなシステムに蓄積される教育データを利活用したデータ駆動型教育の実現にも近年期待が高まっております.一方で,教育データの解析手法や活用手法についてはまだまだ研究段階であり,実際にどのようなデータが学習者から収集され,どのような解析ができるのかなどのノウハウについては,あまり情報が共有されていないのが現状です.

本コンテストは,実際の教育現場で収集されたログデータを参加者に提供し,実際の教育データを分析をしていただき,その結果の精度や分析方法あるいは分析の着眼点の斬新さについて参加者間で競争ならびに情報共有をしていただくことを目的として開催をしております.第2回目となる今回のコンテストでは,前回に引き続き「デジタル教材閲覧行動データ分析による成績予測」と「対面授業とオンライン授業のデジタル教材閲覧行動の比較分析」の2つのチャレンジを用意しています.また,「対面授業とオンライン授業のデジタル教材閲覧行動の比較分析」についてはノーコード(プログラムの開発は不要)で教育データの分析を行っていただく新しいチャレンジを用意しています.

提供する教育データはCSVフォーマットで記述されています.プログラム開発をする際には,データの読み込みや,抽出,集計,可視化などを行う基本処理関数群OpenLAも提供しております.OpenLAはPythonで記述されたライブラリですので,他のPython系のライブラリとも親和性が高く,例えばscikit-learnによる機械学習やPlotlyによる高度な描画などを行うライブラリにも簡単に処理結果を接続することが可能です.ぜひ,この機会に教育データ分析コンテストを通して教育データに触れていただき,より多くの方々と教育データ利活用の可能性について共有いただければ幸いです.

参加者(個人またはチーム)は,教育データ分析の着眼点,分析手法,得られた結果を,主催者側が後日指定する形式で投稿していただきます.投稿いただいた内容を評価員により審査を行い,上位者を2023年3月に開催予定のシンポジウムで発表・表彰いたします.入賞者には賞状と副賞が贈呈される予定ですので,奮ってご参加ください.

スケジュール

WebサイトOpen:2022年9月16日

教育データ提供開始:2022年10月3日以降(申し込み開始までもうしばらくお待ちください
          2022年10月12日newお待たせしました.データセットの提供を開始しました.
          右上,または本ページ中央あたりの参加登録のページからお申込みください.

チュートリアル:2022年12月4日:10時~11時30分(予定)new
        参加申し込みの受付を終了しました.多数のお申し込み,ありがとうございました.

参加登録締切:2023年1月16日
        (参加登録受付を終了しました.多数の登録,ありがとうございました.)

分析結果投稿締切:2023年1月31日

new 結果発表・表彰式:2023年3月11日:13時~14時30分   ※情報処理学会CLE研究会との共催

データについて

本コンテストで提供する教育データは2種類あります.
それぞれのデータセットの想定される利用方法についても記載しておりますが,分析の用途を限定するものではありません.

Kyo-dataset

データ収集期間:2020年1月~4月

想定される利用方法:5週間,10週間,15週間のデジタル教材閲覧行動データ分析による成績予測

Kyu-dataset

データ収集期間:2019年,2020年のクォーター学期

想定される利用方法:対面授業(2019年)とオンライン授業(2020年)のデジタル教材閲覧行動の比較分析

開発環境について

Google Colaboratory (Google Colab) の利用を推奨しております.

プログラム開発の効率化のためのオープンソースライブラリ:OpenLA(詳細は後述)もGoogle Colabで簡単に利用できます.

分析結果を投稿する際もGoogle Colabで記述していただいたコードをノートブック形式(ipynb形式)で提出していただきますので,開発当初からご利用いただくことを推奨いたします.

なお,入賞者についてはよろしければ後日開発コードをGitHub等で公開させていただきたいと思っておりますので,あらかじめご理解のほどよろしくお願いいたします.該当者には公開前にあらためてご相談差し上げます.

分析結果の提出と評価について

教育データ分析コンテストには次の2タイプがあります.いずれか一方,あるいは両方に取り組んで結果を投稿してください.

1.成績予測

対応するデータセットKyo-dataset

チャレンジ5週間,10週間,15週間のデジタル教材閲覧行動データ分析により成績を予測します.

提出物
データ利用申請者に案内をしております500件の評価データに対して各学習者と予測成績が書かれたCSVファイル(書式はデータセット内にサンプルとして提示)を提出してください.
成績予測のプログラムを実行できるプログラムが書かれたGoogle Colabのノートブック(ipynb形式)を提出してください.
注)予測モデルの構築の際に機械学習を使うなどで学習時間を要する場合は,機械学習を実行するコードの提出は不要です.
代わりに,機械学習後のモデルパラメータを保存したファイルと,そのファイルを読み込んで成績予測のみを行う評価部分のコードが書かれたノートブックを提出してください.

評価方法:提出されたコード(Google Colabノートブック)を評価者側で実行して成績予測の精度を評価します.
評価にはあらかじめ提供していないデータを使います.
精度評価指標としてRMSE(平均平方二乗誤差)を使用して順位付けをします.
(予測精度の評価は,複数の異なる機関で同じ評価データを用いて厳正に行います.)

予測精度の確認new「提出物①」については,自動評価システムに投稿していただくことで,現在の予測結果に対する精度を確認していただくことが可能です.参加者は1日に1回,結果を投稿することができますので是非ご活用ください.

2.エビデンス発見

対応するデータセットKyu-dataset

チャレンジ:2019年と2020年にそれぞれ開講された同一科目を受講する学習者のデジタル教材閲覧行動を比較分析し,COVID-19流行の前後で学習行動に変化が生じたこと,あるいは,生じなかったことについてデータ分析を行ってください.2019年は対面授業時のデータ,2020年はオンライン授業時のデータになりますので,対面授業とオンライン授業での学習時間の変化や取り組み方の変化など,自由な視点での比較分析に挑戦していただけますと幸いです.

提出物
① 分析の観点,分析の方法,得られた結果,その数値的根拠をPPT形式の資料(ページ数の上限は設けませんが,できるだけコンパクトに要点をおまとめください)としておまとめいただき,後日案内する方法で投稿してください.
Google Colabのノートブック(ipynb形式)の提出もお願いします.

評価方法:評価者によるピアレビューを行います.分析の着眼点の斬新さ,得られた分析結果,エビデンスの信ぴょう性などを評価します.

.教育データ分析入門new

対応するデータセットKyu-dataset

チャレンジ:チャレンジの主旨は「2.エビデンス発見」と同じですが,Kyu-datasetからあらかじめ授業中の活動や期間全体の活動を学習者ごとに集計したデータを提供しています.プログラムコードを開発しなくても,エクセルやスプレッドシート上で分析をすることが可能です.入門ということで,教育データの分析課題を具体的に設定していますので,『教育データの分析をしてみたいけれど,プログラミングまではちょっと・・・』という方もこちらのデータを活用いただき,ぜひ教育データに触れてみていただけますと幸いです.

提出物
分析の観点,分析の方法,得られた結果をPPT形式の資料(ページ数の上限は設けませんが,できるだけコンパクトに要点をおまとめください)としておまとめいただき,後日案内する方法で投稿してください.
② 分析に用いたエクセル,スプレッドシート等のファイルの提出もお願いします.

評価方法:評価者によるピアレビューを行います.分析の着眼点の斬新さ,得られた分析結果,エビデンスの信ぴょう性などを評価します.

サンプルタスク

(詳細はデータセットをご覧ください.)

教育データの入手

以下の参加登録ボタンから別ページに移動していただき,必要情報をご記入のうえ,参加登録をお願いします.

また,教育データが収集された学習プラットフォームならびにデジタル教材配信システム(BookRoll)については以下のURL先の情報を参照してください.

デジタル教材配信システム「BookRoll」

OpenLA:教育データ分析のためのオープンソースライブラリ

本コンテストで提供されているBookRollのログファイルの読み込み,データ抽出,データ変換,簡単な可視化を行うことができるPythonライブラリを提供しています.開発元:九州大学イメージ・メディア理解研究室

教育データ分析のためのオープンソースライブラリ:OpenLA 

OpenLAのWebサイトは英語で書かれておりますが,ブラウザの翻訳機能をお使いいただければそこそこ可読性のある日本語が表示されると思います.

Google Colaboratoryを利用したチュートリアルもありますので,ぜひご活用ください.

FAQnew

Q1.成績予測部門でGitHubなどで公開されているコードを利用してもよいでしょうか.
A1.できるだけオリジナルの分析コードの開発を推奨しておりますが,開発の効率化のために公開コードを利用する場合は,公開コードの利用を提案の分析方法の50%程度に留めて,オリジナリティの確保ができるようにご配慮をお願いいたします.

Q2.過去のコンテストで使われたアルゴリズムを参考にしたり,再利用したりしてもよいでしょうか.
A2.参考にしたり,再利用したりする場合は出典を明らかにしてください.また,その場合も参加者の開発内容のオリジナリティを確保できるように新しい観点やアプローチを50%程度は含めていただくようにお願いします.

Q3.データ分析のオリジナリティが低い場合,コンテストの評価はどうなるのでしょうか.
A3.過去に利用されたアプローチや公開されているコードの依存性が高い場合は,たとえ成績予測結果が高い精度であったり,ピアレビューの結果が高かったりしても,入賞として認定できない可能性があります.FAQのQ1,Q2もご参照いただき,オリジナリティの観点の担保をよろしくお願いいたします.

Q4.「エビデンス発見」部門と「教育データ分析入門」部門の違いはなんでしょうか.
A4.利用する元データは同じです.どちらも2019年と2020年の授業間の比較が主な目的です.エビデンス発見部門では,分析するためのプログラムコードの開発を想定しておりますが,教育データ分析入門の部門ではあらかじめ主催者側でデータ抽出・成形したデータをお渡ししておりますので,プログラム開発をすることなくエクセル等で直接分析することが可能です.

Q5.「エビデンス発見」部門と「教育データ分析入門」部門ではどれくらい統計的有意性のある結果を出す必要があるのでしょうか.
A5.エビデンスの信ぴょう性という観点では,統計的有意性も一つの重要な指標ですが,必ずしも統計的有意性にこだわりすぎずに,自由な発想で教育データ分析に取り組んでいただき,その結果についての考察等を含めていただくことが,教育データ分析のノウハウを共有するという本コンテストの主旨にも合致すると思いますので,そのようにお考えいただけますようよろしくお願いいたします.

問い合わせ先

教育データ分析コンテスト事務局:data [at] limu.ait.kyushu-u.ac.jp