誤り検出・訂正ワークショップ 2012

タスク

誤り検出・訂正ワークショップ(EDCW)2012 の目標は、英語学習者の作文の誤りを自動検出することです。EDCW 2012 では、前置詞誤り・動詞(主語-動詞の一致)誤りの2つのトラックに加え、誤りの種類を限定しないパイロットトラックを実施します。コンテストの最後に提出した結果に基づき、優秀者を決定して表彰します。

新着情報

  • 2012/11/27 誤り検出・訂正ワークショップ 2012 予稿集を公開しました。
  • 2012/09/04 誤り検出・訂正ワークショップに多数のご参加、ありがとうございました! 以下のチームを表彰いたしました。今後の研究の発展を期待しております。次回のワークショップもどうぞよろしくお願いします。
    • 動詞トラック
      • 最優秀賞: okayamaU チーム (谷本太郁由, 太田学, 竹内孔一)
      • 優秀賞: NAIST チーム (林部祐太, 坂口慶祐, 水本智也)
    • 前置詞トラック
      • 最優秀賞: NAIST チーム (林部祐太, 坂口慶祐, 水本智也)
      • 優秀賞: ototake チーム (乙武北斗)
    • オープントラック
      • 奨励賞: NAIST チーム (林部祐太, 坂口慶祐, 水本智也)
  • 2012/08/23 9月3日のワークショップのプログラムを公開いたしました。当日お会いできるのを楽しみにしております!
  • 2012/08/13 システムディスクリプションとソースコードをご提出いただきました。どうもお疲れさまでした。
  • 2012/08/10 フォーマルラン結果を通知しました。システムディスクリプションとソースコードの提出期限は8月12日です。どうぞよろしくお願いします。
  • 2012/07/23 ソースコードの提出マニュアル () を添付しました。フォーマルランの結果はただいまチェック中です。最終結果報告までしばらくお待ちください。
  • 2012/07/02 コンテスト参加チームにフォーマルランの開始案内をお送りしました。結果提出〆切は7月8日23:59 (JST) です。
  • 2012/06/15 ドライラン結果を掲載しました。また、システムディスクリプションのサンプルも公開しました。執筆の際にはどうぞご参照ください。
  • 2012/06/04 スコアラマニュアルを更新しました。動詞誤りトラックはテンス誤りは対象とせず、時制の一致誤りのみです。記述ミスがあり、申し訳ありませんでした。
  • 2012/05/16 よくある質問を掲載しました。
  • 2012/05/13 ドライランの提出〆切を6月10日に延長しました。その他のスケジュールは延長なしです。どうぞよろしくお願いします。
  • 2012/05/01 コンテスト参加チームにコーパスのダウンロード方法とスコアラーのアドレスを送信しました。ドライラン提出締切は6月3日です。どうぞよろしくお願いします!
  • 2012/04/22 コンテスト参加登録を締め切りました。前置詞トラックと動詞トラックにそれぞれ5チーム、オープントラックに3チーム、合計7チームと多数の参加登録、どうもありがとうございました! ドライラン開始までしばらくお待ちください。
  • 2012/04/17 使用可能言語に C# を追加しました!
  • 2012/04/09 コンテストの登録申し込みを開始しました! 〆切は4月20日です。

概要

場所:東北大学 (NLP若手の会シンポジウムと連続開催)
スケジュール (詳しいスケジュール:
  • 2012年4月20日コンテスト参加登録〆切
  • 2012年6月10日 ドライラン (中間報告) 結果提出〆切
  • 2012年7月8日 フォーマルラン (最終報告) 結果提出〆切
  • 2012年8月12日 システムディスクリプション・ソースコード提出〆切
  • 2012年9月3日 ワークショップ開催

データ

EDCW 2012 の参加者には、システムの訓練データとして、日本人英語学習者の作文コーパス、Konan-JIEM Learner Corpus を無償で利用することができます。データはGSKを通じて配布します。データの利用条件はGSKへの利用申請に従うものとします。ただし、参加者が学生の場合は、所属する大学(研究室)の指導教員を通じて申請してください。同じ所属組織に対して配布するデータは1組のみです。

評価尺度

提出された結果は、人手でアノテーションされたタグの誤り検出のF値(適合率と再現率の調和平均)で評価します。システムの評価には、別途用意するウェブベースのスコアラを使用します(スコアラマニュアル)。スコアラのアドレスは登録申し込みされた方に別途通知いたします。ドライラン・フォーマルランの期間を通じて、参加者は自由にスコアラを使用することができます。ドライランは中間結果として性能を確認することができますが、フォーマルランは〆切後になるまで性能を確認することはできません。EDCW 2012 では、フォーマルランの最終結果によって優秀者を決定します。

評価対象

参加者は、1つ以上のトラックに参加することができます。フォーマルランの結果提出の際に、参加者が指定した最終結果を対象として評価を行います。システムは、別途定めるXML形式で誤り同定個所を出力し、前置詞誤り検出に関しては <prp> タグを、動詞誤り検出に関しては <v_agr> タグを付与します。本コンテストの評価対象はこれら2つのタグの検出性能です。たとえば、“I has a cheese burger.”という入力の動詞“has”にある主語-動詞の一致の誤りは、以下のようにタグ付けします:I <v_agr>has</v_agr> a cheese burger.”また、タグ属性 ch(元々文法的にエラーではない箇所)が含まれるタグと、特定不能なエラーである <uk> タグで囲まれた部分にある誤りも、評価対象からは除外します。参加者は、入力ファイルの作文のテキスト部分を変更してはいけません。システムはテキストに対する XML タグの付与と空白文字の挿入・削除のみ行うことができます。

参加資格

参加者の所属(大学、企業、フリー)、属性(社会人、学生)は問わず、個人またはチームで参加することができます。チーム参加の場合、代表者を1人決める必要があります。個人参加の場合、参加者が代表者となります。また、チーム参加の場合、フォーマルランの提出時までに代表者以外のチームメンバーを確定し、主催者に通知してください。複数のチームのメンバーになることも可能ですが、個人参加・チーム参加を通じて代表者として登録できるのは1回のみです。また、1組織からは3個人・チームまでの参加とします。ただし、参加者が学生で、かつコーパスを所持していない場合、コーパスデータは所属する大学(研究室)の指導教員を通じて申請してください。同じ所属組織に対して配布するデータは1組のみです。

表彰規程

フォーマルランの結果により、受賞者を決定します。前置詞誤り検出トラック、動詞誤り検出トラックの各トラックにつき、

  1. 最優秀賞
  2. 優秀賞

を決定します。最優秀賞はフォーマルランでもっともF値が高かったシステムに、優秀賞は次にF値が高かったシステムに授与されます。また、これらと別に、オープントラックも含めた全3トラックを通じて、最優秀賞・優秀賞となった以外のシステムを対象に、奨励賞を決定します。奨励賞は EDCW 2012当日の参加者の投票により選出します。

システムディスクリプション

フォーマルランの結果に基づき、参加者はシステムの概要の説明を提出するものとします。(システムディスクリプションのガイドラインへのリンク)システムディスクリプションはコンテスト終了後に EDCW のウェブサイトにて公開されます。 (テンプレート前置詞トラックベースライン動詞トラックベースライン)

ソースコード

参加者はフォーマルラン終了後 MIT/X ライセンスでソースコードをリリースするものとします。ソースコードはコンテスト終了後に EDCW のウェブサイトにて公開されます。(ソースコード提出日本語マニュアル英語マニュアル)

 ソースコードは以下のサイトにて公開予定です。

使用可能なプログラミング言語

お互いのソースコードを見て研究を活性化させるため、今回のワークショップでは使用可能なプログラミング言語を以下の言語に制限します。以下の言語以外のプログラミング言語を使用したい場合、事前にオーガナイザにご相談ください。

  • C
  • C++
  • C# New!
  • Java
  • Perl
  • PHP
  • Python
  • Ruby

連絡先

質問・問い合わせは EDCW オーガナイザ edcw-organizer@googlegroups.com まで連絡ください。

EDCWオーガナイザ

  • 甲南大学 永田亮
  • 奈良先端科学技術大学院大学 小町守
  • 教育測定研究所 Mikko Vilenius
Ċ
Mamoru Komachi,
2012/07/23 1:22
Ċ
Mamoru Komachi,
2012/07/23 1:22
Ċ
Mamoru Komachi,
2012/04/01 23:07
Ċ
Mamoru Komachi,
2012/11/26 18:46
Ċ
Mamoru Komachi,
2012/04/17 19:24
Ċ
Mamoru Komachi,
2012/06/04 0:01
Comments