第1回勉強会

投稿日: 2015/10/09 10:49:13

日時:2015年10月19日(月) 16:00-18:00

場所:国立情報学研究所 1208室 (12F)

発表者: 坪井祐太 (IBM東京基礎研究所)

タイトル: How to avoid overfitting to development set

概要:

NLPでは特徴セット・学習の停止条件などのハイパーパラメータを開発セットでの評価結果を使って選択することがよくありますが、開発セットに過適応してテストセットでの性能があまりでないこともあります。本発表では、開発セット(Holdout set)への過適応を防ぐ方法を提案している以下の論文を紹介します。

The Reusable Holdout: Preserving Validity in Adaptive Data Analysis (Science, 2015)

簡単に言うと差分プライバシー技術を応用して開発セットの情報を隠すことで過適応を防ぐ手法です。開発セットへの過適応はベイズ的最適化などでシステマティックにハイパーパラメータを選ぶようになるとますます問題になると思ってます。

著者の発表資料・論文を使って説明します。

http://rsrg.cms.caltech.edu/netecon/privacy2015/slides/hardt.pdf

http://www.cis.upenn.edu/~aaroth/reusable.html

発表者:塘 優旗 (首都大学東京 小町研究室)

タイトル:部分的アノテーションを利用したCRFによる日本語学習者文の単語分割

概要:

日本語学習・教育支援として,学習者の書いた作文の誤り検出,誤り訂正の必要性が高まってきている.そのような技術の精度向上には,学習者の文に頑健な単語分割が重要である.本稿では,言語学習者サイトであるLang-8における日本語学習者の日本語文とそれに対しての添削文のペアから,学習者の単語分割に関しての訓練用データを作成する.しかし,Lang-8では添削されるべき部分の一部のみしか訂正されていない場合もあり,信頼できないデータも多い.そこで,おそらく信頼できるであろう,添削が行われた部分の文字のみに単語境界のアノテーションをすることで学習者コーパスを作成し,アノテーションが曖昧な部分に関しては周辺尤度を用いて訓練を行う条件付き確率場の拡張(坪井2009)を利用することで訓練を行う.訓練時に利用する学習者コーパス中の文を,学習者文と添削文間での挿入,削除数によって制限し,分野適応することで,学習者テキストの単語分割精度を向上させることができることを示す.また,その他比較手法との違いを実際の出力結果を交えて考察する.

参加者:海野、坪井、持橋、高村、瀬沼、菅原、星野、熊谷、小林、相澤、塘、

小町、徳永、高瀬、能地、佐藤、田、宮尾、岡崎 (19人)