1~15のすべての学習データを使用して問題ありません。使えるものは何でも使用してください。自分でデータセットを作成してくださっても結構です。
評価には新たなデータセットを使用する予定ですが、文字コードごとのデータ数の比率については、未定です。均等になるかもしれませんし、ならないかもしれません。(現在提供しておりますデータセットは、文字ごとのデータ数が均等ではありません。例えば、U+306B「に」は15,982個ですが、U+3031「く」は1,268個です。)
バランスもしくはデータ全体、どちらに重点を置かれるかは、ご参加者様が自由な発想に基づいてお決めになられるのが最良かと思います。どちらを選択されても、アルゴリズムの特色を積極的に評価していく予定です。また、アルゴリズムを適切に評価できるよう、アルゴリズムの説明書も重要です。分かりやすい説明、発想のアピールなどを盛り込ん頂ければと思います。
main関数を書き換えて下さって問題ありません。必要に応じて自由にご修正・変更を加えてください。
新しいファイルを作って下さって問題ありません。
学習辞書ファイルもご自由にご作成ください。
問題ありません。ご自由に開発してください。