評価と測定の違いについて
評価(evaluation)は、評価者が対象をどのようにランク付けするかという、あくまで主観的な基準です。例えば、大学や高校などで、学期末の成績付けで「評価」を記入すると思います。これはクラス内の学生のパフォーマンスや努力などを評価者である教師が、対象である学生にAやBなどの、科目ごとに定められた恣意的な基準に従ってランク付けしていくというものです。この評価のために立てた、いわゆるクラスの評価基準というものも、テスト40%、宿題20%、授業態度20%など、あくまでその評価者が恣意的にスケールを切ったもので、これは、別に、テスト60%、宿題30%、授業態度10%でも何でも構わないのです。評価をする際にも、例えば、ある学生は韓国語をなかなか話せるようにならないけれども授業に出た単語を全部覚えてきた、例えば、ある学生は発音が悪くて何を言っているのか聞き取れないけどいつも教師に一生懸命韓国語で話してきた、というような努力値なども見て、評価者はその学生を「評価」します。
測定(measure)は、共通に認識される、ある特定の基準や目盛に従って、対象の能力(特性)を記述するもので、極めて客観的なものと言えます。体重を量るとき、基準の切り方はキログラムでもポンドでも構わないのですが、ある特定の基準に従って「測定」され、54kgと60kgの差が記述されるわけです。ここには客観性は入り込みません。髪の長さを測定すると言った場合には、定規か何かで何cmかを測ります。髪の長さを評価すると言った場合には、良いか悪いか、好みや流行などによる感想を意味します。このように「評価」と「測定」はかなり違ったものなのです。従って、体重測定、身長測定とは言いますが、体重評価、身長評価とは言いません。同様に、演技評価、作文評価とは言いますが、これを、演技測定、作文測定とはかなり言いにくいです。演技や作文などは、どう上手いかをcmやスコアのように数値化して優劣をつけにくいからです。
「測定」が、このように客観的な基準である以上、測定ツールはきちんと精査されたものでなければなりません。分度器の目盛りがおかしくて、測るたびに30度になったり、40度になったりしては困りますし、体重計が壊れていて、乗るたびに体重が異なるようでは困ります。ほとんどの人はこれらの測定ツールを信用していて、体重計が出した60kgを見て一喜一憂しているわけです。
実は、語学においても正確な「測定」が求められるときがあります。TOPIKやハングル能力検定のような検定試験です。ここでいう測定ツールというのはまさに「テスト問題」になります。このテスト問題が、去年と今年で全く難易度が違っていて、同じ能力のはずのAさんが3級に合格して、Bさんは不合格だったということでは困るのです。
「測定テスト」は、受験者の能力を正確に測定し、誰が受験しても、能力XならX点、能力YならY点が出るような安定性が求められます。そのような都度都度の揺れのない、再現性のある問題項目を、統計的手法によって、得点分析をしながら抽出しています。よく「この測定テストは教育上、何に役立つのか」と質問されることがあります。おそらく、質問者は「評価」と「測定」の理解が不十分なのではないかと思われます。クラス内で実施する単語テストや聞き取りテストは、教育上の効果を狙ったトレーニングであったり、あるいは、その時の理解度を見たいために実施するものです。測定テストは、そのクラスを超えて、どこで誰がやっても同様の結果が出ることを目的に作成されています。TOPIK3級は、TOPIK3級なのです。福岡で受験しても、東京で受験しても、2016年に受験しても2017年に受験してもTOPIK3級の能力の人はTOPIK3級と出るような、安定した得点を見ることができるのが良い測定テストであると言えます。