自由記述回答の階層的クラスタ分析とテキストマイニング
自由記述回答の階層的クラスタ分析とテキストマイニング
Post date: 2020/03/04
Keywords: テキストマイニング、自由記述回答、階層的クラスタ分析、KH Coder
前任校の社会学者で統計に非常に明るいF本先生に触発され、ここ数年、自由記述等の分析では樋口先生のKH Coderを用いてテキストマイニング(計量テキスト分析)を試しています。
樋口先生のHP(https://khcoder.net/)
今自由記述回答の分析で考えたことについて、思いつきを。記事執筆にあたり、文献等を確認していないので内容に間違いがあるかもしれません。
1.複数名の自由記述回答から出現語彙を抽出し、対応分析や共起ネットワークを見ること。
これらの分析を通じて、自由記述回答の中で、語彙の使われ方、どの語彙と同時に出現しやすいのか等の情報が見えてくる訳なので、質的分析では見過ごした可能性のある語彙の使われ方や捕捉できなかった多い回答・文脈がクリアになる、という点が長所と言えそうです。
つまり、質的分析を行う上で、予備知識の少ない研究者は印象度の強い回答にひきづられやすいのをワンクッション量的分析を挟むことで、客観性を担保しよう、という感じなのかなと。
また回答者属性を外部変数に対応分析を行うことで、特に回答者属性の連続性(学年や成績など)があると、横断データでも、「こう変化していくかも」という考察が可能になるのは面白いなぁと。もちろん縦断データで実際の変化を見たり、横断データからの考察とのズレを検討する事も重要か。
2.文書の階層的クラスタ分析を行うこと。
80名の回答について、出現語彙の類似パタンから、回答者ごとのグルーピングを行うために文書の階層的クラスタ分析を行いました。例えば、インクルーシブ教育の理念に関する回答特徴を持つAさん、Cさん、Fさん、Gさんの回答を第1クラスターに、ICT機器の活用に関する回答特徴を持つBさん、Dさん、Eさんを・・・という感じです。
デンドログラム(樹形図)のどこで基準を切るかによって、クラスタ数が変わるわけですが、
・クラスター数を多くしすぎると、細分化してて全体像がつかみにくく、クラスター内の共起ネットワークを見てもサブグラフ間が完全に独立してて、クラスタ命名がしづらい印象。
・一方、クラスター数を少なくしすぎると、当然、類似性の範囲が拡大するので1つのまとまりとして命名しづらくなる(ポンコツな自分には・・・)、という印象。
程よいクラスター数の設定と、適切な命名は難しいなぁと。これはテキストマイニングを用いようと、質的分析における研究者の経験・知識・センスは必要という事を示していると思います。
また1人の回答者の自由記述の中に、複数の特徴が入っている事の場合が多いので、今回僕がしたような分析の使い方が、そもそも問題あるのかもしれません。回答者を無視し、全ての自由記述を1つのテキストデータと捉え、回答全体に対する階層的クラスタ分析を行うと、このような苦労はないのでしょう。
従って、今回僕がしたかった、特徴に沿って回答者・回答内容をグルーピングして行く場合には、1人の回答者の回答を切り分け分析する等の前処理を行った方が良いかもしれません。
でもこれだと、何らかの手法で、Aさんの回答を断片化してから、テキストマイニングする事になるなるので、例えば、KJ法→テキストマイニングと二度手間になるかもしれません。
3.階層的クラスタ分析と関連した妄想
例えば、最初にAさん1人の回答を階層的クラスタ分析し、クラスタ数と命名を終える
→次にBさんを加えて階層的クラスタ分析し、クラスタ数と命名が維持されるか(修正必要か)を検討する
→Cさん、Dさん・・・と繰り返す
というような、M-GTA的に用いる分析はどうなんでしょうね。
ここまでやるなら、「テキストマイニングせずにM-GTAで行け!」という考えもありそうですが。。。
いずれにせよ、自由記述やインタビューなどの分析では、たった1名の回答でも、非常に重要な指摘を含む回答もあるので、そこはテキストマイニングだけでオールオッケーという事ではなさそう。
臨床心理系で心理統計や実験法・調査法を苦手とする大学院生が安易に質的研究の修士論文を選択する事がありますが、どうなんでしょうね。臨床心理士として、クライアントの語りをどのように理解するか、という訓練になるとは思うんですが、研究としては、院生の思い込みや指導教員のカラーが強く影響しそうなので、ちょっと怖い気もします。
以上