自由回答データの分析

Last update:September 18, 2007

アンケートを実施した際にこれまで使いづらかった自由回答項目のデータ.これを客観的に分析する方法としてテキストマイニングが注目されています.ここでは,私の備忘録としてそのメモを紹介します.

1. 自由回答データを分析―テキストマイニング―

アンケートを実施する際により詳細なる意見を聞くために回答に制限をほとんどかけない自由回答項目を作ります.ただ,このデータの分析は難しく,これまで回答データを並べて眺めて,主観的に情報を分析していました.しかし,最近の情報化社会において,情報の膨大化やウェブ調査における自由回答の質の変化,を考えると大規模データも多くを自動的に処理し,客観的な視点で処理できることが望ましいでしょう.それらの分析をおこなうことが,近年,自然言語等の分野で提案されています.これらの手法をテキストマイニングと呼ぶことがあります.この手法では (1) 分析の自動化,(2) 結果の可視化,(3) 結果の評価,等が(個人的には)興味あるところです.

実際のところ,ちょっと大きめなデータ(100 以上)であればもう手に負える分析ではありません.かなりの時間と労力を必要とします.そのためにも客観的な自動テキスト手法となるテキストマイニングは興味深いものでしょう.以下では,その方法を紹介しましょう.

2. とりあえず手で分析してみましょう

自由回答項目のデータを分析する際に,100 のサンプルを含むデータを分析するにしてもかなり経験が必要とするうえ,時間や労力を必要とします.ここではまだ書きませんが(いつかは書きたいですが),やってみるとその大変さがわかります.たとえば,目で見ながら,類義語,表現の違い,用語の統一などの処理も大変です.もし時間があれば,30 ぐらいのデータで処理してみましょう.

3. フリーソフトを用いた分析

分析といってもまずは用語を単語レベルにわける必要があります.これを形態素分析と呼びますが,手ですると大変です.これをフリーソフトを用いて分析することができます.ChaSen と呼ばれるソフトで可能です.

ChaSen はネットからダウンロードして,通常のインストーラーでインストール可能です.

以降,ChaSen を用いた分析方法を紹介していきますが,まだ計画中です.

ちなみに共起語の分析を行いますが,共起語とはここでな「指定された言葉と結びつきが強い言葉」のことを言います.これは,NEC の SurveyAnalyzer の説明文でも見つけられます(http://www.nec.co.jp/rd/DTmining/products/surveyanalyzer/feature.htm).

テキストマイニングの手法を知りたい場合,ソフトを販売している会社のウェブサイトを見るのもひとつかもしれません.参考までに.

2007 Copyright © Takeuchi Laboratory all rights reserved.