アンケートの最後に自由記入欄ってありますよね。
「ご自由にお書きください」と言われても、ざっくりしすぎていて特に書きたいことが思いつかない、なんてことはよくあると思います。
せめて「〇〇を選ばれた理由を教えてください」と書かれていれば、少しは書くことを思いつけそうです。
今回は、以前取り組んでいただいた部屋の印象評価の自由記述をデータとして使っていきます。
それぞれの部屋に対する皆さんの印象がどのようなものであったか、自由記述から読み取れるかもしれませんし、印象がバラバラで何も読み取れないかもしれません。
データから価値を生み出せるか、分析を試みてみます。
今回は以下に取り組んでいきます。
テキストマイニングツールのダウンロード
データの読み込みと前処理
部屋のタイプ毎の頻出語の確認
部屋のタイプ毎の印象の類似性の確認
頻出語と印象の類似性の確認結果をまとめる
テキストマイニングとは、自由記述のような短めな文章から、小説のような長い文章まで、様々な長さの文章の特徴を発掘するデータ分析手法です。
今回は、KH Corderというソフトウェアを使用します。
まずは、以下からKH Coder 3(最新版)をダウンロードします。
KH Coder 3(最新版)ダウンロードをクリックすると、khcoder-3b02.exeがダウンロードされてきます。
khcoder-3b02.exeを右クリックして管理者として実行します。
すると以下が表示されます。
保存場所の指定はデフォルトで入力されているフォルダ(ディレクトリ)でOKです。
この場合だと、Cドライブが指定されていますが、特に変更の必要はありません。
続いて、右上のUnzipをクリックします。
すると、デスクトップにKH Coder3 Folderが作られます。
KH Coderのダウンロードはこれで終了です。
デスクトップに作られたKH Coder3 Folderをダブルクリックします。
すると、kh_coder.exeの入ったフォルダが開きます。
kh_coder.exeをダブルクリックすると、KH Coderが起動します。
ちなみに、KH Coderに関する詳細のマニュアルは、ヘルプのなかのマニュアル(PDF)をクリックするとみられます。
KH Coderを立ち上げるたびに、使うデータを前処理する必要があります。
面倒ですが、秒単位の短時間で終わるので、仕方がないと思って毎回前処理を実行してください。
まず、プロジェクト、新規と続けてクリックします。すると、新規プロジェクトの画面が立ち上がります。
新規プロジェクトの画面が立ち上がったら、参照をクリックして、これから使うデスクトップ等に保存したテキストデータ(04_201125_text_A~C_NPS.xlsxなど)を選択します。
分析対象とする列が分析したい記述が書かれている列の1行目に書かれているNPSの理由になっていることを確認し、言語が日本語であることを確認したら、OKをクリックします。
すると、現在のプロジェクトの欄に分析対象のファイル名と分析対象の列の一番目の行に書かれたタイトルが表示されます。
これで、データの選択は終了です。
次に前処理を実行します。
前処理(R)、前処理の実行を続けてクリックします。
時間がかかるけど実行するのかと問われますが、これをやらなければ始められないので、OKをクリックします。
8秒で前処理が終了しました。
小説を一冊分析するわけではないので、大した時間はかかりません。
前処理が終了すると、総語数などがデータの内容が表示されます。
各部屋のタイプ毎によく出てくる言葉をピックアップしていってみます。
頻出語をピックアップすることで、それぞれの部屋に対してどのような印象を持っているのかざっくりと把握することができます。
まずは、ツール、外部変数と見出しと続けてクリックします。
外部変数と見出しの画面が出てきます。
左側の変数リストは部屋タイプを選択します。
右側の値とラベルは、下方の特徴語で一覧(Excel形式)を選択します。
すると、A~Iまでの部屋のタイプごとの頻出語(上位10位)が表示されます。
また、頻出語の右に書かれている数値(.255=0.255など)はJaccard類似性尺度という値で、およそ0.2以上の場合に特に関連が強いとされています。
「Aの部屋とBの部屋の印象は似ている」のような、部屋のタイプ毎の印象に類似性があるのか確認します。
ツール、抽出語、対応分析を順にクリックします。
抽出語・対応分析:オプションの画面が立ち上がります。
右側の分析に使用するデータ表の中の頻出語×外部変数の欄で部屋タイプを選択してOKをクリックします。
少し待つと、以下のような図が表示されます。
原点の座標の(0,0)が最も特徴の無い点で、そこから離れるほど特徴が強いことを示しています。
オレンジの四角が部屋のタイプで、〇が頻出語です。〇の大きさはその語の頻度です。
オレンジの四角で示された部屋のタイプのある方向にある語で、原点から遠いほど、その部屋の特徴を示していると言えます。
PPTなどで、頻出語と印象の類似性の確認結果をまとめてみます。
ここまでで例として分析してきたのは、A~Iの各リビングを友人や家族に薦める理由(NPS)の理由についての自由記述です。
このほかにも、リビングのリラックスのしやすさ、勉強部屋のNPSの理由、勉強部屋の集中のしやすさ、の3つのデータがあります。
合計4つのデータについて、PPTにまとめてみてください。