データ入力
データ集約のルール
データにエクセル等に集約するときのルールの一例を紹介します。
同じ(あるいは類似の)刺激に対して複数回の試行をおこない,その平均値を用いるような実験の場合には,平均値が入力されると思ってください。
このファイルを他のプログラム(R,Python,MATLAB,SPSSなど)に読み込んで,そのまま統計解析ができるような状態が理想です。
ここでのデータは,ビックデータではなくスモールデータを想定しています。
大原則
基本的にはどのようなデータでも,行方向にデータの出どころ,列方向に属性を入力します。
人間に関するデータでは,行方向に人間(=参加者番号など),列方向に条件,性別,従属変数などが並びます。
統計デザイン的には,行方向に参加者間要因,列方向に参加者内要因が並ぶことになります。
都道県のデータであれば,都道府県名や番号が行方向に並びます。
順序は後からいくらでもソートできるため,あまり気にしないで大丈夫です。
一枚のシート(一つのファイル,というか一つの形式)に全データが収まることが理想です。
エクセルファイル(.xlsx)で保存する場合には,色分け,コメントを付けるなどの工夫をしておきましょう。
たとえば,数値(1/0)で男性・女性を入力するような場合には,どちらがどちらなのかをメモしておく必要があります。
エクセルでグラフを作るシート/ファイルとは独立させておきます。
データを格納するシートは,①セルの結合はしない,②余計な隙間は作らないようにしましょう。
csvファイルとしてすぐに読み込める形
論文やレポートに貼り付けるようの表やグラフはローデータとは別のシートで作りましょう。
ヘッダー
基本的に,ヘッダー(一列目)を必ず付けておきましょう。
プログラムにおいて文字列を処理しにくい場合には,ヘッダー付きのファイル(エクセル)をまず作成し,それをコピーしたファイルにおいてヘッダーを取るなどの処理をしましょう。
欠損値
欠損値は”NA”などを分かりやすい文字用いましょう(Not Applicable)。
プログラムにおいて文字列を処理しにくい場合には9999などのあり得ない数値を用いることもあります。誤って平均しないように外れ値処理はしっかりしましょう。
MATLABではNaN(Not a number)も処理可能。
空白は入力ミスなのか何なのかが不明であるため,用いない方がベターです。
入力方向
入力例