データ入力

データ集約のルール

  • データにエクセル等に集約するときのルールの一例を紹介します。

    • 同じ(あるいは類似の)刺激に対して複数回の試行をおこない,その平均値を用いるような実験の場合には,平均値が入力されると思ってください。

    • このファイルを他のプログラム(R,Python,MATLAB,SPSSなど)に読み込んで,そのまま統計解析ができるような状態が理想です。

    • ここでのデータは,ビックデータではなくスモールデータを想定しています。


大原則

  • 基本的にはどのようなデータでも,行方向にデータの出どころ,列方向に属性を入力します。

    • 人間に関するデータでは,行方向に人間(=参加者番号など),列方向に条件,性別,従属変数などが並びます。

      • 統計デザイン的には,行方向に参加者間要因,列方向に参加者内要因が並ぶことになります。

    • 都道県のデータであれば,都道府県名や番号が行方向に並びます。

    • 順序は後からいくらでもソートできるため,あまり気にしないで大丈夫です。

  • 一枚のシート(一つのファイル,というか一つの形式)に全データが収まることが理想です。

  • エクセルファイル(.xlsx)で保存する場合には,色分け,コメントを付けるなどの工夫をしておきましょう。

    • たとえば,数値(1/0)で男性・女性を入力するような場合には,どちらがどちらなのかをメモしておく必要があります。

    • エクセルでグラフを作るシート/ファイルとは独立させておきます。

  • データを格納するシートは,①セルの結合はしない,②余計な隙間は作らないようにしましょう。

    • csvファイルとしてすぐに読み込める形

  • 論文やレポートに貼り付けるようの表やグラフはローデータとは別のシートで作りましょう。


ヘッダー

  • 基本的に,ヘッダー(一列目)を必ず付けておきましょう。

    • プログラムにおいて文字列を処理しにくい場合には,ヘッダー付きのファイル(エクセル)をまず作成し,それをコピーしたファイルにおいてヘッダーを取るなどの処理をしましょう。


欠損値

  • 欠損値は”NA”などを分かりやすい文字用いましょう(Not Applicable)。

    • プログラムにおいて文字列を処理しにくい場合には9999などのあり得ない数値を用いることもあります。誤って平均しないように外れ値処理はしっかりしましょう。

    • MATLABではNaN(Not a number)も処理可能。

    • 空白は入力ミスなのか何なのかが不明であるため,用いない方がベターです。

入力方向

入力例