Rコード集

研究室で使うデータ処理のために必要なRコード

「データ処理には再現性が必要だ」、という言葉をよく見かけます。これは、エクセルなどでデータをコピーアンドペーストを繰り返していく、「コピペ汚染」があると、「生データがどこにあるのか分からない」、という状況になってしまいます。皆さんもあると思いますが、「○○真.xlsx」とか「本当の××.xlsx」とか「△△改.xlsx」と名前のついたエクセルファイルがフォルダ内に増殖しますよね。そうすると、新しくデータを測定し直した時、計算ミスがある場合などに原因を追求することが困難になります。そもそもどれが本当に必要なファイルなのかが分からなくなります。そんな時には絶望するしかありません。また、統一的なデータ処理をしておかないと、担当者が変わる時にデータの入力規則さえ分からないということが起きがちです。そういう状況をなるべく緩和したいので、研究室で共有するRコードのひな形を置いておきます。色々と考え出したら実際に使う場合には、もう少し丁寧な処理が必要になる場合もありますが、その都度整理していきたいと思います。慣れてきたら、新しい調査や実験などをする時にはデータ整理の方法まで想像できるようになると良いですね。「Rが苦痛で仕方がなく、蕁麻疹が出る」という人も(多分)大丈夫です。所詮は道具ですので、やっていれば慣れます。慣れるまで付き合います。


メタ情報の書式

メタ情報と書くと小難しいですが、とりあえずは場所とか時間とか、データの目印になるような情報と考えてください。基本的な情報を整理しておく方が、後々楽になります。全てのデータに共通する項目は、場所と時期です。

場所(変数名はSite)

調査場所(緑川とか諫早湾とか具体的な地名の頭文字など)と測点名をアンダーバーで繋ぐ。

例:MK_01(緑川の測点01番)、IW_01(諫早湾の01番)


時期(変数名はDate)

日付、月、西暦をハイフンで繋ぐ。 例:01-04-2018(2018年4月1日。一桁の場合にも必ず0をつけるようにしておきましょう。)

具体的なコード:写真かタイトルをクリックするとコードの紹介になります。

注意点とお願い