RStudio 編
なぜR言語か?
R言語は統計処理や計算に強みをもつプログラミング言語
豊富な統計パッケージ
使えたらかっこいい(主観です)
R のインストール
RのDLは、CRAN (Comprehensive R Archive Network) のサイト(http://cran.r-project.org/)を開き、ご自身のパソコンのOS(Windows MAC Linux)を選択してDLし、DLしたソフトウェアをパソコンにインストールします。
RStudioのインストール
RStudioのDLは、https://www.rstudio.com/products/rstudio/download/#downloadから、ご自身のパソコンのOS(Windows MAC Linux)を選択してDLし、DLしたソフトウェアをパソコンにインストールします。
※Rのインストールが先です。
Rコマンダーをインストールしている場合、Windows、日本語環境資料の場合には、使用の際にエラーが出る可能性が高いです。
Rの操作概要
RStudioを起動すると左図のウィンドウが表示される。
ソースペイン:統計のコードを記載する。
コンソールペイン:統計のコードを直接書き込めるが、結果を表示するだけの使い方がよい。コードはソースペインで作成・実行
環境ペイン:作成した変数やコードの履歴などを表示する。また、データのインポートも可能
ファイルペイン:作業フォルダ(Working Directly)の指定、図の表示、ヘルプの表示
R スクリプト
このままスクリプトに以下を記載して実行してみる(# の後はコメントなので計算には反映されない)
1 + 2 # このコードのあとに Ctrl+Enterキーで実行する
2 * 3 # 2✕3
8 / 2 # 8÷2
a <- 5 # a に5を代入 <- 矢印を使う(実際は半角で入力)
日本語 <- 8 # 日本語に8を代入。スペースは無視される。
R コンソール
コンソール画面に以下の結果が表示される(コンソール画面に直接計算式をコードしても計算結果を返してくれる)
> 1+2
[1] 3
> 2*3
[1] 6
> 8/2
[1] 4
> a <- 5
> 日本語 <- 8
新規プロジェクトの作成
「プロジェクト」は行う分析を1つのかたまりとして保持してくれる機能。作業単位(研究の解析)毎に作成するのがよい。
1."New Project"を選択
2."New Directory"を選択
3."New Project"を選択
4.ディレクトリ名を入力(作業フォルダ)
5.新しいウインドウをチェックして"Create Project"を選択
ワーキングディレクトリの設定
ワーキングディレクトリは、PC内にRの関連ファイルがある場所のこと
getwd ( ) で、ディレクトリのパスをコンソールに表示可能
ワーキングディレクトリはファイルペイン(右下)のFileタブ→メニューの「More」 → Set As Working Directory でセットできる
変数のルール
● <- で変数に数値や文字を代入することができる(日本語は非推奨)
● 変数を消したい場合は、rm(変数名)
● 文字列を数字に変換したい場合は、as.numeric(文字列型)で、
→ 変換可能なら数字に変換される。
→ 変換できない場合は、NA(欠損値)へ変換
● ベクトル(配列):同じ型のデータのかたまり c ( )で作成する。
a <- c (1,2,3,4,5) や a <- c("あ","い","う","え","お")
● ベクトルを複数くっつけるとデータフレームになる
データフレーム
一つのデータの塊をRではベクトルと呼ぶ
ID <- c (1,2,3,4,5,6,7) # ベクトルの作成コード
パッケージ
すでに誰かが作ってくれた便利なツール:例えば「tidyverse」など
【パッケージのインストール】
install. Packages ("tidyverse") # " " の中はインストールするパッケージ名
インストールは1回でOK、その後は libraryコマンドで呼び出す(Rで使えるようにする)。
library (tidyverse) # tidiverse というパッケージを呼び出した(使えるようにした)
tidyverse:データサイエンスのための、複数のパッケージをまとめたパッケージ
データインポート:readr tibble
データ加工:dplyr tidyr purr
データ可視化:ggplot2
データのインポート
工程 1 <エクセルで集計・解析したいデータを作成する>
「集計データ」の1行目(項目名)は日本語でもよい(英語推奨)
「集計データ」の欠損地は NA と入力しておく
作成した「集計データ」をCSV形式で保存する(マックの場合はUTF-8形式で保存)
CSVファイル名は任意(例:data_kobe)
工程 2 <R Studioにインポートする>
CSVファイルのデータは任意の場所に作業用フォルダを作成して移動させておく(例:デスクトップに“project A”など)
R Studioを起動する
R Studio (以降 R)のスクリプト画面を表示する(下図)。
工程 3 <R Studioにインポートする>
R Studio のスクリプト画面に以下のコードをコピぺし、コードをドラッグして選択し、Ctrl+Enterで実行(スクリプト画面のRUNでもOK)
x <- read.csv("data_kobe.csv") #data_kobe.csvをRに読み込んで x に格納する。この変数をした以降は、data_kobeが x で読み込める
stwd() # 作業フォルダ確認 (下の「作業フォルダを指定する」を参照)
※ マックだとUTF-8にエンコードしてないとエラーが出る(文字化け)
x #data_kobeのデータがコンソール画面(左下)に表示される
view ( x ) #スクリプト画面に一覧表(データのマトリクス)が表示 される
作業フォルダ(working folder)を指定する
R Studioでは、作業フォルダ(どこのフォルダにファイルがあるか)を設定することで、操作できる
CSVファイルの読み込みでは、作業フォルダの中にファイルを入れておく
コードと実行の仕方
実行させたいコード(プログラム)をスクリプトに記入して、CtrlキーとEnterを同時に押して実行する。
コンソール画面に直接コードできるが、スクリプトは複数行にコードして一気に実行が可能、保存もできる。一度保存したコードは、変数を変えるだけで同じ計算をしてくれる。
変数の指定方法
スクリプトやコンソールで変数を指定するには、読み込んだデータを変数に指定し、その後は指定した変数内の変数パラメタにアクセするには、$マークを使う
例えば、下のエクセルファイルの場合
x <- read.csv("data_kobe.csv")
ageのパラメタを参照したい場合
x$age #xの中のageを表示させるコード → xの中のデータがコンソールに表示される(以下の結果)
---
> x <- read.csv("data_kobe.csv")
> x$age
[1] 19 20 21 22 23
実際の計算コード
サマリー関数
summary(x) # スクリプトにコードして実行すると、以下の結果がコンソーツ画面に表示される。上から順に。最小値・25%タイル、中央値、平均値、75%タイル、最大値
> summary(x)
ID age sex weight hight FIM QOL
Min. :1 Min. :19 Min. :0.0 Min. :50 Min. :150 Min. : 80 Min. :10
1st Qu.:2 1st Qu.:20 1st Qu.:0.0 1st Qu.:60 1st Qu.:160 1st Qu.: 90 1st Qu.:20
Median :3 Median :21 Median :0.0 Median :70 Median :170 Median :100 Median :30
Mean :3 Mean :21 Mean :0.4 Mean :70 Mean :170 Mean :100 Mean :30
3rd Qu.:4 3rd Qu.:22 3rd Qu.:1.0 3rd Qu.:80 3rd Qu.:180 3rd Qu.:110 3rd Qu.:40
Max. :5 Max. :23 Max. :1.0 Max. :90 Max. :190 Max. :120 Max. :50
詳細なサマリー関数
install.packages ( "psych" ) # psychパッケージのインストール
library ( psych ) # psych パッケージの読み込み
describeBy ( x ) # 詳細なサマリーを出力する(グループごとの詳細も出力可能)
> describeBy ( x )
vars n mean sd median trimmed mad min max range skew kurtosis se
ID 1 5 3.0 1.58 3 3.0 1.48 1 5 4 0.00 -1.91 0.71
age 2 5 21.0 1.58 21 21.0 1.48 19 23 4 0.00 -1.91 0.71
sex 3 5 0.4 0.55 0 0.4 0.00 0 1 1 0.29 -2.25 0.24
weight 4 5 70.0 15.81 70 70.0 14.83 50 90 40 0.00 -1.91 7.07
hight 5 5 170.0 15.81 170 170.0 14.83 150 190 40 0.00 -1.91 7.07
FIM 6 5 100.0 15.81 100 100.0 14.83 80 120 40 0.00 -1.91 7.07
QOL 7 5 30.0 15.81 30 30.0 14.83 10 50 40 0.00 -1.91 7.07