まず、pandasライブラリをインポートするところから始めます。この講義を通して、データを理解するのに役立つ数多くのpandasのメソッドを勉強します。
read_csv関数を使ってmovie.csvデータセットを読み込み、headメソッドで最初の5行を表示します。
それでは、表示された表の用語を見てみましょう。
インデックスラベル インデックスの個々のメンバー
カラム名(列名) 列の個々のメンバー
インデックス すべてのインデックスラベルの一覧
カラム(列) すべての列名の一覧
値 列やインデックス以外のデータ
NaN (not a number) 欠損値
... 列数が表示制限を超えているため、一部の列は省略
DataFrameの属性にはindex、columns、valuesがあり、それぞれを変数に割り当てることができます。ここでは、それらをすべてf-stringで表示してみます。
メソッドtypeを使って、それぞれのデータフレームの中身の型を確認することができます。型の名前は、出力の最後のドットに続く単語です。
これについては、次のレッスンで詳しく説明します。
なお、valuesメソッドは、NumPyのn次元配列:ndarrayを返します。
pandasのほとんどはndarrayに大きく依存しています。これは、numpyライブラリで使用される基本的な配列です。他の多くのオブジェクトが構築されるpandasの基本オブジェクトとも言えます。
valuesメソッドは、データフレームをNumPy配列に変換することができます。後のセクションでは、NumPy配列を使用します。
新しいデータについて、次に行うべきことは、そのデータの大きさを確認することです。
shapeは、行と列の数を返します。
sizeは、エントリー数(行×列)を表します。
ndimはデータの次元を表します(この例では2次元の表なので2となります)
lenは行の数を表します。
映画のデータセットを読み込んで、インデックスを映画のタイトルにして意味を持たせます。データフレームのrenameメソッドは、古い値と新しい値をマッピングする辞書を受け取ります。行用のものと列用のものを作成しましょう。
辞書をrenameメソッドに渡して、結果を新しい変数に代入します。
インデックスやカラムのラベルの名前を変更するには、renameメソッドが便利です。辞書を使う以外にも、upper、lower、titleなどの文字列strメソッドを使うこともできます。