AIMD GPDS Courses - JP 1.1 DataFrame

❯ 1.1 データフレーム

⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺
推定完了時間
❲▹❳ 動画 7m33s
☷ コード資料 5m
✑ 練習 1.1 (G Colab) 15m

まず、pandasライブラリをインポートするところから始めます。この講義を通して、データを理解するのに役立つ数多くのpandasのメソッドを勉強します。

read_csv関数を使ってmovie.csvデータセットを読み込み、headメソッドで最初の5行を表示します。

それでは、表示された表の用語を見てみましょう。

インデックスラベルインデックスの個々のメンバー

カラム名（列名）列の個々のメンバー

インデックスすべてのインデックスラベルの一覧

カラム（列）すべての列名の一覧

値列やインデックス以外のデータ

NaN (not a number) 欠損値

... 列数が表示制限を超えているため、一部の列は省略

> headメソッドは、表示する行数を指定するnという1つのパラメータを受け取ります。同様に、tailメソッドは、最後のn行を返します。

DataFrameの属性にはindex、columns、valuesがあり、それぞれを変数に割り当てることができます。ここでは、それらをすべてf-stringで表示してみます。

メソッドtypeを使って、それぞれのデータフレームの中身の型を確認することができます。型の名前は、出力の最後のドットに続く単語です。

これについては、次のレッスンで詳しく説明します。

なお、valuesメソッドは、NumPyのn次元配列：ndarrayを返します。

pandasのほとんどはndarrayに大きく依存しています。これは、numpyライブラリで使用される基本的な配列です。他の多くのオブジェクトが構築されるpandasの基本オブジェクトとも言えます。

valuesメソッドは、データフレームをNumPy配列に変換することができます。後のセクションでは、NumPy配列を使用します。

新しいデータについて、次に行うべきことは、そのデータの大きさを確認することです。

shapeは、行と列の数を返します。

sizeは、エントリー数（行×列）を表します。

ndimはデータの次元を表します（この例では2次元の表なので2となります)

lenは行の数を表します。

映画のデータセットを読み込んで、インデックスを映画のタイトルにして意味を持たせます。データフレームのrenameメソッドは、古い値と新しい値をマッピングする辞書を受け取ります。行用のものと列用のものを作成しましょう。

辞書をrenameメソッドに渡して、結果を新しい変数に代入します。

インデックスやカラムのラベルの名前を変更するには、renameメソッドが便利です。辞書を使う以外にも、upper、lower、titleなどの文字列strメソッドを使うこともできます。

Page updated

Google Sites

Report abuse