Search this site
Embedded Files
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
  • More
    • Home
    • Courses
    • Contact

English  ❯

レッスン 1   ❮   レッスン一覧    ❮    トップ

❯  1.1  データフレーム

1.2  データ型変換

1.3  行の選択

1.4  列の選択

⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺
推定完了時間
❲▹❳  動画   7m33s
☷  コード資料   5m
✑  練習 1.1 (G Colab)   15m

まず、pandasライブラリをインポートするところから始めます。この講義を通して、データを理解するのに役立つ数多くのpandasのメソッドを勉強します。

ファイルの読み込み

read_csv関数を使ってmovie.csvデータセットを読み込み、headメソッドで最初の5行を表示します。

それでは、表示された表の用語を見てみましょう。

インデックスラベル インデックスの個々のメンバー

カラム名(列名) 列の個々のメンバー

インデックス すべてのインデックスラベルの一覧

カラム(列) すべての列名の一覧

値 列やインデックス以外のデータ

NaN (not a number) 欠損値

... 列数が表示制限を超えているため、一部の列は省略

> headメソッドは、表示する行数を指定するnという1つのパラメータを受け取ります。同様に、tailメソッドは、最後のn行を返します。

インデックスとカラムの確認

DataFrameの属性にはindex、columns、valuesがあり、それぞれを変数に割り当てることができます。ここでは、それらをすべてf-stringで表示してみます。

データ型の確認

メソッドtypeを使って、それぞれのデータフレームの中身の型を確認することができます。型の名前は、出力の最後のドットに続く単語です。

これについては、次のレッスンで詳しく説明します。

なお、valuesメソッドは、NumPyのn次元配列:ndarrayを返します。

PandasのオブジェクトをNumPyの配列に変換する

pandasのほとんどはndarrayに大きく依存しています。これは、numpyライブラリで使用される基本的な配列です。他の多くのオブジェクトが構築されるpandasの基本オブジェクトとも言えます。

valuesメソッドは、データフレームをNumPy配列に変換することができます。後のセクションでは、NumPy配列を使用します。

データの次元を確認する

新しいデータについて、次に行うべきことは、そのデータの大きさを確認することです。

shapeは、行と列の数を返します。

sizeは、エントリー数(行×列)を表します。

ndimはデータの次元を表します(この例では2次元の表なので2となります)

lenは行の数を表します。

辞書を使ってインデックスとカラムの名前を変更する

映画のデータセットを読み込んで、インデックスを映画のタイトルにして意味を持たせます。データフレームのrenameメソッドは、古い値と新しい値をマッピングする辞書を受け取ります。行用のものと列用のものを作成しましょう。

辞書をrenameメソッドに渡して、結果を新しい変数に代入します。

インデックスやカラムの形式を変更する

インデックスやカラムのラベルの名前を変更するには、renameメソッドが便利です。辞書を使う以外にも、upper、lower、titleなどの文字列strメソッドを使うこともできます。

©2023. All rights reserved.  Samy Baladram,
Graduate Program in Data Science - GSIS - Tohoku University
Google Sites
Report abuse
Page details
Page updated
Google Sites
Report abuse