Search this site
Embedded Files
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
  • More
    • Home
    • Courses
    • Contact

English  ❯

レッスン 1   ❮   レッスン一覧    ❮    トップ

1.1  データフレーム

1.2  データ型変換

1.3  行の選択

❯  1.4  列の選択

⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺

推定完了時間
❲▹❳  動画   9m21s
☷  コード資料   5m

1つの列を選択する

列「director_name」をシリーズとして取得するには、その列名を文字列としてインデックス演算子に渡し、データのシリーズを選択します。

また、ドット記法を使って同じ動作を行うこともできます。

movie.director_name

右の画像をよく見て、シリーズの構造を覚えましょう。

最後に、type()を使って出力を確認します。シリーズ型になっていることを確かめてください。

リストで複数の列を選択する

インデックス演算子に目的の列のリストを渡して、映画のデータセットのいくつかの列を選択します。DataFrameの1つの列を選択する必要がある場合があります。これは、単一要素のリストをインデックス演算子に渡すことで実現できます。

> 長いリストをインデックス演算子の中に渡すと、読みやすさに問題が生じることがあります。この問題を解決するために、最初にすべての列名をリスト変数に保存しておくとよいでしょう。cols = ['actor_1_name', 'actor_2_name', 'actor_3_name', 'director_name']movie_actor_director = movie[cols]

列の種類で選択する

また、特定のデータタイプを選択することもできます。 .value_counts()メソッドを使うと、特定のデータ型ごとに列の数を確認できます。select_dtypesメソッドを使用すると、整数列のみを選択できます。すべての数値列を選択したい場合は、文字列「number」をincludeパラメータに渡します。

> すべての整数および浮動小数点数はデフォルトで64ビットであるため、文字列、int、またはfloatを使用するだけで選択できます。サイズに関係なくすべての整数と浮動小数点を選択したい場合は、文字列番号を使用します。

likeとregexを使った列のフィルタリング

列を選択する別の方法として、フィルターメソッドがあります。このメソッドは柔軟性があり、どのパラメータを使用するかによって列名(またはインデックスラベル)を検索します。ここでは、likeパラメータを使用して、「fb」という正確な文字列を含むすべての列名を検索します。

filterメソッドでは、regexパラメータを使って、正規表現で列を検索することができます。ここでは、列名のどこかに数字が含まれているすべての列を検索しています。

> filterメソッドには、正確な列名のリストを受け取るitemsというパラメータがあります。これはインデックス演算子とほぼ同じですが、列名と一致しない文字列があってもKeyErrorは発生しません。例えば、movie.filter(items=['actor_1_name', 'asdf'])はエラーなく実行され、1列のDataFrameを返します。

.locおよび.ilocによる列および行の選択 

行と列を選択する一般的なフォームは、以下のコードのようになります。

df.iloc[rows, columns]
df.loc[rows, columns]

ここでは、スライス記法で最初の数行と最初の数列を選択します。

2列のすべての行を選択

2つの異なる列のすべての行を選択するには、例のようにスライス表記を使用します。

一部の列の一部の行を選択

この例では、バラバラの行と列を選択しています。

©2023. All rights reserved.  Samy Baladram,
Graduate Program in Data Science - GSIS - Tohoku University
Google Sites
Report abuse
Page details
Page updated
Google Sites
Report abuse