❯ 1.4 列の選択
⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺
推定完了時間
❲▹❳ 動画 9m21s
☷ コード資料 5m
列「director_name」をシリーズとして取得するには、その列名を文字列としてインデックス演算子に渡し、データのシリーズを選択します。
また、ドット記法を使って同じ動作を行うこともできます。
movie.director_name
右の画像をよく見て、シリーズの構造を覚えましょう。
最後に、type()を使って出力を確認します。シリーズ型になっていることを確かめてください。
インデックス演算子に目的の列のリストを渡して、映画のデータセットのいくつかの列を選択します。DataFrameの1つの列を選択する必要がある場合があります。これは、単一要素のリストをインデックス演算子に渡すことで実現できます。
また、特定のデータタイプを選択することもできます。 .value_counts()メソッドを使うと、特定のデータ型ごとに列の数を確認できます。select_dtypesメソッドを使用すると、整数列のみを選択できます。すべての数値列を選択したい場合は、文字列「number」をincludeパラメータに渡します。
列を選択する別の方法として、フィルターメソッドがあります。このメソッドは柔軟性があり、どのパラメータを使用するかによって列名(またはインデックスラベル)を検索します。ここでは、likeパラメータを使用して、「fb」という正確な文字列を含むすべての列名を検索します。
filterメソッドでは、regexパラメータを使って、正規表現で列を検索することができます。ここでは、列名のどこかに数字が含まれているすべての列を検索しています。
行と列を選択する一般的なフォームは、以下のコードのようになります。
df.iloc[rows, columns]
df.loc[rows, columns]
ここでは、スライス記法で最初の数行と最初の数列を選択します。
2つの異なる列のすべての行を選択するには、例のようにスライス表記を使用します。
この例では、バラバラの行と列を選択しています。