❯ 3.3 離散化
⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺
推定完了時間
❲▹❳ 動画 8m4s
☷ コード資料 5m
ある調査対象者のデータがあって、その人たちを離散的な年齢のバケットに分けたいとします。
18歳から25歳、26歳から35歳、36歳から60歳、60歳以上というビンに分けてみましょう。そのためには、pandasの関数であるcutを使う必要があります。
このCategoricalオブジェクトには、個別のカテゴリー名を指定したcategories配列と、codes属性にある年齢データのラベルが含まれています。
また、reset_indexやset_indexを使ってラベルを置き換えることもできます。
明示的なビンの端ではなく、カットするビンの数を整数で渡すと、データの最小値と最大値に基づいて、均一なサイズのビンを計算してくれます。
cutとよく似ている関数qcutは、サンプルの定量性に基づいてデータをビン分けします。qcutはサンプルの定量値を代わりに使用するので、定義上、ほぼ等しいサイズのビンが得られます。
cutと同様に、定量値を指定することができます。