Search this site
Embedded Files
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
AIMD GPDS Courses
  • Home
  • Courses
  • Contact
  • More
    • Home
    • Courses
    • Contact

English  ❯

レッスン 3   ❮   レッスン一覧    ❮    トップ

3.1  算術演算

3.2  欠損データの処理

❯  3.3  離散化

3.4  統計情報

3.5  フィルタリング

⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺⎺
推定完了時間
❲▹❳  動画   8m4s
☷  コード資料   5m

基本的なデータビニング

ある調査対象者のデータがあって、その人たちを離散的な年齢のバケットに分けたいとします。

18歳から25歳、26歳から35歳、36歳から60歳、60歳以上というビンに分けてみましょう。そのためには、pandasの関数であるcutを使う必要があります。

ビンの分類

このCategoricalオブジェクトには、個別のカテゴリー名を指定したcategories配列と、codes属性にある年齢データのラベルが含まれています。

また、reset_indexやset_indexを使ってラベルを置き換えることもできます。

均一なサイズのビニング

明示的なビンの端ではなく、カットするビンの数を整数で渡すと、データの最小値と最大値に基づいて、均一なサイズのビンを計算してくれます。

四分位値を用いたビニング

cutとよく似ている関数qcutは、サンプルの定量性に基づいてデータをビン分けします。qcutはサンプルの定量値を代わりに使用するので、定義上、ほぼ等しいサイズのビンが得られます。

cutと同様に、定量値を指定することができます。

©2023. All rights reserved.  Samy Baladram,
Graduate Program in Data Science - GSIS - Tohoku University
Google Sites
Report abuse
Page details
Page updated
Google Sites
Report abuse