Decision tree1


  1. 요구사항

본인이 구현한 함수를 이용해 다음 문제를 풀어주세요.

1) 변수 income의 이진분류 결과를 보여주세요

2) 분류를 하는데 가장 중요한 변수를 선정하고, 해당 변수의 gini index를 제시해주세요.

3) 문제 2에서 제시한 feature로 dataframe을 split 하고, 나눠진 2개의 dataframe에서 각각 다 음으로 중요한 변수를 선정하고 해당 변수의 gini index를 제시해주세요.

(변수나 flow는 변경해도 무관합니다. 결과만 똑같이 나오면 됩니다.)

** 주의사항: 이 데이터셋 뿐만 아니라 변수의 class가 더 많은 데이터에도 상관없이 적용 가능하도록 구현해주세요. 변수의 class 가 3개를 넘는 경우 모든 이진 분류의 경우의 수를 따져보아야 합니다.

2. 우수 과제 선정 이유

  • 코드에 달린 주석들과, 문제에 대한 답안들이 깔끔하게 출력될 수 있도록 구현해주셨습니다.

3. 제출 과제 (14기 김윤수님)