SVM


  1. 요구사항

1.anomaly-detection 데이터셋(출처:캐글)은 해당 결제가 사기인지 아닌지를 판별하는 데이터셋으로, 실습코드와 본인이 지금까지 배운 내용을 활용하여 자유롭게 데이터를 가지고 연습해주시면 됩니다.

2.이 데이터셋은 굉장히 imbalance한 데이터셋입니다. 실제 사기를 치는 사례가 많지 않으므로 사기인 경우가 전체의 0.17%밖에 되지 않습니다. 그래서 그냥 데이터를 트레이닝 시키면 무조건 사기가 아니라고 판별할 가능성이 높습니다.또한, 이 경우 엄청난 데이터 양 때문에 트레이닝 자체가 힘들어질 수도 있습니다. 실제로 이러한 데이터에 대해 트레이닝을 하는 여러 방법들이 있으니 고민해서 구현해주세요.

3. Assignmet_2.ipynb 파일에는 데이터 로드까지 구현되어 있습니다. 이후 부분은 연습을 위해 올려드린 실습코드 등을 참조해서 구현하시면 됩니다. Colab(상당히 좋은 CPU)으로 트레이닝한 경우에도 생각보다 오래 걸렸으니 참고하셔서 과제에 도움 되시길 바랍니다.


2. 우수 과제 선정 이유

  • EDA를 통해 분포를 확인한 점

  • 가장 베이직한 방법인 언더샘플링을 사용하는 이유를 설명한 점

  • confusion matrix로 fraud detection에 맞는 평가지표를 사용한 점

  • 하이퍼 파라미터의 튜닝을 지수적으로 진행한 점

  • 전반적으로 과제를 목적에 부합하게 진행해주신 점

3. 제출 과제 (14기 정재윤님)