2023 계 모각소 

전업캐글러 활동내용 및 발표자료

<팀원>

소프트웨어학과 강준현

e-비즈니스학과 김지수

소프트웨어학과 육세현

수학과 이건희


<팀원별 활동내용>

강준현

현재 데이콘에서 대회를 두개 진행하였다.

데이터 전처리, 분석 등 다양하게 공부해야할 것들에 대해 느끼게 되면서 무엇을 공부해야 하는지 알게 되었다.

특히, 데이터 전처리에도 다양한 분석이 필요하고 방법론이 필요하다는 것을 깨닫고, 정규화, 피처 생성, 표준화 등등 다양한 방법에 대해 공부하였다.

automl도 다양하게 사용해 보았다.

김지수

책에서 제공되는 이론 및 예제코드 학습을 통해 머신러닝의 이론 전반을 학습했다.

크게 분류,예측, 군집화, 추천, 차원축소, 텍스트 분석으로 나눠 공부했다. 각 섹션에 해당하는 알고리즘 및 해당 파라미터를 학습했다.

공부하기 전에는 단순히 단어 자체만을 접해 헷갈렸다면, 공부한 이후에는 앙상블의 종류에는 보팅 ,배깅 ,부스팅이 있고 

이를 활용한 알고리즘이 어떤 것인지 배워 프로세스등을 체계적으로 이해할 수 있었다.

이론공부를 하며 타이타닉 생존자 예측, 보스턴 집값예측과 같은 기본 데이콘 대회에 참가해 실습을 하며 연습했다.

육세현

머신러닝의 가장 기초가 되는 binary classfication 문제인 캐글 대회의 타이타닉 생존자예측 문제를 풀며, 기본적인 머신러닝 툴 사용법과, 개념을 익힘으로써 시작하였다.

이후 발전된 regression 문제인 데이콘의 집값에측 regression 문제를 풀며, 좀 더 발전된 머신러닝 모델을 사용하였다.

이후 시계열 예측문제가 같이 포함되어 있는, 풍력 발전된 예측을 도전해보며, 더 고급화된 데이터 시각화, 데이터 전처리 능력을 길렀다. 

gpt를 이용해 특성 추출을 하는 방법까지 알아냈다.

마지막으로 동일한 문제인 시계열 예측과 관련된 문제, 수요예측 문제를 도전하고 있다.

이건희

팀원들과 데이콘 베이직 대회 참여 및 캐글 머신러닝 튜토리얼을 통해 머신러닝에 대한 기초지식을 쌓고 좀 더 난이도 있는 데이콘의 “풍속 예측” 경진대회에 참여해 

데이터 전처리에 대해서 공부하였다.

이를 통해 본격적으로 주식 예측 모델을 만들기 위해 feautre로 사용될 지표들에 대해 공부하였고, 각 지표들간에 조합을 고안하였다.

추가로 실시간으로 지표 데이터들을 업데이트하기 위해 파이썬을 사용한 웹스크래핑도 공부하고 있다.


<팀원별 최종성과>

강준현

가장 마지막 데이콘 대회 "전력 사용량 예측"에서 1954명중 167등을 유지중이고, 

첫 대회에서는 하위권을 기록하다가 점점 실력이 늘어서 마지막 대회에서 상위권에 진입할 실력을 쌓게 되었다.

김지수

최종적으로 배운 이론을 활용해 미래에셋 빅데이터 페스티벌에 참가해 “리더보드 기반 고객 유형에 맞는 주식 추천 서비스 “ 를 기획했다. 

이 과정에서 시계열 데이터 전처리 방법과 실서비스에 머신러닝을 활용하는 과정을 학습할 수 있었다.

육세현

머신러닝의 개념과 활용법에 대해 이해하였으며, 특히 숫자형데이터에 관한 regression 모델과,class 분류모델에 대해 더 명확히 이해하였다. 

또 전처리과정또한 나름의 방식으로 자동화 시키는 툴들에 대한 사용법을 배웠고, 어떤 데이터 종류이든지 처리할 수 있는 힘을 길렀다. 

또 시계열데이터에 대한 분석과 그와 관련된 개념들을 배웠으며, 배운지식들을 통해, 데이콘과 같은 머신러닝대회에 도전할 수 있는 경험을 가지게 되었다.

이건희

주식 예측에 필요한 지표들에 대한 공부를 끝마쳤고, 

각 지표들의 실제로 주식에 얼마나 영향을 미치는지 모델을 통해 학습중에 있으며 이미 몇몇 지표들을 꽤나 상관관계가 있다는 결과값을 도출했다. 

이 것들을 통해 각 지표별로 차등을 주어 가중치 값을 정하고 있다.

 

<팀원별 향후계획>

강준현

인공지능 자체보다 데이터 전처리 및 분석에 대해 좀 더 공부를 해볼 생각이다.

김지수

머신러닝의 전반적인 이론을 학습했으므로 데이콘으로 실전감각을 키우며 다양한 공모전에 참가해 수상을 하고 싶다.

육세현

머신러닝 대회를 통해 여러가지 문제를 해결하며, 모델 사용능력과 데이터 전처리에 대한 이해 등은 높아졌지만, 

직관적으로 어떤 모델이 왜 좋은 성능을 발휘하는가에 대해 직관적인 이해를 하기에 수학적인 능력과 데이터 분포에 대한 지식이 부족하다는 것이 느껴졋다. 

그리고 이미 만들어져았는 모델의 툴을 이용하다보니 이것이 성능을 개발하기에, 한계가 있음을 느겼다. 따라서 좀 더 깊은 공부가 필요함이 느껴졌고, 

전공 책이나 수학을 공부하며, 다른 머신러닝 대회를 꾸준히 도전해봐야겠다는 목표를 가졌다.

이건희

먼저 주식 지표에 대한 학습을 끝마치고 상승주들과 테마주들의 차트 이미지를 이미지 학습 시킨 모델을 통해 

비슷한 차트 양상의 주식의 주가를 예측해봐서 차트 분석도 유의미한 분석인지 확인해볼 것이다. 

더하여 완성된 예측 모델들을 통해 10년 단위의 데이터를 통해 주식시장의 초기, 중기, 후기, 말기 시기별 성능을 확인해 

각 시기에 맞춰 모델 파라미터를 조정하여 성능향상을 목표로 할 것이다.


<발표자료>