Course website : 데이터마이닝 (숙명여대 통계학과 2020-2)
중요 공지사항 (Latest update : 10/25)
(1) 9/2 오리엔테이션 포함, 모든 정규강의 (이론/실습) 녹화강의로 제공
+ 격주 수요일 정규 수업시간에 실시간 수업 운영
(2) 강의계획서 대비 평가계획 변경 (안)
중간/기말 오프라인 시험 --> 중간/기말 대체과제 평가
과제 비중 확대 (35점 -> 45점) 및 중간/기말 비중 축소 (55점 -> 45점)
(3) 의사소통 및 질문답변 플랫폼으로 슬랙(업무용 메신저) 활용합니다. 이메일로 배포된 링크를 통하여 가입 가능합니다.
(4) 숙제 조 편성 관련, 오리엔테이션 슬라이드 참조하여 주세요.
(5) 저장용량 문제로, 스노보드에는 최신 수업만 저장됩니다. 예전 수업들은 유튜브로 업로드 후 본 사이트에서 보관합니다.
일반 정보
Course overview
데이터마이닝은 대규모의 데이터셋에서 수리적 알고리즘으로 패턴을 검출하여 인사이트를 추출하는 프로세스를 통칭한다. 데이터마이닝은 이상탐지, 추천, 예측, 분류 등 중요한 비즈니스 문제에 응용되어 왔다. 본 강의는 전필 과목을 모두 이수하고 통계학 심화전공에 관심있는 3-4학년 수준에서 (1) 데이터마이닝에 사용되는 주요 기계학습 방법론들의 원리를 소개하고 (2) 오픈소스 소프트웨어(R)을 활용하여 기법들을 실습한다. 강의 전반부에서는 지도학습 (로지스틱 회귀, k-최근접이웃, 나이브 베이즈, 스플라인, 나무, 앙상블, 랜덤 포레스트, 그래디언트 부스팅) 및 기계학습 기초이론 (성능 지표, 데이터셋 분할법, 편향-분산의 상충)을 다루며, 후반부에서는 비지도학습(주성분분석, 연관규칙, 협업필터링, 군집분석)을 학습한다.
본 수업은 1학기 <통계적기계학습>의 선수과목입니다. <통계적기계학습>에서는 기계학습 기초지식을 전제하고 딥러닝 기반의 기계학습만 다루므로, 본 과목을 이수하지 않을 경우 어려움을 겪을 수 있습니다.
Overall goals
주요 데이터마이닝 방법론 원리의 정성적/정량적 이해와 구현
요구되는 선수지식 및 경험
필수: 1-2학년 전필 과목 모두(통계수학 1/2, 수리통계학 1/2, 회귀분석입문, 통계프로그래밍)
권장: 통계적 프로그래밍 및 방법론 과목들 (특히 통계계산, 다변량자료분석). 다변량자료분석 미수강생은 이번학기 병행수강 권장
R 반복문, 제어문, 함수작성, 클래스, 파일 입출력 등의 기초지식을 전제하고 수업이 진행됩니다.
기초가 미진하다 생각하시면 복습을 권장합니다. (e.g. [R 기초 워크샵 강의자료])
원활한 실습을 위하여 PC 개발환경을 점검하시기 바랍니다.
최소 하드웨어 사양 : Intel Core i3급 CPU, 4GB RAM, 하드디스크 여유공간 10GB
권장 하드웨어 사양 : Intel Core i5급 CPU, 8GB RAM, 하드디스크 여유공간 25GB 혹은 그 이상
운영체제 : Windows 10 / OS X 10.14 / Ubuntu 18.04 이상 (실습강의는 Win 10 기준으로 진행)
R (v4.0 이상) 설치
주의 : 환경 미비로 인한 과제수행의 어려움에 대하여 운영진은 별도 지원책을 마련하지 않습니다.
강의 운영
강의 시간 : 월, 수 1:30pm - 2:45pm
강의실 : [대면] 사회교육관 514호 // [비대면] 실시간강의는 Zoom 746-487-4094, 녹화강의는 SnowBoard 업로드
강의 방법 (가안) : 대면 및 실시간 위주 + 비정기적 녹화강의
평가 : 과제 35점 + 시험 55점 + 가산점 슬롯 10점
과제 : 4-6회
교재 연습문제 풀이 위주 (답안은 수기작성 혹은 코딩)
과제 제출기한은 고지된 날짜의 23:59까지, 이후 제출은 1일당 25%씩 감점
3인 1조 제출 원칙
조 편성 기한: 수강신청 정정기간 마지막날까지 (9/7 월 23:59), TA에게 등록
조 편성은 전적으로 학생 자율이며, 강좌 운영진은 따로 팀편성을 주선하지 않습니다.
시험 : 중간 25점 + 기말 30점, 이론/방법론/코드의 이해와 응용
학교 별도 지침이 있기 전까지는 오프라인 시험을 원칙으로 합니다.
시험 일시 및 장소 (변동가능): 강의실 (사회 514), 중간고사는 8주차 월수, 기말고사는 15주차 월수
가산점 슬롯 : 기본 0점 // 타 수강생에게 도움이 되는 행위의 양과 질에 따라 차등 부여 (e.g. 슬랙 질문답변 참여)
출석 : 2회 결석까지는 사유 불필요, 이후 결석 1회당 최종점수에서 차감
사회적 거리두기 2단계 이상 환경에서의 평가계획
중간/기말 오프라인 시험 --> 중간/기말 대체과제 평가
과제 비중 확대 (35점 -> 45점) 및 중간/기말 비중 축소 (55점 -> 45점)
사회적 거리두기 1단계 이하로 회귀시 원안 (오프라인 시험 및 과제 35 + 시험 55) 적용
효율적 운영을 위하여 다음 플랫폼들을 활용합니다.
이메일 : 중요 공지 배포 (스노우보드 및 포탈에서 본인의 이메일 설정을 다시 확인하세요.)
슬랙(Slack) : 실시간 커뮤니케이션 및 질문답변
슬랙은 실시간 의사소통을 편하게 하는 플랫폼입니다. 여러 줄의 타이핑 및 Code formatting, 이미지 삽입, 파일 첨부가 모두 가능합니다.
혼동되는 개념을 명확히 하고 싶을 때, 개념에 질문이 있을 때, 프로젝트 도중에 막힌 부분이 있을 때에는 #질문답변포럼 게시판에 질문을 남겨주세요. (물론 Office hours도 활용하실 수 있습니다.)
사려깊고 건설적인 참여를 적극적으로 장려합니다. 이를 위하여 합리적인 기준 하에 가산점으로 보상합니다. 교강사는 정기적으로 질문을 체크하고 답변을 남기겠지만 학생들의 답변을 먼저 기다릴 예정입니다.
이메일/DM으로 질문이 올 경우에는 민감한/기밀 질문이 아닌 한 슬랙 질문답변포럼 게시판으로 유도합니다.
스노우보드(Snowboard) : 과제물 수거
과목 운영진
교강사 : 최영근 (숙명여대 통계학과 조교수)
사회교육관 503호 / ygchoi 앳 sm 닷 ac 닷 kr
Office hours (예약자 우선) : 월수 4:30p - 6p, https://ygchoi.youcanbook.me/ 에서 예약, 온/오프라인 모두 가능
강의조교 : 노혜림 (숙명여대 통계학과 석사과정)
사회교육관 513호 / hy2rim 앳 sm 닷 ac 닷 kr
Office hours (예약자 우선) : 월수 3p - 4p, https://hy2rim52.youcanbook.me/ 에서 예약, 온/오프라인 모두 가능
교재
주교재
[ISLR] James, Witten, Hastie and Tibshirani (2013), Introduction to Statistical Learning (with Applications in R), Springer. [책 홈페이지 및 무료 다운로드]
번역본이 존재하나 원본 강독을 권장합니다. (원본의 영어가 쉽고 간결하게 쓰여 있음, 대부분 기계학습 용어의 한국어 번역이 통일되어 있지 않음)
부교재
[DMBA] Shmueli et al. (2017), Data Mining for Business Analytics (R Edition), Wiley. [책 홈페이지]
[ESL] Hastie, Tibshirani and Friedman (2009). The Elements of Statistical Learning, Springer. [책 홈페이지 및 무료 다운로드]
[CASI] Efron and Hastie (2016), Computer Age Statistical Inference, Cambridge University Press. [책 홈페이지 및 무료 다운로드]
Resources
오픈카톡방 질문답변 포럼 : [데이터분석 QnA&네트워킹] [캐글코리아 오픈채팅] [파이썬 처음처럼]
*** Zoom 세팅법 (펼치기)
수강 환경 구축
PC (데스크탑 혹은 노트북) --- 스마트폰과 태블릿도 가능하나 비권장
스피커 --- 마이크 기능이 있는 이어폰 권장
초고속 인터넷 --- 유선인터넷 권장
조용한 공간
Zoom (실시간 회의 소프트웨어) 설치
PC : https://zoom.us 에서 다운로드
스마트폰 (비권장) : App store 혹은 google play store에서 'Zoom cloud meetings' 검색 다운로드
Zoom 설치법/사용법 예시: https://blog.naver.com/nahyun977/221452269106