Course website : 데이터마이닝 (숙명여대 통계학과 2020-2)

중요 공지사항 (Latest update : 10/25)

  • (1) 9/2 오리엔테이션 포함, 모든 정규강의 (이론/실습) 녹화강의로 제공

    • + 격주 수요일 정규 수업시간에 실시간 수업 운영

  • (2) 강의계획서 대비 평가계획 변경 (안)

    • 중간/기말 오프라인 시험 --> 중간/기말 대체과제 평가

    • 과제 비중 확대 (35점 -> 45점) 및 중간/기말 비중 축소 (55점 -> 45점)

  • (3) 의사소통 및 질문답변 플랫폼으로 슬랙(업무용 메신저) 활용합니다. 이메일로 배포된 링크를 통하여 가입 가능합니다.

  • (4) 숙제 조 편성 관련, 오리엔테이션 슬라이드 참조하여 주세요.

  • (5) 저장용량 문제로, 스노보드에는 최신 수업만 저장됩니다. 예전 수업들은 유튜브로 업로드 후 본 사이트에서 보관합니다.

일반 정보

  • Course overview

    • 데이터마이닝은 대규모의 데이터셋에서 수리적 알고리즘으로 패턴을 검출하여 인사이트를 추출하는 프로세스를 통칭한다. 데이터마이닝은 이상탐지, 추천, 예측, 분류 등 중요한 비즈니스 문제에 응용되어 왔다. 본 강의는 전필 과목을 모두 이수하고 통계학 심화전공에 관심있는 3-4학년 수준에서 (1) 데이터마이닝에 사용되는 주요 기계학습 방법론들의 원리를 소개하고 (2) 오픈소스 소프트웨어(R)을 활용하여 기법들을 실습한다. 강의 전반부에서는 지도학습 (로지스틱 회귀, k-최근접이웃, 나이브 베이즈, 스플라인, 나무, 앙상블, 랜덤 포레스트, 그래디언트 부스팅) 및 기계학습 기초이론 (성능 지표, 데이터셋 분할법, 편향-분산의 상충)을 다루며, 후반부에서는 비지도학습(주성분분석, 연관규칙, 협업필터링, 군집분석)을 학습한다.

    • 본 수업은 1학기 <통계적기계학습>의 선수과목입니다. <통계적기계학습>에서는 기계학습 기초지식을 전제하고 딥러닝 기반의 기계학습만 다루므로, 본 과목을 이수하지 않을 경우 어려움을 겪을 수 있습니다.

  • Overall goals

    • 주요 데이터마이닝 방법론 원리의 정성적/정량적 이해와 구현

  • 요구되는 선수지식 및 경험

    • 필수: 1-2학년 전필 과목 모두(통계수학 1/2, 수리통계학 1/2, 회귀분석입문, 통계프로그래밍)

    • 권장: 통계적 프로그래밍 및 방법론 과목들 (특히 통계계산, 다변량자료분석). 다변량자료분석 미수강생은 이번학기 병행수강 권장

    • R 반복문, 제어문, 함수작성, 클래스, 파일 입출력 등의 기초지식을 전제하고 수업이 진행됩니다.

  • 원활한 실습을 위하여 PC 개발환경을 점검하시기 바랍니다.

    • 최소 하드웨어 사양 : Intel Core i3급 CPU, 4GB RAM, 하드디스크 여유공간 10GB

    • 권장 하드웨어 사양 : Intel Core i5급 CPU, 8GB RAM, 하드디스크 여유공간 25GB 혹은 그 이상

    • 운영체제 : Windows 10 / OS X 10.14 / Ubuntu 18.04 이상 (실습강의는 Win 10 기준으로 진행)

    • R (v4.0 이상) 설치

    • 주의 : 환경 미비로 인한 과제수행의 어려움에 대하여 운영진은 별도 지원책을 마련하지 않습니다.

강의 운영

  • 강의 시간 : 월, 수 1:30pm - 2:45pm

  • 강의실 : [대면] 사회교육관 514호 // [비대면] 실시간강의는 Zoom 746-487-4094, 녹화강의는 SnowBoard 업로드

  • 강의 방법 (가안) : 대면 및 실시간 위주 + 비정기적 녹화강의

  • 평가 : 과제 35점 + 시험 55점 + 가산점 슬롯 10점

    • 과제 : 4-6회

      • 교재 연습문제 풀이 위주 (답안은 수기작성 혹은 코딩)

      • 과제 제출기한은 고지된 날짜의 23:59까지, 이후 제출은 1일당 25%씩 감점

      • 3인 1조 제출 원칙

        • 조 편성 기한: 수강신청 정정기간 마지막날까지 (9/7 월 23:59), TA에게 등록

        • 조 편성은 전적으로 학생 자율이며, 강좌 운영진은 따로 팀편성을 주선하지 않습니다.

    • 시험 : 중간 25점 + 기말 30점, 이론/방법론/코드의 이해와 응용

      • 학교 별도 지침이 있기 전까지는 오프라인 시험을 원칙으로 합니다.

      • 시험 일시 및 장소 (변동가능): 강의실 (사회 514), 중간고사는 8주차 월수, 기말고사는 15주차 월수

    • 가산점 슬롯 : 기본 0점 // 타 수강생에게 도움이 되는 행위의 양과 질에 따라 차등 부여 (e.g. 슬랙 질문답변 참여)

    • 출석 : 2회 결석까지는 사유 불필요, 이후 결석 1회당 최종점수에서 차감

    • 사회적 거리두기 2단계 이상 환경에서의 평가계획

      • 중간/기말 오프라인 시험 --> 중간/기말 대체과제 평가

      • 과제 비중 확대 (35점 -> 45점) 및 중간/기말 비중 축소 (55점 -> 45점)

      • 사회적 거리두기 1단계 이하로 회귀시 원안 (오프라인 시험 및 과제 35 + 시험 55) 적용

  • 효율적 운영을 위하여 다음 플랫폼들을 활용합니다.

    • 이메일 : 중요 공지 배포 (스노우보드 및 포탈에서 본인의 이메일 설정을 다시 확인하세요.)

    • 슬랙(Slack) : 실시간 커뮤니케이션 및 질문답변

      • 슬랙은 실시간 의사소통을 편하게 하는 플랫폼입니다. 여러 줄의 타이핑 및 Code formatting, 이미지 삽입, 파일 첨부가 모두 가능합니다.

      • 혼동되는 개념을 명확히 하고 싶을 때, 개념에 질문이 있을 때, 프로젝트 도중에 막힌 부분이 있을 때에는 #질문답변포럼 게시판에 질문을 남겨주세요. (물론 Office hours도 활용하실 수 있습니다.)

        • 사려깊고 건설적인 참여를 적극적으로 장려합니다. 이를 위하여 합리적인 기준 하에 가산점으로 보상합니다. 교강사는 정기적으로 질문을 체크하고 답변을 남기겠지만 학생들의 답변을 먼저 기다릴 예정입니다.

        • 이메일/DM으로 질문이 올 경우에는 민감한/기밀 질문이 아닌 한 슬랙 질문답변포럼 게시판으로 유도합니다.

    • 스노우보드(Snowboard) : 과제물 수거

과목 운영진

교재

  • 주교재

    • [ISLR] James, Witten, Hastie and Tibshirani (2013), Introduction to Statistical Learning (with Applications in R), Springer. [책 홈페이지 및 무료 다운로드]

      • 번역본이 존재하나 원본 강독을 권장합니다. (원본의 영어가 쉽고 간결하게 쓰여 있음, 대부분 기계학습 용어의 한국어 번역이 통일되어 있지 않음)

  • 부교재

*** Zoom 세팅법 (펼치기)

  1. 수강 환경 구축

    • PC (데스크탑 혹은 노트북) --- 스마트폰과 태블릿도 가능하나 비권장

    • 스피커 --- 마이크 기능이 있는 이어폰 권장

    • 초고속 인터넷 --- 유선인터넷 권장

    • 조용한 공간

  2. Zoom (실시간 회의 소프트웨어) 설치