시간: 1교시 (08:30-10:30) - 2교시 (11:00-13:00)
강사: 신효필·이상아 (서울대 언어학과)
개요:
본 강좌에서는 컴퓨터언어학 및 자연언어처리의 중심 개념인 언어 모델링(language modeling)을 소개한다. 언어 모델링은 대규모 말뭉치에서 개별 단어들의 인접 단어들과의 분포적 특성을 기반으로 하여 단어의 의미, 단어 간의 관계 등을 포함한 다양한 층위의 지식을 포착하고자 하는 것이다. 이러한 언어 지식은 n-gram, 단어 임베딩(word embedding), 문맥 정보가 반영된 임베딩(문장 임베딩) 등을 통해 자질(feature)의 형태로 인코딩된다. 강의는 크게 세 파트로 나누어 (1) 확률 기반의 언어 모델링 (2) 인공신경망 기반의 언어 모델링 (3) 트랜스포머 기반의 언어 모델링을 다루며, 다음 단어나 빈 곳의 단어를 예측하는 방식으로 이루어지는 언어 모델링이 각각의 방법에서 어떤 특징이 있는지 그리고 어떻게 언어적 특징이 학습이 되는지 논의하고, 이를 언어학 연구에 활용하는 방법에 대해서도 살펴보도록 한다. 회차별 강의 주제는 다음과 같다.
- 1회차: 확률 기반 언어 모델링 1: n-gram
- 2회차: 확률 기반 언어 모델링 2: entropy, cross-entropy
- 3회차: 벡터 의미론과 단어 임베딩: Word2Vec
- 4회차: 인공신경망 기반 언어 모델링: RNN, LSTM, Encoder-Decoder
- 5회차: 트랜스포머 기반 언어 모델링 1: BERT, GPT
- 6회차: 트랜스포머 기반 언어 모델링 2: 언어학 연구에 활용
통섭: 언어학, 물리학, 그리고 공학
시간: 2교시 (11:00-13:00)
강사: 남호성 (고려대 영어영문학과)
개요:
자연의 일부로서 존재하는 인간의 언어를 연구함에 있어 자연의 법칙을 탐구하는 물리학에 대한 이해는 필수적인 것처럼 보인다. 이러한 잠재적 중요성에도 불구하고, 물리학과 언어학 사이의 거리는 상당히 크게 느껴져왔으나, C.P. Snow는 저서 "The Two Cultures"에서 자연과학과 인문학의 이해와 소통이 문명 발전에 꼭 필요하다고 강조한 바 있다. 본 강좌는 이 같은 통섭적 관점에서 뉴턴 역학의 미분방정식을 통해 조음기관의 움직임을, 열역학을 통해 언어의 확률적이고 통계적인 측면을, 그리고 양자역학을 통해 빛과 소리의 유사성을 이해하는 등의 통합적 접근(E. O. Wilson의 "Consilience")을 제시하고자 한다. 나아가 언어를 처리함에 있어서 공학적 접근, 즉, 디지털 신호처리 및 인공지능 등이 어떻게 물리학과 언어학을 매개하고 있는지 탐색한다. 구체적인 강의 주제는 다음과 같다.
1. 고전역학과 언어: 모든 움직임의 원리가 되는 뉴튼의 운동방정식(미분방정식)을 소개하고, 미분방정식의 파라미터가 어떻게 운동의 패턴을 결정짓는지 점화식을 통해 이해한다. 수강 생들은 운동으로서의 조음이 미분방정식 그 자체이며, 결국 음운론의 음소가 된다는 것과 볼츠만의 열역학 제 2 법칙으로 단어의 연쇄인 언어 행위를 이해할 수 있을 것이다.
2. 양자역학 속의 빛과 소리: 파동함수를 통하여 빛과 소리의 원리에 대해 이해한다. 이를 위 해 수소의 선스펙트럼과 보어의 원자모델을 통하여 양자역학의 기초를 소개하고, 보어의 원자모델을 기반으로 전자의 정상파와 소리의 정상파 (배음과 포먼트)의 유사성을 알아보 며, 하이젠베르크의 불확정성을 음성의 스펙스럼 속에서 찾아본다.
3. 디지털 신호처리와 인공지능: 스펙트로그램의 수학적 원리인 푸리에 변환을 이해한다. 이를 위해 먼저 신호처리의 핵심인 디지털 필터 (FIR, IIR)를 소개하고, 강도와 피치 알고리즘인 RMS와 auto correlation을 각각 이해한다. 마지막으로 딥러닝의 원리를 소개하고, 이를 아인슈타인의 장방정식 속 텐서 개념과 연결해 본다.
빅데이터 의미화용론
시간: 3교시 (14:00-16:00)
강사: 윤수원 (서울시립대 영어영문학과)
개요:
본 강좌는 의미-화용적 현상의 빅데이터 분석에 관심 있는 인문학도를 위한 입문 강의이다. 빅데이터 분석 경험이 없는 참가자들에게 어떻게 특정 주제의 언어학 연구에서 다양한 데이터 분석 툴이 이용될 수 있는지 기초부터 소개하는 것이 강좌의 목적이다. 본 강좌에서는 1) 비정형 텍스트데이터 분석을 위한 기본 언어학개념에 대한 이해와 더불어 2) 의미 화용론 연구의 이론적인 개념과 논의 그리고 3) 다양한 텍스트 마이닝 기법과 시각화 툴의 기본적인 사용법과 활용 예시를 소개할 계획이다. 이를 통해 언어의 미묘한 뉘앙스와 용법 차이를 계량화하기 위한 빅데이터 분석능력과 융합적인 연구능력을 함양할 기회를 제공할 것으로 기대한다. 회차별로 다룰 주제는 다음과 같다.
- 1회: 빅데이터와 언어학개념: POS tagging, lemma, n-gram, collocation, register, spoken/written data
- 2회: 의미화용연구: 감성어 이론 vs. 빅데이터분석: Corpus, Big Data Visualization,
Semantic Network
- 3회: 빅데이터 통계분석: 문학작품과 언어실험 통계분석: Linear regressions using R
언어와 통계
시간: 3교시 (14:00-16:00) - 4교시 (16:30-18:30)
강사: 홍정하 (서강대 국제지역문화원)
개요:
본 강좌는 언어 연구를 위한 기초 통계 개념 및 기법, 그리고 몇 가지 중급 통계 기법을 소개하는 한편, 실험언어학 및 코퍼스언어학 예제를 중심으로 프로그래밍 언어 R을 이용한 분석 방법을 소개한다. 1일차(1~2회차)는 통계 및 R 입문자를 위한 강의로 R 기본 사용법과 기초 통계 개념 소개를 목표로 하며, 2일차(3~4회차)는 기초 통계 기법을, 3일차(5~6회차)는 실험언어학 및 코퍼스언어학에서 활용할 수 있는 몇 가지 중급 통계 기법을 다룬다.
- 1회차: R 기본 사용법과 기술 통계
- 2회차: 가설 검정과 효과 크기 (effect size)
- 3회차: t-test, One-sample ANOVA
- 4회차: 상관분석, Chi-squared test
- 5회차: Two-sample ANOVA, Mixed-Effects Model
- 6회차: 대응분석 (correspondence analysis),
다차원척도법 (multidimensional scaling)