1. 한국어 서사 복원 프로젝트의 시작
서사(Narrative)는 “인간 생산자의 행위자성의 체계적 흔적(Riessman, 1993)”으로 정의되며, 이는 인간 개인이 자신의 경험을 해석하고 의미를 부여하는 방식이라 할 수 있습니다. 이러한 관점에서 볼 때 데이터 해석에서 서사적 접근은 전지적 시점에서 행위와 사건을 다루는 것이 아니라 데이터 생산에 참여한 행위자, 즉 서사를 구성하는 화자의 입장에서 이야기를 풀어가는 것을 의미합니다. 이는 데이터에서 추출한 통계적 경향성에만 집중하는 것이 아니라 데이터에 숨겨진 인물의 이야기를 찾아내어 등장인물의 입장에서 해석함으로써 데이터에 숨겨진 이야기를 복원할 수 있게 해줍니다. 서사 복원의 중요성은 다원화된 현대 사회에서 더욱 증가하고 있습니다. 개인의 가치와 정체성이 중요해진 다원화된 사회에서 새로운 사회를 이해하고 문제를 해결하기 위해서는 개인의 삶에 주목하는 것이 필요한데, 개인 삶의 의미에 주목하는 서사를 복원함으로써 의미의 혁신을 이루는 것이 필요합니다(최종렬, 2012).
그러나 서사의 중요성에도 불구하고 기존 텍스트 접근 방식은 서사를 고려하지 않으며, 서사를 포착할 수 있는 텍스트 분석 도구의 개발이 부족한 상태입니다. 이에 클리오사회발전연구소에서는 우리 사회의 구성원들이 생산한 텍스트 데이터에 숨겨진 서사를 복원하여 서사 속에서 사회학적 의미를 추출하는 것을 목표로 “한국어 서사 복원 프로젝트(Korean narrative mining project)”를 진행하고 있습니다. 본 프로젝트에서는 행위자의 관점을 재현하기 위해 문장 내에서 어휘들이 수행하는 의미를 파악하는 의미역 결정(Semantic Role Labeling, 줄여서 SRL) 기술의 발전이 필요함을 제안하며 한국어 텍스트에서 해당 기술을 발전시키고 적용하기 위한 전략을 수립하는 것을 목표로 합니다. 이를 통해 행위자가 부여한 의미를 추출할 수 있는 도구를 개발하여 양적 연구와 질적 연구의 혼합을 통한 보다 입체적인 연구 방법론 수립에 기여할 수 있을 것으로 기대합니다.
2. 한국어 서사 복원 프로젝트의 단계
자연어 처리 관점에서 서사란 “행위주-술어-대상”이라는 삼중항(Triplet)의 모음으로 볼 수 있습니다. 데이터에서 사사를 복원하기 위해서는 가장 먼저 텍스트에서 “행위주-술어-대상”을 추출하는 것이 필요하며, 이는 의미역 결정(SRL) 기술을 통해 수행할 수 있습니다. “의미역”이란 문장 구조에서 다양한 구문이 수행하는 역할이며 문장 내 이러한 의미역을 식별하고 분류하는 계산 언어 작업을 “의미역 결정”으로 부를 수 있습니다. [그림1]에서는 문장에서 의미역을 추출하고 삼중항을 구성하는 예시를 보여줍니다. “술어(Predicate)”는 동작을 설명하는 서술어이며, “행위주(Argument0, 줄여서 ARG0)”는 서술어의 동작주, 행위자, 경험주 등으로도 말할 수 있으며 일반적으로 문장 요소의 주어로 의도성을 가지고 행위하는 의미역을 지칭합니다. “대상(Argument1, 줄여서 ARG1)”은 서술어의 피동작주, 대상 등 목적어와 같이 서술어의 행위나 사건에 영향을 받는 의미역입니다. 문장 내 의미역을 식별한 뒤 이를 (행위주-술어-대상)으로 정리하면 삼중항(Triplet)을 구성할 수 있으며, 삼중항은 행위주와 대상을 점(node)으로 술어는 점을 잇는 선(edge)으로 시각화하여 연결망으로 표현할 수 있습니다.
[그림1] 의미역 추출의 이해
서사의 기본 단위인 삼중항을 추출하기 위해서는 “행위주”, “술어”, “대상”이라는 의미역을 정확히 식별하는 것이 필요합니다. 그러나 현재 삼중항 추출에 사용되는 한국어 의미역 결정 기술은 정확성이 낮고 영어 중심으로 개발되어 있어 한국어 기반의 의미역 결정 기술의 개량이 필요한 시점입니다. 이러한 필요성에서 본 프로젝트는 효과적인 한국어 의미역 결정 모델을 만드는 것을 목표로 합니다. 특히 사회 구성원의 행위 동기를 파악하고 이를 근거로 사회문제를 해결하기 위해 사회과학 특성을 반영한 의미역 결정(SRL) 예측 모델 구축을 시도합니다. [그림2]는 한국어 서사 복원 프로젝트의 단계를 보여줍니다. 본 프로젝트는 CLIO SRL 데이터셋 구축을 통해 SRL 자동 추출 모델을 개발하였으며 성능 평가를 통한 지속적인 데이터셋 개선을 거쳐 최종적으로 SRL 자동 분류 모델을 활용한 한국어 텍스트의 서사 추출을 목표로 합니다. 이와 같은 단계를 통해 서사 속에서 사회학적 의미를 추출하기 위한 한국어 의미역 결정(SRL) 도구의 개발 및 성능 향상을 진행하고 있습니다. 이번에 게시하는 CLIO SRL 데이터셋 ver2도 지난 CLIO SRL 데이터셋 ver1에 훈련용 데이터를 추가하고 성능 개선을 이뤄 업데이트한 버전입니다.
[그림2] 한국어 서사 복원 프로젝트의 단계
3. 한국어 서사 복원 프로젝트의 진행
(1) CLIO SRL 데이터셋 구축
SRL 분류 모델을 만들기 위해서는 자연어 처리가 가능한 사전 훈련 언어 모델에 연구자가 준비한 학습 데이터셋을 입력하여 훈련시키는 것이 필요합니다. 본 프로젝트는 학습 데이터셋을 구성하기 위해 한국학술인용색인(KCI: Korea citation index, 줄여서 KCI)의 사회과학 분야 논문 초록과 사회분야 뉴스기사와 같이 사회과학 영역에 특화된 자료를 수집하였으며, 휴먼코더(Human coder)를 통해 해당 자료에 대한 SRL 작업을 실시하여 학습 데이터셋을 구축했습니다. [그림3]에서는 수집한 자료에 대한 설명을 제시합니다. KCI 논문초록의 경우 한국연구재단이 운영하는 국내 학술지 및 게재논문에 대한 학술정보를 제공하는 사이트인 KCI에서 2019년 1월부터 2023년 6월까지 등재된 논문 중 중분류 분야가 “사회학”, “정치외교학”, “사회과학일반”인 경우 총 11,612편을 크롤링 방식으로 수집하였습니다. 뉴스기사의 경우 동일 기간인 2019년 1월부터 2023년 6월까지 사회분야 뉴스기사(주요 5대 언론사인 조선일보, 동아일보, 한겨례, 경향신문) 총 417,631편의 각 기사 본문 중 첫 문단을 한국언론재단이 운영하는 빅카인즈(Bigkinds)에서 제공받아 사용했습니다. 수집된 자료는 문장 단위로 분류하여 무작위 방식으로 추출한 KCI 논문 초록 1,350문장(사회학 500문장, 정치외교학 500문장, 사회과학일반 350문장), 뉴스기사 500문장 총 1,850문장을 SRL을 위한 학습 데이터셋으로 사용했습니다.
[그림3] CLIO SRL 분류 모델 구축을 위해 수집한 자료
[그림4]와 같이 휴먼코더들은 1,850문장에 대해 SRL 작업을 진행하였으며, 분류 모델을 만들기 위해 언어모델에 학습이 가능한 형태로 전처리 후 학습 데이터셋으로 활용했습니다. 언어모델 학습을 위한 형태의 CLIO SRL 데이터셋과 각 항목에 대한 자세한 설명은 클리오사회발전연구소 Github(클리오사회발전연구소, 2024 https://github.com/clioisds/Narrative_mining)에서 확인하실 수 있습니다.
[그림4] CLIO SRL 데이터셋 구조 예시
CLIO SRL 데이터셋 구축 후 이를 대상으로 단어빈도분석, 워드클라우드, 의미역에 대한 산점도 분석을 통해 학습데이터셋을 검토하고 의미역 결정(SRL)의 유의미성을 살펴보는 시도를 했습니다. [그림5]는 데이터셋 내의 술어(Predicate)에 대한 빈도를 살펴보고 데이터셋에서 자주 등장한 상위 50위 술어에 대해 워드클라우드를 그린 결과입니다. [그림5A] 기사의 경우 “밝히다”, “받다”와 같은 술어가 많이 나타나고 있으며, [그림5B] - [그림5D] 논문 초록의 경우 “분석하다”, “나타나다”, “있다” 등의 술어가 자주 사용되는 것으로 나타났습니다. 기사와 논문 모두에서 공통적으로 사용되는 술어도 등장하지만 논문이라는 영역의 특성상 기사보다는 논문에서 “분석하다”, “미치다”, “살펴보다” 등의 술어가 자주 등장하는 것으로 나타났으며, 이를 통해 영역 간 행위주가 어떠한 동작을 하는지 그 차이를 추측할 수 있습니다. 한편 논문 초록 내 세부 분야 간에도 약간의 차이를 확인할 수 있습니다. [그림5B] 사회학은 어떤 영향을 “미치”는지 연구한다면 [그림5C] 정치외교학은 분석 결과에 대해 “제시”한다는 표현을 더 많이 쓰고 있습니다. 한편 [그림5D] 사회과학일반은 다른 두 분야와 비교해 “나타나다”라는 표현을 가장 많이 쓰고 있습니다.
[그림5] Predicate에 대한 단어빈도표와 워드클라우드
[그림6]은 행위주(ARG0)와 대상(ARG1)에 대한 단어빈도를 살펴보고 단어빈도 상위 50위에 대해 워드클라우드를 그린 결과입니다. ARG(행위주와 대상)의 경우 전처리 과정을 거쳐 형태소로 분리 후 한 글자 이상의 명사만 추출하여 빈도표와 워드클라우드를 제시했습니다. 분석 결과를 살펴보면 [그림6A] 기사의 경우 “코로나”가 가장 많이 등장하는 것으로 나타났는데, 이는 자료가 수집 기간이 코로나19로 인한 팬데믹 시기인 2020년 - 2022년 사이의 기사를 포함하고 있기 때문으로 추측할 수 있습니다. [그림6B] - [그림6D] 논문 초록은 “연구”, “사회”, “영향”과 같이 논문이라는 자료 특성상 관용적으로 등장하는 단어와 함께 “한국” 등의 단어가 등장해 한국 사회에 대한 관계나 변화 등을 분석하고 있다고 볼 수 있습니다. 사회학과 사회과학일반은 [그림6B]와 [그림6D]와 같이 단어빈도표와 워드클라우드를 분리해보아도 “사회”, “연구”, “영향” 등 일반적으로 논문에서 사용되는 단어들이 공통적으로 나타났기 때문에 사회학과 사회과학일반 영역 간의 차이를 살펴보기는 어렵습니다. 반면 [그림6C] 정치외교학은 “북한”, “안보”, “중국” 등 사회학과 사회과학일반과 구별되는 단어가 사용됨과 동시에 공통되는 단어가 등장함을 살펴볼 수 있었습니다. 즉, 논문 초록에 등장하는 명사를 빈도 중심으로만 살펴본다면 유사한 분야 내에서는 행위주와 대상 간에 구분이 되지 않기 때문에 두 분야 간 연구의 차이를 포착하기 어렵습니다. 좀 더 일반화해서 생각해보자면, 텍스트에 숨어있는 진짜 이야기를 발굴하기 위해서는 최빈 단어에 집중하기보다 단어 간의 관계를 고려하는 것이 필요합니다. 의미역 결정(SRL)에서는 의미역과 삼중항을 연결망으로 표현할 수 있기 때문에 행위주와 대상을 구분하고 이들이 술어와 맺는 관계를 살펴봄으로써 텍스트 간의 차이를 파악할 수 있습니다.
[그림6] ARG에 대한 단어빈도표와 워드클라우드
계속해서 데이터셋 내에 자주 등장한 명사가 행위주와 대상 중 어떠한 의미역에서 많이 사용되었는지를 살펴보기 위해 두 차원에서 산점도 분석을 실시했습니다. 이를 통해 어떠한 단어가 행위의 주체인지 또는 행위주에 의해 동작을 입는 피동작주 즉, 대상이 되는지를 살펴볼 수 있습니다. 또한 한 단어가 사회학과 같은 영역에서는 주로 행위주로 사용되다가 정치외교학이나 사회과학일반 영역에서는 대상으로 자주 사용하는 형태로 단어의 사용방식이 달라질 수 있습니다. 이처럼 특정 영역에서는 행위주로 사용되지만 다른 영역에서는 대상으로 사용되거나 아예 해당 영역 내에서는 사용되지 않는 차이가 있을 수 있기 때문에 단어들이 주로 사용되는 의미역과 영역을 산점도를 통해 알아보고자 했습니다.
[그림7]에서는 데이터셋을 기사와 논문 초록으로 나누어 행위주와 대상 각 집단별 등장 빈도가 상위 20위인 단어를 대상으로 분포를 산점도를 통해 살펴보았습니다. [그림6]과 동일하게 ARG(행위주와 대상)는 전처리 과정을 거쳐 형태소로 분리 후 한 글자 이상의 명사만 추출하여 사용했으며, 논문 초록의 경우 관용적으로 사용되어 자주 등장하지만 내용 해석에는 기여하지 않는 단어 “사회”, “연구”, “논문”, “영향”은 산점도에서 제외하였습니다. [그림7]의 경우 가로축은 행위주 집단에서 나타나는 단어의 등장 비율(%), 세로축은 대상 집단에서 나타난 단어의 등장 비율(%)을 기준으로 단어들의 분포를 보여줍니다. 산점도에서는 단어들이 가로축에 가까울수록 행위주로 자주 사용되며 세로축에 가까울수록 대상으로 자주 사용되는 것으로 해석할 수 있습니다. 반대로 대각선에 가까이 위치한 단어일수록 행위주와 대상 구분 없이 골고루 사용되었다고 볼 수 있습니다.
[그림7A] 기사에서는 가로축에 위치한 “경찰”, “정부”, “남성” 등이 행위주로 나타났으며, 세로축에 위치한 “조사”, “확진”, “감염증” 등의 단어들이 대상으로 사용되고 있었습니다. 이에 기사에서는 범죄 수사의 주체인 “경찰”이 세로축의 대상들을 수사하고 있으며, 감염증의 조사나 확진이 가로축의 행위주들에 의해 수행되었다고 해석할 수 있습니다. 한편 “남성”은 행위주로 자주 등장했으며 “여성”은 주로 대상으로 등장했는데, 이는 성별에 따라 사용되는 의미역에 구분이 있다고 할 수 있습니다. 한편 [그림7B] 논문 초록에서는 “정부”, “미국”, “중국” 등이 행위주로 등장했으며 “정책”, “정치” 등이 대상으로 나타났습니다. 이를 통해 사회과학 분야의 연구에서 정부나 국가와 같은 주체들이 정책이나 정치에 대한 연구를 수행했다고 추측할 수 있습니다. 논문 초록보다는 기사에서 단어들이 가로축과 세로축에 몰려있는 것을 볼 수 있는데, 이는 행위주와 대상 집단에서 유사한 단어들이 사용되기보다 각 의미역에 사용되는 단어들이 구분되어 있다고 해석할 수 있습니다.
[그림7] ARG0와 ARG1에 대한 산점도
논문 초록을 사회학, 정치외교학, 사회과학일반 세 영역으로 나눠서 살펴보기 위해 [그림8]에서는 각각 행위주와 대상 집단 내에서 가로축은 사회학, 세로축은 정치외교학 또는 사회과학 일반 영역으로 나누어 산점도를 그려보았습니다. 사회학과 정치외교학을 비교해보면 [그림8A] 행위주 집단의 경우 사회학에서는 “지역”, “경제”, “노동” 등이 자주 등장했고, 정치외교학에서는 “중국”, “미국”, “안보” 등이 자주 등장했습니다. [그림8B] 대상을 살펴봤을 때 사회학은 “인간”, “시민”, “교육” 등이 등장했으며, 정치외교학에서는 “북한”, “중국”, “선거” 등이 등장했습니다. [그림 8A]와 비교해 [그림 8B]에서는 단어들이 대각선 가까이 집중되는 경향이 증가했는데, 이에 사회학과 정치외교학은 행위주로 사용하는 단어들은 학문 영역별로 구분되는 것과 비교해 대상은 유사한 단어들을 사용하고 있다고 해석할 수 있습니다. 다음으로 사회학과 사회과학일반 영역을 비교해보면, 사회과학일반은 [그림8C] 행위주로 “기업”, “유학생”, “부모” 등의 단어가 등장했고, [그림 8D] 대상으로는 “행동”, “개선”, “기업” 등의 단어가 등장했습니다. 사회과학일반과의 비교에서도 행위주 집단과 비해 대상 집단에서는 단어들이 대각선 가까이 밀집한 것을 볼 수 있었습니다.
따라서 사회학에서는 행위 주체가 “문화”, “노동”, “경제”와 같은 학술적 개념이었다면, 정치외교학에서는 “정당”, “유권자”, “중국”, “미국”과 같은 정치 관련 대상이나 국가를 행위 주체로 보고 있었습니다. 반면 사회과학일반에서는 “부모”, “유학생”, “교사”와 같은 사회 구성원을 행위 주체로 보는 것으로 나타났습니다. 이러한 차이는 단순히 논항들의 빈도만을 살펴봤던 단어빈도표만으로는 파악하기 어려운 지점으로 같은 논항이라도 행위주와 대상을 나누어 단어들이 사용되는 역할을 살펴보고 행위주와 대상 간의 관계를 고려하는 것이 필요함을 보여줍니다. 의미역 결정으로 추출한 삼중항을 이용한다면 행위주와 대상을 구분할 수 있을뿐만 아니라 행위주와 대상을 잇는 술어를 알 수 있기 때문에 두 단어 간의 관계를 더 자세히 살펴볼 수 있을 것입니다.
[그림8] 의미역별 두 영역 간 산점도
(2) SRL 자동 추출 모델의 개발 및 성능 평가
본 프로젝트에서는 자연어 처리를 가능하게 하는 언어 모델 중에 하나인 klue RoBERTa/large(Park et al, 2021) 모델에 CLIO SRL 데이터셋을 학습시켜 “CLIO SRL 분류 모델”을 구축했습니다. CLIO SRL 데이터셋에서는 1,850개의 문장에 대해 술어(Predicate)를 중심으로 중첩 문장을 분리하였으며 최종적으로 하나의 술어만을 갖고 있는 3,978개의 삼중항을 추출할 수 있었습니다. 문장 안에는 행위주나 대상이 생략될 수 있기 때문에 추출된 일부 삼중항은 “행위주-술어” 또는 “술어-대상”과 같이 행위주나 대상이 없는 불완전한 형태로 구성되어 있을 수 있습니다. 3,978개의 삼중항을 학습과 검증 데이터셋으로 나누어 사용하며, 학습 데이터셋(n=3,825)을 이용해 만든 CLIO SRL 분류 모델이 검증 데이터셋(n=153)을 얼마나 잘 예측하는지는 F1 Score를 통해 알 수 있습니다. 여기서 F1 Score는 0-100 사이의 값으로 제시되며 점수가 높을수록 해당 모델이 검증 데이터셋을 잘 예측했다고 해석할 수 있습니다. 한편 특정 분류 모델이 얼마나 잘 예측하고 있는지를 알아보기 위해서는 다른 분류 모델과의 비교가 필요합니다. 이를 위해 국립국어원에서 제공하는 “의미역 분석 말뭉치”(국립국어원, 2021)를 학습 데이터셋으로 사용했습니다. CLIO SRL 분류 모델과 동일하게 klue RoBERTa/large를 이용해 국립국어원의 의미역 분석 말뭉치를 학습한 분류 모델을 만들어 두 분류 모델의 예측 정확도를 비교하였습니다. [그림9]에서는 CLIO SRL 분류 모델과 국립국어원의 의미역 분석 말뭉치를 학습한 분류 모델이 CLIO SRL 검증 데이터셋을 예측한 결과의 정확도를 F1 Score로 제시합니다.
[그림9] CLIO SRL 데이터셋을 학습한 분류 모델 성능
CLIO SRL 데이터셋의 경우 현재 구축 중에 있기 때문에 표본수가 적어 모델을 학습시키기에 충분하지 않으며 작은 데이터셋을 과도하게 반복 학습 시킬 경우 과적합 문제가 발생할 수 있다는 한계가 있습니다. 그러나 F1 Score를 살펴보면 (2) 국립국어원의 데이터셋을 학습한 분류 모델이 CLIO SRL 검증 데이터셋(n=153)을 예측할 때의 점수가 59.95점, 동일한 사회학적 배경을 가지고 있는 (1) CLIO SRL 분류 모델이 동일하게 CLIO SRL 검증 데이터셋을 예측할 때의 점수가 66.74점으로 훈련 데이터셋의 규모가 국립국어원 데이터셋의 4% 수준으로 작은 규모에도 불구하고 좋은 성능을 보여줍니다. 한편 (3) CLIO SRL 데이터셋에 국립국어원 말뭉치를 결합해 학습한 모델의 F1값은 65.66으로 첫 번째 모델보다 1.08 감소하는 모습을 보여줍니다. 이는 통합 모델이 사용한 학습 데이터셋의 규모가 증가했음에도 분류 성능이 약간 떨어지거나 한계에 도달한 것으로 성능 향상을 보이지 않았다고 해석할 수 있습니다.
검증 모델은 사회과학 분야이기 때문에 다양한 분야의 언론 기사를 활용한 국립국어원 말뭉치가 포함된 훈련 모델은 동일한 영역의 데이터를 활용하지 않았기 때문에 성능이 향상되지 못했다고 추론해볼 수 있습니다. 이러한 점에서 우리가 의미를 파악하고자 하는 텍스트가 언론 사회면 기사이거나 사회과학 분야 논문이라면, 추후 CLIO SRL 데이터셋을 동일 영역에서 보완하고 예측 모델을 더욱 훈련시킬 때 국립국어어원의 의미역 분석 말뭉치보다 더 좋은 성능을 보여줄 가능성을 기대할 수 있습니다. 따라서 특정 분야의 분석을 위해서는 해당 분야의 특성을 반영한 학습 데이터셋을 구성하는 것이 필요함을 알 수 있으며 CLIO SRL 데이터셋을 통해 사회과학 분야의 SRL 연구에 도움이 될 것으로 전망합니다.
(3) SRL을 활용하여 한국어 텍스트에서 서사 추출
SRL 자동 분류 모델을 활용해 한국어 텍스트에서 서사를 추출하기 위한 첫 시도로 학습 데이터셋 구축을 위해 수집했던 자료인 사회면 기사와 사회과학 분야 논문 초록의 문장을 대상으로 삼중항 연결망을 구성하고자 했습니다. 이를 위해 [그림9]에서 가장 높은 성능을 보였던 CLIO SRL 데이터셋을 학습시킨 분류 모델을 이용해 자료에 대한 SRL 자동 분류를 실시했으며, 각 문장에서 나타난 모든 술어를 중심으로 행위주와 대상을 추출해 “행위주-술어-대상‘ 형태의 삼중항을 추출했습니다. 이렇게 추출한 삼중항은 다시 파이썬 패키지 RELATIO(https://github.com/relatio-nlp/relatio)의 draw_graph 기능을 활용해 연결망으로 시각화하였습니다. 삼중항 연결망(Triplet network)은 행위주(ARG0)와 대상(ARG1)이 점(node)이 되며 술어(Predicate)는 점과 점을 이어주는 선(edge)의 역할을 합니다. 행위주는 대상에게 동작을 가하는 역할을 하기 때문에 행위주와 대상을 잇는 선은 화살표로 표현할 경우 행위주에서 출발해 대상으로 향하게 됩니다(행위주 → 대상).
[그림10]에서는 기사에 대한 삼중항 연결망을 제시합니다. 연결망은 행위주, 대상, 동작이 모두 존재하는 완성된 삼중항을 대상으로 하며, 삼중항의 빈도가 상위 100위까지를 표현합니다. 점은 행위주나 대상을, 화살표는 행위주에서 대상으로 향하고 있는데요. 점의 크기는 행위주가 등장하는 빈도에 비례해 그렸으며 대상의 빈도는 반영하지 않았습니다. 한편 대상으로 자주 등장하는 점은 화살표가 많이 모여드는 점이라고 할 수 있습니다. 선의 굵기는 삼중항이 자주 등장할수록 굵게 그렸습니다. 그림 전체를 확대나 축소할 수 있고, 큰 점을 마우스로 클릭해서 움직이시면 연결망이 촘촘한 부분을 이동시켜 볼 수 있습니다. 한 번 클릭해볼까요?
[그림10] 기사에 대한 삼중항 연결망
[그림10] 기사에 대한 삼중항 연결망을 살펴보면 51개의 점으로 구성된 가장 큰 연결 성분을 볼 수 있습니다. 이를 중심으로 살펴보면 가장 많은 선이 뻗어나가면서 가장 큰 점으로 표현된 행위주는 “경찰”이었고 그 외에 다른 주요 행위주는 “검찰”, “법원”, “원심”, “남성” 등으로 나타났습니다. 한편 “원심”과 “남성”은 행위주이면서 동시에 많은 선이 모이는 대상으로 볼 수 있습니다. 주요 행위주인 “경찰”은 대상인 “남성”과 연결된 선으로 “구속하다”, “체포하다”, “검거하다”와 같은 술어를 살펴볼 수 있었습니다. 이에 경찰과 같은 사법주체는 특정 대상에게 법적조치를 수행했다고 해석할 수 있습니다. 또한 행위주 “경찰”은 대상인 “남성”과 “여성” 모두에게 “붙잡히다” 등의 술어를 수행하고 있지만 “여성”과의 선은 “남성”과의 선에 비해 선이 얇게 나타나 해당 삼중항 조합은 대상이 여성일 때 낮은 빈도로 사용되었다고 해석할 수 있습니다. 한편 행위주일 때 “남성”은 대상인 “여성”과 연결되어 있는데, “남성”은 “여성”에게 “폭행하다”, “살해하다” 등의 술어를 수행하는 것으로 나타났습니다. 이에 남성은 체포대상이며 여성은 범죄 피해의 대상이라는 서사를 발견할 수 있습니다.
[그림11] 사회학과 정치외교학에 대한 삼중항 연결망
다음으로 논문 초록에 대한 삼중항 연결망을 살펴보고자 했습니다. 논문 초록 중 사회과학일반은 다른 두 영역과 비교해 학문적 특성이 드러나지 않습니다. 사회과학일반은 다른 두 영역과 공통되는 주제를 다루고 있으며 주변적 주제를 중심으로 하기 때문에 사회학과 사회과학일반 또는 정치외교학과 사회과학일반을 비교할 경우 차이를 발견하지 못할 가능성이 높습니다. 이에 의미역 결정(SRL)을 통해 서사를 추출하고 유의미한 해석이 가능한지 살펴보기 위해 사회학과 정치외교학의 차이를 비교하고자 했습니다. [그림11]에서는 사회학과 정치외교학 논문 초록에서 추출한 삼중항 연결망을 제시했으며, 기사에 대한 삼중항 연결망에서와 동일하게 행위주, 대상, 술어가 모두 존재하는 완전한 삼중항을 대상으로 삼중항의 빈도 상위 100위까지를 시각화하였습니다. 논문 초록의 경우 산점도 분석에서와 동일하게 관용적으로 등장하지만 내용 파악에 기여하지 않는 단어 “사회”, “연구”, “논문”, “영향” 4개의 단어를 제거하여 삼중항 연결망을 표현했습니다. 두 영역을 비교하기 위해 영역별 삼중항의 상대 빈도를 계산해 사회학에서 더 자주 등장할 경우는 노란색 화살표로, 정치외교학은 파란색 화살표로 구분했습니다.
사회학과 정치외교학에 대한 삼중항 연결망의 최대 연결 성분으로 유사한 크기를 가진 두 개의 연결 성분을 제시할 수 있습니다. 삼중항 연결망에서는 자주 등장한 행위주와 대상으로 “유권자”, “정부” 등의 단어가 나타나 정치 영역에 대한 논의가 이루어지고 있으며, “미국”, “중국”, “북한” 등의 단어에서 국가에 관해 논의하고 있다고 추측할 수 있습니다. 학문 영역별로 나누어 살펴보면 사회학에서는 행위주인 “정부”가 대상인 “정책”을 추진했으며, 정치외교학에서는 “유권자”가 “정부”를 어떻게 대하는지 연구하고 있다고 해석할 수 있습니다. 따라서 사회학은 정부가 수행하는 정책을 연구 및 평가했다면, 정치외교학에서는 유권자가 정부를 어떻게 평가하는지를 연구한다는 차이가 있습니다. 또 다른 연결 성분에서 사회학은 “미국”이 “중국”을 어떻게 대하는지 연구했다면 정치외교학은 “중국”이 “북한”을 어떻게 대하는지 연구하고 있었습니다.
[그림10]에서 살펴봤던 것과 같이 기사에서는 경찰과 같은 행위주에 의한 사법행위와 범죄에 대한 내용이 중심이었다면, [그림11] 논문 초록에서는 사회학과 정치외교학의 연구 주제를 비교해 살펴볼 수 있었습니다. 단어 간의 관계를 고려하지 않는 빈도분석에서는 두 영역 간 차이를 포착하기 어려웠지만 삼중항 연결망에서는 동일한 단어라도 다른 역할을 수행하고 있음을 살펴볼 수 있습니다. 이처럼 행위주가 특정 대상에게 수행하는 행위를 보여주는 삼중항의 분포를 살펴본다면 연구의 지형을 알 수 있으며 영역 간 차이를 발견할 수 있습니다.
본 프로젝트는 행위자 중심의 삼중항 연결망을 분석할 수 있는 프레임워크를 구현하고 사회학적 배경을 반영한 SRL 학습 데이터셋과 분류 모델을 구축함으로써 한국어 텍스트를 기반으로 한 서사 분석의 가능성을 제시하고자 했습니다. 특히 사회과학적 맥락을 반영하여 자동 분류를 수행하는 CLIO SRL 자동 분류 모델은 텍스트 데이터를 다루는 인문사회 연구자들에게 실질적인 분석 도구로 활용될 수 있으며 향후 다양한 주제와 맥락에서 행위자의 경험을 보다 정교하게 해석할 수 있는 기반이 될 것입니다. 한국어를 대상으로 한 이러한 시도는 아직 초기 단계에 머물러 있지만 향후 휴먼코더의 작업과 AI 기반 자동 분류가 결합될 경우 보다 정밀하고 확장 가능한 서사 추출 도구로 발전할 수 있을 것입니다. 이를 위해서는 학계 전반의 협력과 데이터 공유가 필수적이며 다양한 분야의 연구자들이 SRL 데이터셋 축적에 함께한다면 인문사회와 전산학 간의 유기적인 협업 등을 통해 더 발전된 데이터셋이 될 것으로 기대합니다. 본 프로젝트는 이러한 협업의 출발점으로 개인 연구자들이 활용할 수 있는 분석틀을 제공하고자고 했습니다. [그림 12]는 지금까지 설명한 프로젝트의 성과 및 여러분과 공유할 데이터셋의 내용을 마지막으로 정리했습니다. 앞으로 한국 사회 구성원의 경험과 가치가 담긴 서사를 체계적으로 파악하고자 하는 연구를 위해 더욱 발전한 클리오사회발전연구소의 한국어 서사 복원 프로젝트를 지켜봐주세요.
[그림12] 클리오사회발전연구소 자체 구축 모형의 성능과 자동 식별한 삼중항 규모
참고문헌
국립국어원. (2021). 국립국어원 의미역 분석 말뭉치(버전1.0) URL: https://kli.korean.go.kr/corpus
최종렬. (2012). 사회학, 서사를 어떻게 할 것인가?. 사회이론, (41), 121-168.
클리오사회발전연구소. (2024). 한국어 서사 복원 프로젝트. https://github.com/clioisds/Narrative_mining
Ash, E., Gauthier, G., & Widmer, P. (2021). Relatio: Text semantics capture political and economic narratives. arXiv preprint arXiv:2108.01720.
https://github.com/relatio-nlp/relatio
Park, S., Moon, J., Kim, S., Cho, W. I., Han, J., Park, J., ... & Cho, K. (2021). Klue: Korean language understanding evaluation. arXiv preprint arXiv:2105.09680.
Riessman, C. K. (1993). Doing narrative analysis. Narrative Analysis. London: Sage Publications.