Narrative Mining

내러티브 마이닝(Narrative Mining)은 특정 주제를 가진 구술에서 의미를 추출하는 것입니다.

클리오사회발전연구소에서는 내러티브 속에서 사회학적 의미를 추출하는 것과, 이를 위해 의미역결정(Sementic Role Labeling) 도구를 개발하는 것까지 목표로 하고 있습니다. 내러티브 속에서 패턴을 찾아내는 프로세스 개발은 질적연구와 양적연구의 혼합에서 더욱 입체적인 연구방법론에 기여할 수 있을 것으로 기대하고 있습니다.



1. 한국어 서사 복원 프로젝트의 시작

서사(Narrative)란 “인간 생산자의 행위자성의 체계적 흔적(Riessman, 1993)”으로 정의되는데, 이는 인간 개인이 자신의 경험을 해석하고 의미를 부여하는 방식이라 할 수 있습니다. 이러한 맥락에서 데이터를 해석하는데 있어 서사는 전지적 시점에서 행위와 사건을 다루는 것이 아니라 데이터 생산에 참여한 행위자, 즉 서사를 구성하는 화자의 입장에서 이야기를 풀어가는 것을 의미합니다. 데이터에서 추출한 통계적 경향성에만 집중하는 것이 아니라 데이터에 숨겨진 인물의 이야기를 찾아내어 등장인물의 입장에서 해석함으로써 데이터에 숨겨진 이야기를 복원할 수 있게 해줍니다. 서사 복원의 중요성은 다원화된 현대 사회에서 더욱 증가합니다. 개인의 가치와 정체성이 중요해진 다원화된 사회에서는 새로운 사회를 이해하고 문제를 해결하기 위해서는 개인의 삶에 주목하는 것이 필요한데, 개인 삶의 의미에 주목하는 서사를 복원함으로써 의미의 혁신을 이루는 것이 필요합니다(최종렬, 2012).

그러나 서사의 중요성에도 불구하고 기존 텍스트 접근 방식은 서사를 고려하지 않으며, 서사를 포착할 수 있는 텍스트 분석 도구의 개발이 부족한 상태입니다. 이에 클리오사회발전연구소에서는 우리 사회의 구성원들이 생산한 텍스트 데이터에 숨겨진 서사를 복원하여 서사 속에서 사회학적 의미를 추출하는 것을 목표로 “한국어 서사 복원 프로젝트(Korean narrative mining project)”를 진행하고 있습니다. 본 프로젝트에서는 행위자가 부여한 의미를 추출할 수 있는 도구를 개발하여 양적 연구와 질적 연구의 혼합을 통한 보다 입체적인 연구 방법론 수립에 기여할 수 있을 것으로 기대하고 있습니다.


2. 한국어 서사 복원 프로젝트의 단계

자연어 처리 관점에서 서사란 “행위주-동작-대상”이라는 삼중항(Triplet)의 모음으로 볼 수 있습니다. 데이터에서 사사를 복원하기 위해서는 가장 먼저 텍스트에서 “행위주-동작-대상”을 추출하는 것이 필요하며, 이는 의미역결정(Sementic Role Labeling, 줄여서 SRL) 기술을 통해 수행할 수 있습니다. ‘의미역’이란 문장 구조에서 다양한 구문이 수행하는 역할이며, 문장 내 이러한 의미역을 식별하고 분류하는 계산 언어 작업을 ‘의미역결정’으로 부를 수 있습니다. [그림1]에서는 문장에서 의미역을 추출하고 삼중항을 구성하는 예시를 보여줍니다. “동작(Predicate)”은 서술어이며, “행위주(Argument0, 줄여서 ARG0)”는 서술어의 동작주, 행위자, 경험주로 일반적으로 문장 요소의 주어로 의도성을 가지고 행위하는 의미역을 지칭합니다. “대상(Argument1, 줄여서 ARG1)”은 서술어의 피동작주, 대상 등 목적어와 같이 서술어의 행위나 사건에 영향을 받는 의미역입니다. 문장 내 의미역을 식별한 뒤 이를 (행위주-동작-대상)으로 정리하면 삼중항(Triplet)을 구성할 수 있으며, 삼중항은 행위주와 대상을 점(Node)으로 동작을 선(Edge)으로 하는 연결망으로 표현될 수 있습니다.

[그림1] 의미역 추출의 이해

서사의 기본 단위인 삼중항을 추출하기 위해서는 “행위주”, “동작”, “대상”이라는 의미역을 정확히 식별하는 것이 필요합니다. 그러나 현재 삼중항 추출에 사용되는 한국어 의미역결정 기술은 정확성이 낮고 영어 중심으로 개발되어 있어 한국어 기반의 의미역 결정 기술의 개량이 필요한 시점입니다. 이러한 필요성에서 본 프로젝트는 효과적인 한국어 의미역결정 모델을 만드는 것을 목표로 합니다. 특히 사회구성원의 행위 동기를 파악하고 이를 근거로 사회문제를 해결하기 위해 사회과학 특성을 반영한 의미역결정(Sementic Role Labeling, 줄여서 SRL) 예측 모델 구축을 시도합니다. 본 프로젝트는 아래와 같은 세 가지 단계를 통해 서사 속에서 사회학적 의미를 추출하기 위한 한국어 의미역결정(SRL) 도구를 개발하고 예측 모델 평가를 진행하고 있습니다.


3. 한국어 서사 복원 프로젝트의 진행

(1) CLIO SRL 데이터셋 구축

SRL 분류 모델을 만들기 위해서는 자연어 처리가 가능한 사전 훈련 언어 모델에 연구자가 준비한 학습 데이터셋을 입력하여 훈련시키는 것이 필요합니다. 본 프로젝트에서는 학습 데이터셋을 구성하기 위해 한국학술인용색인(KCI: Korea citation index, 줄여서 KCI)의 사회과학 분야 논문 초록과 사회분야 뉴스기사와 같이 사회과학 영역에 특화된 자료를 수집하였으며, 휴먼코더(Human coders)를 통해 해당 자료에 대한 SRL 작업을 실시하여 학습 데이터셋을 구축하였습니다. [그림2]에서는 수집한 자료에 대한 설명을 제시합니다. KCI 논문초록의 경우 한국연구재단이 운영하는 국내 학술지 및 게재논문에 대한 학술정보를 제공하는 사이트인 KCI에서 2019년 1월부터 2023년 6월까지 등재된 ‘사회학’ 및 ‘사회과학일반’ 중분류 분야 논문 초록 총 8,383편을 크롤링 방식으로 수집하였습니다. 뉴스기사의 경우 동일 기간인 2019년 1월부터 2023년 6월까지 사회분야 뉴스기사 총 417,631편의 각 기사 본문 중 첫 문단을 한국언론재단이 운영하는 빅카인즈(Bigkinds)에서 제공받아 사용합니다. 수집된 자료는 문장 단위로 분류하여 자료 중 무작위 KCI 논문초록 500문장, 뉴스기사 500문장 총 1,000문장에 대해 SRL을 위한 학습 데이터셋을 구축합니다.

[그림2] CLIO SRL 분류 모델 구축을 위해 수집한 자료

[그림3]과 같이 휴먼코더들은 각 문장에 대해 SRL 작업을 진행하였으며, 분류 모델을 만들기 위해 언어모델에 학습이 가능한 형태로 전처리 후 학습 데이터셋으로 활용됩니다. 언어모델 학습을 위한 입력 형태의 CLIO SRL 데이터셋과 각 항목에 대한 자세한 설명은 클리오사회발전연구소 Github(클리오사회발전연구소, 2024 https://github.com/clioisds/Narrative_mining)에서 확인하실 수 있습니다.

[그림3] CLIO SRL 데이터셋 구조 예시

(2) SRL을 활용하여 한국어 텍스트에서 서사 추출

CLIO SRL 데이터셋 구축 후 이를 대상으로 단어빈도분석, 워드클라우드, 의미역에 대한 산점도, 연결망 분석 등을 통해 서사를 살펴보는 시도를 했습니다. [그림4]는 술어(Predicate)에 대한 빈도를 살펴보고 데이터셋에서 자주 등장한 상위 50위 술어에 대해 워드클라우드를 그린 결과입니다. [그림4-A] 기사의 경우 “밝히다”, “받다”와 같은 술어가 많이 나타나고 있으며, [그림4-B] 사회학과 사화과학 일반의 경우 “나타나다”, “분석하다”, “미치다” 등의 술어가 자주 사용되는 것으로 나타났습니다. 기사와 논문 모두에서 공통적으로 사용되는 술어도 등장하지만 논문이라는 영역의 특성상 기사보다는 분석하다, 조사하다, 살펴보다 등의 술어가 자주 등장하는 것으로 나타났으며, 이를 통해 영역 간 행위주가 어떠한 동작을 하는지의 차이를 추측할 수 있습니다. 한편 [그림4-C] 사회학과 [그림4-D] 사회과학일반 간에도 약간의 차이를 확인할 수 있는데요, 사회학이 어떤 영향을 “미치”는지 연구한다면 사회과학일반은 “분석”한다는 표현을 더 많이 쓰고 있습니다.

[그림4] Predicate에 대한 단어빈도표와 워드클라우드

[그림5]는 행위주와 대상에 대한 단어빈도를 살펴보고 단어빈도 상위 50위에 대해 워드클라우드를 그린 결과입니다. ARG의 경우 전처리 과정을 거쳐 형태소로 분리 후 명사만 추출하여 사용, 이상치의 빈도값을 갖고 있는 “연구”는 빈도표와 워드클라우드에서 제외하였습니다. 분석 결과를 살펴보면 [그림5-A] 기사의 경우 “코로나”가 가장 많이 등장하는 것으로 나타났는데, 이는 자료가 수집 기간이 코로나19로 인한 팬데믹 시기인 2020년~2022년 사이의 기사를 포함하고 있기 때문인 것으로 추측할 수 있습니다. [그림5-B] 논문 초록은 “영향”, “사회”, “한국”과 같이 한국 사회에 대한 관계나 변화 등을 분석하고 있는 것으로 볼 수 있습니다. 사회학과 사회과학일반은 [그림5-C]와 [그림5-D]와 같이 단어빈도표와 워드클라우드를 분리해보아도 “사회”, “영향”, “관계” 등 일반적으로 논문에서 사용되는 단어들이 공통적으로 나타나고 있었기 때문에 사회학과 사회과학일반 영역 간의 차이를 살펴보기는 어렵습니다. 즉, 초록에 등장하는 명사를 빈도 중심으로만 살펴본다면, 행위주와 대상 간 구분이 되지 않기 때문에 두 분야 간 연구의 차이를 알기 어렵습니다. 좀 더 일반화해서 생각해보자면, 텍스트에 숨어있는 진짜 이야기를 발굴하기 위해서는 최빈 단어에 집중하기보다 단어 간의 관계를 고려하는 것이 필요합니다. SRL에서는 의미역과 삼중항을 연결망으로 표현할 수 있기 때문에 행위주와 대상을 구분하고 이들이 술어와 맺는 관계를 살펴봄으로써 텍스트 간의 차이를 파악할 수 있습니다.

[그림5] ARG에 대한 단어빈도표와 워드클라우드

삼중항을 이용한 연결망을 살펴보기 전에, 텍스트에 자주 등장한 명사가 행위주(ARG0)와 대상(ARG1) 중 어떠한 의미역에서 많이 사용되었는지를 살펴보기 위해 두 차원에서 산점도 분석을 실시했습니다. 이를 통해 어떠한 단어가 행위의 주체인지 또는 행위주에 의해 동작을 입는 피동작주 즉, 대상이 되는지를 살펴볼 수 있습니다. 또한 한 단어가 기사나 사회학과 같은 영역에서는 주로 행위주(ARG0)로 사용되다가 사회과학일반 영역에서는 대상(ARG1)으로 자주 사용하는 형태로 단어의 사용방식이 달라질 수 있습니다. 이처럼 특정 영역에서는 행위주로 사용되지만 다른 영역에서는 대상으로 사용되거나 아예 해당 영역내에서는 사용되지 않는 차이가 있을 수 있기 때문에 단어들이 주로 사용되는 의미역과 영역을 산점도를 통해 알아보고자 했습니다.

[그림6] 산점도에서는 행위주(ARG0)와 대상(ARG1) 각 집단별 등장 빈도가 상위 20위인 단어를 대상으로 분포를 살펴보았습니다. [그림5]와 동일하게 ARG는 전처리 과정을 거쳐 형태소로 분리 후 명사만 추출하여 사용했으며, 이상치의 빈도값을 갖고 있는 “연구”는 산점도 분석에서 제외하였습니다. [그림6-A]와 [그림6-B]의 경우 가로축은 행위주(ARG0) 집단에서의 등장빈도, 세로축은 대상(ARG1) 집단에서 나타난 빈도를 기준으로 단어들의 분포를 보여줍니다.단어들은 대각선에 위치하기보다 가로축과 세로축에 몰려있는 것을 볼 수 있는데, 이는 행위주와 대상 집단에서 단어들이 골고루 사용되기보다 각 의미역에 사용되는 단어들이 구분되어 있다고 해석할 수 있습니다. 한편 사회학과 사회과학일반 영역의 논문에서는 “사회”, “한국”과 같은 단어들이 대각선에 위치하고 있는데, 이는 두 단어가 행위주와 대상 두 역할에 골고루 사용되고 있음을 의미합니다.

논문 초록에서 사회학과 사회과학일반 영역을 나눠서 살펴보기 위해 [그림6-C]와 [그림6-D]에서는 행위주(ARG0)와 대상(ARG1) 각 집단 내에서 가로축은 사회학, 세로축은 사회과학 영역으로 나누어 살펴보았습니다. [그림6-C]는 행위주 집단 내에서 학문영역별로 자주 쓰인 단어들을 살펴봅니다. “목적”, “결과” 등이 대각선에 위치하여 사회학과 사회과학일반 영역 모두에서 행위주로 자주 사용되고 있음이 나타났고, 가로축 또는 세로축의 0점에 위치하는 단어들을 통해서 사회학이나 사회과학일반 영역에서만 사용되는 단어들을 알 수 있습니다. [그림6-D]의 경우 대상 집단 내에서 학문영역별로 단어의 등장 차이를 살펴본 결과, “교육”, “관계”, “영향”과 같은 단어들이 대각선에 위치합니다. [그림6-C]의 결과와 종합해볼 때 행위주는 목적, 결과와 같은 단어였으며 대상은 교육, 관계, 영향으로 연구의 목적이나 결과가 인과관계나 영향을 밝히고 분석하는 것이 논문의 내용이었음을 추측할 수 있습니다. 또한 단어들이 대각선에 위치하기보다 세로축이나 가로축 0점에 위치하면서 행위주 집단 내 또는 대상 집단 내에서도 사회학과 사회과학일반 두 영역에서 사용되는 단어는 공통적이기보다 차이가 있는 것을 살펴볼 수 있습니다. [그림6-C]의 각 축에 붙어 있는 단어들을 비교해보면, 사회학 영역에 등장하는 행위 주체는 “이민자”, “부모”, “유학생”과 같은 사회 구성원이라면 사회과학일반 영역에서는 “지역”, “북한”과 같은 지역이나 국가가 행위 주체로 등장합니다. 이러한 차이는 앞서 워드클라우드 만으로는 파악하기 힘들었습니다.

[그림6] ARG0와 ARG1에 대한 산점도

삼중항 연결망(Triplet network)에서는 행위주(ARG0)와 대상(ARG1)이 점(Node)이 되며 동작(Predicate)은 점과 점을 이어주는 선(Edge)의 역할을 합니다. 행위주(ARG0)는 대상(ARG1)에게 동작(Predicate)을 가하는 역할을 하기 때문에 행위주와 대상을 잇는 선은 화살표로 표현할 경우 행위주에서 출발해 대상으로 향하게 됩니다(행위주 → 대상). 삼중항 연결망을 그리기 위해서는 유사한 의미를 가진 ARG끼리 분류하여 명칭을 통일해주는 작업이 필요합니다. 예를 들어, “코로나”, “코비드”, “코로나19”, “코로나바이러스감염증”이라는 단어들은 표현은 다르지만 “코로나바이러스감염증-19” 지칭하는 동일한 의미를 가진 단어인데, 명칭을 통일해주는 작업을 거치지 않는다면 코로나, 코비드, 코로나19라는 각각의 점으로 표현될 수 있습니다. 이에 정확한 연결망을 도출하기 위해서는 동일한 의미 또는 유사한 의미를 가졌지만 다양하게 표현된 단어들을 분류하고 삼중항 연결망에서 어떻게 표현할지를 정의해주는 것이 필요합니다. 이러한 작업 없이 삼중항 연결망을 그릴 경우 점들은 파편화된 연결망이 도출되며 실제로 문장에서 자주 사용된 단어이지만 별개의 점으로 표현되면서 서사 추출의 결과를 왜곡시킬 수 있습니다. 현 단계에서는 텍스트의 양이 많지 않고 아직 자동 분류 모델을 개발중이기 때문에, 휴먼코더를 이용해 동일하거나 유사한 의미를 가진 ARG를 분류하여 명칭을 하나로 통일시켜주는 작업을 진행했습니다.

[그림7]에서는 분류 작업 수행 후 기사에 대한 삼중항 연결망을 제시합니다. 이 연결망은 파이썬 패키지 RELATIO의 draw_graph 기능을 활용해 시각화하였습니다(Ash et al., 2021 https://github.com/relatio-nlp/relatio). 연결망은 행위주(ARG0), 대상(ARG1), 동작(Predicate)이 모두 존재하는 완성된 삼중항을 대상으로 하며, 삼중항의 빈도가 상위 100위까지를 표현합니다. 점(node)은 행위주나 대상을, 화살표는 행위주에서 대상으로 향하고 있는데요, 점의 크기는 행위주로 등장하는 빈도에 비례하게 그렸습니다. 한편 대상으로 자주 등장하는 점은 화살표가 많이 모여드는 점이라고 할 수 있습니다. 그림 전체를 확대나 축소할 수 있고, 큰 점을 마우스로 클릭해서 움직이시면 연결망이 촘촘한 부분을 이동시켜 볼 수 있습니다. 한 번 클릭해볼까요?

[그림7] 기사에 대한 삼중항 연결망

연결망을 살펴보면 점의 크기는 행위주(ARG0)가 등장한 빈도에 비례합니다. 가장 많은 선이 뻗어나간 행위주이면서 가장 큰 점은 사업기관/행정기관 중에 하나인 “경찰”이고, 가장 많은 선이 모이는 대상은 “사법/행정조치”였습니다. “체포하다”, “청구하다”, “결정하다”, “선고하다”와 같은 술어를 확인할 수 있었는데 경찰 등의 사법/행정주체가 행정조치를 수행했다고 해석할 수 있습니다.

[그림8] 사회학과 사화과학일반에 대한 삼중항 연결망

[그림8]에서는 사회학과 사화과학 일반에 대한 삼중항 연결망을 그려보았습니다. 기사에 대한 삼중항 연결망에서와 동일하게 행위주(ARG0), 대상(ARG1), 동작(Predicate)이 모두 존재하는 완성된 삼중항을 대상으로 하며, 삼중항의 빈도가 상위 100위까지를 표현합니다. 특정 삼중항이 사회학과 사화과학일반 두 영역 중 상대적으로 많이 등장한 분야로 연결망의 색을 구분하여 사회학은 주황, 사회과학일반은 초록색으로 표현합니다. 연결망을 살펴보면 가장 많은 선이 뻗어나가는 행위주는 “연구”였으며 가장 많은 선이 향하는 대상은 “영향”으로 나타났습니다. 기사가 사법기관/행정기관이 주체가 되어 행동했다면 사회과학과 사회과학일반 분야의 논문 초록에서는 사회학적 개념을 중심으로 연구가 되는 경우가 많음을 살펴볼 수 있습니다. 워드클라우드에서는 사회학과 사회과학일반의 차이를 포착하는 것이 어려웠지만, 삼중항 연결망에서는 삼중항마다 주로 등장한 영역을 색깔로 구분해주면 영역 간 차이를 발견할 수 있게 해줍니다. 예를 들어, 사회학은 상대적으로 다문화, 능력주의 등을 많이 연구하고 사회과학일반은 영향력, 인과성 등에 더 관심을 가지고 있음을 발견할 수 있습니다.

[그림7]과 [그림8]에서는 행위주(ARG0), 대상(ARG1), 동작(Predicate)이 모두 존재하는 완전한 삼중항에 대한 연결망을 그려보았습니다. “행위주-대상-동작”으로 구성되는 삼중항은 세 가지 요소가 모두 존재하는 경우도 있지만 우리가 읽고 쓰는 일반적인 문장들에서는 글의 구성상 행위주나 대상이 없거나 생략되는 경우가 많습니다. 예를 들어, “세입자가 살고 있다”와 같이 “세입자”라는 행위주는 있지만 대상이 없는 경우 또는 “사회정책을 분석하다”와 같이 “사회정책”이라는 대상은 있지만 “연구자”라는 행위주가 생략된 경우가 있을 수 있습니다. 이처럼 실제 문장의 내용을 연결망으로 표현하기 위해서는 행위주나 대상이 없는 불완전한 삼중항을 포함하여 연결망을 그리는 것이 필요합니다. 연결망에서 점(Node)이 되는 행위주나 대상이 없는 경우 별도의 라벨 없이 해당 점은 빈 공간으로 표현할 수 있습니다.

[그림9] 기사의 불완전한 삼중항을 포함한 연결망

 [그림9]에서는 행위주나 대상이 없는 불완전한 삼중항을 포함하여 기사에 대한 연결망을 그려보았습니다. 삼중항의 빈도가 상위 300위까지의 경우를 살펴보면, 사법/행정주체인 “경찰”과 “익명인물” 그리고 “사법/행정조치”가 긴밀히 연결된 것으로 나타납니다. 행위주인 “경찰”은 “익명인물”을 대상으로 “붙잡다”, “체포하다” 등의 술어를 수행하는데, 대상이었던 “익명인물”은 동시에 행위주가 되어 “받다”, “협박하다” 등의 동작을 수행합니다. 이를 통해 경찰이 범죄를 저지른 인물에게 사법/행정조치를 취했다고 해석할 수 있습니다. “사법/행정조치”의 경우 많은 선이 모이고 있어 “결정하다”, “선고하다” 등의 대상이 되는 것으로 나타납니다. 한편 불완전 삼중항 연결망에서 새롭게 등장한 점인 “코로나19”를 중심으로 모이거나 뻗어나가는 선의 방향을 고려해보면 코로나19가 행위주임과 동시에 대상으로 위치한 것을 볼 수 있습니다. “코로나19”는 행위주가 되어 동작을 수행하고 극복하거나 밝혀야하는 대상이 되기도 합니다. 또한 “질병”, “정부”, “감염관리주체”와 같은 점과 연결이 되어있는데, 이러한 연결은 “방역대책”, “정치인”으로 이어져 코로나19의 방역대책이 정부만이 아니라 정치인까지 연결되어 있다는 서사를 발견할 수 있습니다.

[그림10] 사회학과 사회과학일반의 불완전한 삼중항을 포함한 연결망

[그림10]에서는 사회학과 사회과학일반의 불안전한 삼중항을 포함한 연결망을 그려보았습니다. 삼중항의 빈도가 상위 300위까지를 표현하며 사회학은 주황, 사회과학일반은 초록색으로 표현합니다. 연결망을 살펴보면 완성된 삼중항을 대상으로 하는 [그림8]과 유사하게 “연구”와 “영향”이 주요 노드로 나타났으며, “연구”에서 가장 많은 선이 뻗어나가며 행위주로 동작을 수행하며 “영향”이 가장 많은 선이 모이면서 동작의 대상이 되는 것으로 나타났습니다.


(3) SRL 자동 추출 모델의 개발 및 성능 평가

본 프로젝트에서는 자연어 처리를 가능하게 하는 언어 모델 중에 하나인 klue RoBERTa/large(Park et al, 2021) 모델에 CLIO SRL 데이터셋을 학습시켜 “CLIO SRL 분류 모델”을 구축했습니다. CLIO SRL 데이터셋에서는 1,000개의 문장에 대해 술어(Predicate)를 중심으로 중첩 문장을 분리하였으며 최종적으로 하나의 술어만을 갖고 있는 총 1,653개의 삼중항을 추출할 수 있었습니다. 문장 안에는 행위주나 대상이 생략될 수 있기 때문에 추출된 일부 삼중항은 “행위주-술어” 또는 “술어-대상”과 같이 행위주나 대상이 없는 불완전한 형태로 구성되어 있을 수 있습니다. 1,653개의 삼중항을 학습과 검증 데이터셋으로 나누어 사용하며, 학습 데이터셋(n=1,487)을 이용해 만든 CLIO SRL 분류 모델이 검증 데이터셋(n=166)을 얼마나 잘 예측하는지는 F1 Score를 통해 알 수 있습니다. 특정 분류 모델이 얼마나 잘 예측하고 있는지를 알아보기 위해서는 다른 분류 모델과의 비교가 필요합니다. 이를 위해 국립국어원에서 제공하는 “의미역 분석 말뭉치”(국립국어원, 2021)를 학습 데이터셋으로 사용합니다. CLIO SRL 분류 모델과 동일하게 klue RoBERTa/large를 이용해 국립국어원의 의미역 분석 말뭉치를 학습한 분류 모델을 만들어 두 분류 모델의 예측 정확도를 비교하였습니다. [그림11]에서는 CLIO SRL 분류 모델과 의미역 분석 말뭉치를 학습한 분류 모델이 CLIO SRL 검증 데이터셋을 예측한 결과의 정확도를 F1 Score로 제시합니다.

[그림11] CLIO SRL 데이터셋을 학습한 분류 모델 성능

CLIO SRL 데이터셋의 경우 현재 구축 중에 있기 때문에 표본수가 적어 모델을 학습시키기에 충분하지 않으며 작은 데이터셋을 과도하게 반복학습 시킬 경우 과적합 문제가 발생할 수 있다는 한계가 있습니다. 그러나 F1 Score를 살펴보면 의미역 분석 말뭉치를 학습한 분류 모델이 CLIO SRL 검증 데이터셋(n=153)을 예측할 때의 점수가 59.95점, 사회학적 배경을 가지고 있는 CLIO SRL 분류 모델이 동일하게 CLIO SRL 검증 데이터셋을 예측할 때의 점수가 60.18점으로 작은 규모에도 불구하고 좋은 성능을 보여줍니다. 이러한 점에서 우리가 의미를 파악하고자 하는 텍스트가 언론 사회면 기사이거나 사회과학 분야 논문이라면, 추후 CLIO SRL 데이터셋을 동일 영역에서 보완하고 예측 모델을 더욱 훈련시킬 때 국립국어원의 의미역 분석 말뭉치보다 더 좋은 성능을 보여줄 가능성을 기대할 수 있습니다. 앞으로 더욱 발전할 클리오사회발전연구소의 한국어 서사 복원 프로젝트를 지켜봐 주세요.



참고문헌

국립국어원. (2021). 국립국어원 의미역 분석 말뭉치(버전1.0) URL: https://kli.korean.go.kr/corpus

최종렬. (2012). 사회학, 서사를 어떻게 할 것인가?. 사회이론, (41), 121-168.

클리오사회발전연구소. (2024). 한국어 서사 복원 프로젝트. https://github.com/clioisds/Narrative_mining

Ash, E., Gauthier, G., & Widmer, P. (2021). Relatio: Text semantics capture political and economic narratives. arXiv preprint arXiv:2108.01720.
          https://github.com/relatio-nlp/relatio

Park, S., Moon, J., Kim, S., Cho, W. I., Han, J., Park, J., ... & Cho, K. (2021). Klue: Korean language understanding evaluation. arXiv preprint arXiv:2105.09680.

Riessman, C. K. (1993). Doing narrative analysis. Narrative Analysis. London: Sage Publications.