1. 커뮤니티 임베딩 프로젝트의 시작
“미국내 K-pop 팬덤은 남성 아티스트 팬덤이 페미니즘에 우호적인 반면, 미국 팝 팬덤은 여성 아티스트 팬덤이 페미니즘에 우호적이다.”
“미국에서 가장 민주당에 친화적인 학문 분야는 사회학과 언론학이다.”
“미국의 게이머들은 가상자산에 더 개방적이다.”
온라인 커뮤니티 분석을 통해 이러한 명제를 도출하고 검증할 수 있을까요? 할 수 있다면 어떤 기술적 접근 방식을 선택하고, 어떤 전제 조건이 붙어야 할까요? 온라인 커뮤니티는 현실과 유리된 가상의 공간이 아니라, 현실에 영향을 미치는 담론을 생산해내는 공간이 되었습니다. 사람들은 온라인 상에서 평소에는 쉽게 드러내지 않는 자신의 생각들을 보다 자유롭게 표출합니다.
그렇기 때문에 온라인 공간에서는 기존의 윤리적, 문화적, 법적 굴레에서 벗어나는 생각들이 더욱 쉽게 표출되며 다수의 공감을 얻을 수도 있습니다. 교내 밴드의 뒷풀이 자리에서 “엘비스 프레슬리는 살아계신다” 라고 주장한다면 충격과 공포가 뒤섞인 눈총을 받겠지만, 온라인 공간에서는 최소 10명 이상의 동조 댓글을 받을 수 있을 것입니다.
최근 몇 년 사이 온라인 커뮤니티에서 활발하게 활동하는 이용자들이 증가했습니다. 앞서 서술했듯이 사람들은 온라인 상에서 기존의 사회적 관계와 규범, 시공간의 제약 없이 다양한 정보와 의견을 자유롭게 공유하며, 관심 있는 주제에 대한 공감대를 형성합니다. 이러한 온라인 커뮤니티의 규모가 커지거나, 특정 주제에 대한 논의가 활발해질 경우 온라인 공간에서 생산된 담론이 사람들의 세계관을 바꾸기도 합니다.
그리고 이러한 흐름은 현실에서의 행동으로 이어집니다. 온라인 커뮤니티에서 촉발된 행동은 비단 사회적으로 용인되거나, 참여 비용이 적은 행동에 국한되지 않습니다. 온라인 커뮤니티에서 급진화되고 구체적인 실행계획에 대한 논의가 이루어진 극단주의적인 지향은 현실의 정치적 테러로 나타났습니다. 이러한 현상은 국적을 가리지 않으며, 미국에서도 동일하게 나타납니다. 따라서 온라인 커뮤니티는 현대 사회를 이해하기 위해 꼭 들여다봐야 하는 대상이라고 할 수 있습니다.
이 프로젝트에서는 미국의 대표적인 대형 온라인 플랫폼인 레딧(Reddit)의 생태계를 살펴봅니다. 레딧은 미국 최대의 온라인 커뮤니티 중 하나로, 대통령이 직접 이용자들과 문답을 나누거나 금융시장의 흐름을 바꾸기도 합니다. 레딧은 ‘서브레딧(Subreddits)’ 이라고 불리는 주제 기반 하위 커뮤니티들로 구성되어 있습니다. 각 서브레딧은 고유한 주제, 규범, 문화, 그리고 이용자 집단을 형성하고 있으며, 누구나 자유롭게 커뮤니티를 생성할 수 있다는 특징이 있습니다. 이러한 개방적인 구조 덕에 이용자들은 다양한 서브레딧에서 활동할 수 있으며, 기존의 설문조사 방식으로는 모두 다루기 어려운 광범위한 주제에 대한 여론의 흐름과 최신 이슈에 대한 반응을 관찰할 수 있는 주요한 공간으로 활용할 수 있습니다.
[그림1] 레딧(Reddit)의 구조
특히 레딧은 게시물에 해당하는 서브미션(submission)에서 댓글을 통해 지속적인 의견 교환이 이루어지는 쓰레드(thread) 방식의 커뮤니티입니다. 개별 서브레딧 내에서 서브미션을 작성할 수 있으며, 서브레딧의 구독자들이 관심있는 주제의 서브미션이 게시될 경우 해당 서브미션에 댓글을 작성하며 의사소통을 합니다. 따라서 레딧 이용자의 행동을 효과적으로 파악하기 위해서는 댓글을 기반으로 분석하는 것이 적절합니다. 레딧의 댓글 데이터는 작성 시간, 작성자 ID, 게시된 서브레딧과 같은 정보를 포함하고 있기에 이용자들의 행동 패턴과 커뮤니티 간 상호작용을 분석할 수 있습니다.
그러나 이러한 댓글 데이터를 개별적으로 분석하는 데에는 한계가 있습니다. 설령 특정 서브레딧의 응집력이 높아 댓글의 주제를 분류하는 것이 가능하다고 해도, 그 내용을 절대적인 기준을 바탕으로 수치화하여 나타내는 것이 어렵기 때문입니다. 예를 들어 ‘도널드 트럼프는 미국사상 최악의 대통령이다’라는 댓글이 몇 점만큼 진보적인지 나타내는 것에는 한계가 있습니다. 또한 레딧의 이용자는 매우 다양한 서브레딧에서 많은 댓글을 작성하기 때문에 백억 개 이상의 댓글을 일일이 분류하기 위해서는 수많은 계산 자원이 요구됩니다. 이처럼 개별 댓글 수준에서의 분석은 대규모 데이터 상에서는 실현이 어려운 부분이 많습니다.
이러한 한계를 극복하기 위해 이 연구에서는 “커뮤니티 임베딩(community embedding)” 방식을 활용하였습니다. 이 방식은 개별 댓글이 아닌 각각의 하위 커뮤니티, 즉 서브레딧이 기본 분석 단위가 되어 이용자들이 여러 서브레딧에서 활동한 데이터를 기반으로 서브레딧 사이의 관계를 추정합니다. 이처럼 커뮤니티 임베딩 방식은 온라인 플랫폼이 생산해온 방대한 데이터를 비교적 적은 자원으로 분석하면서도, 온라인 공간의 여론의 방향을 파악하는 데에 도움이 됩니다. 특히 현대 사회에서 온라인 상호작용이 현실에 큰 영향을 미치는 만큼, 커뮤니티 임베딩은 오프라인의 여론조사와 유사하게 온라인 공간의 여론분포와 변화를 살펴보는 유용한 도구로 활용될 수 있습니다.
이 연구는 이러한 커뮤니티 임베딩을 활용하여 레딧에서 미국의 정치적 양극화가 시간의 흐름에 따라 어떤 변화를 보였는지를 분석하고자 하였습니다. 이를 위해 레딧이 설립된 2005년부터 2024년 12월까지의 전체 댓글 데이터를 수집하였으며, 그중 데이터가 충분한 2009년부터 2024년까지의 데이터를 미국 대통령의 임기에 따라 4년 단위의 시기별 데이터로 나누었습니다. 대통령 교체는 미국 정치 지형에서 매우 주요한 사건이기 때문에, 이를 기준으로 여론의 변화를 살펴보는 것이 적절하다고 판단하였습니다.
또한 분석의 안정성을 확보하기 위해, 상위 2만 개의 서브레딧과 5개 이상의 댓글을 작성한 이용자만을 분석 대상으로 삼았습니다. 이는 전체 서브레딧의 약 0.5%에 해당하지만, 전체 댓글의 약 94%를 차지하는 대규모의 데이터이기 때문에 대표성을 확보했다고 볼 수 있습니다. 임베딩한 서브레딧 전체의 지지 정당별 지형도가 당장 궁금하신 분은 하단의 대통령 집권 시기별 지도부터 확인하실 수 있습니다(바로가기)
2. 커뮤니티 임베딩 프로젝트의 단계 (펼쳐보기)
커뮤니티 임베딩(Community Embedding)은 Word2Vec의 Skip-gram 학습 구조를 Reddit과 같은 온라인 커뮤니티 환경을 연구하기 위해 응용한 벡터 기반 학습 기법입니다.
우선 커뮤니티 임베딩의 구체적인 단계를 알아보기에 앞서, 자연어처리 관점에서의 벡터(vector)와 임베딩(embedding)을 이해하고 넘어가보도록 하겠습니다. 벡터란 무엇일까요? 벡터란 단어, 문장, 문서 등의 언어 정보를 숫자들의 나열로 표현한 것입니다. 예를 들면 apple이라는 단어가 있다고 할 때, 기계는 apple를 “문자열”로 이해하지 못하기 때문에
apple → [0.21, -1.37, 2.43, ..., 0.05] ← 숫자 100~300개짜리 벡터
와 같이 문자열 대신 수치 벡터로 변환합니다. 이 벡터 하나가 apple이라는 단어의 의미를 압축한 표현이 됩니다. 이때 apple을 나타내는 수치 벡터는 단순한 숫자의 나열을 넘어, apple이라는 단어의 위치를 나타내는 좌표와 같은 역할을 합니다. 뿐만 아니라, 단어들을 수치화하는 작업을 통해, 단어 벡터들은 서로 더하고 빼는 연산이 가능해집니다. 이 덕분에 컴퓨터는 언어의 의미를 모르더라도, 단어 벡터들의 연산을 통해서 단어 간 유사도 계산, 문장 분류, 감정 분석, 번역 등의 기능을 수행할 수 있게 됩니다. 이렇게 사람의 언어를 컴퓨터가 이해할 수 있는 벡터로 변환하는 것, 즉 컴퓨터가 다양한 텍스트를 다양한 객체를 이해할 수 있도록 계량화된 벡터로 변환하는 기술 및 과정을 임베딩(Embedding)이라고 합니다. 컴퓨터는 인간이 쓰는 문장을 ‘이해’할 수 없고 숫자만 처리할 수 있다고 했습니다. 예를 들어 Word2Vec, BERT, GPT와 같은 모델들은 “사과(apple)”와 “오렌지(orange)”와 같은 단어들을 대규모 텍스트 데이터를 통해 모델이 학습을 통해 비슷한 의미를 내재화, 즉 벡터 공간에서 자연스럽게 가까운 위치에 배치하게 됩니다.
apple → [0.21, 0.45, ..., 0.05]
orange → [0.22, 0.43, ..., 0.07]
이렇게 하면 컴퓨터도 “이 두 벡터는 비슷하네!”라고 계산할 수 있게 됩니다. 이러한 자연어처리 기술의 발달과 함께 다양한 단어임베딩 알고리즘이 존재합니다. 여기에서 커뮤니티 임베딩은 단어 임베딩 알고리즘 중 하나인 Word2Vec(Mikolov et al., 2013)을 응용합니다.
(1) Word2Vec(Mikolov et al., 2013): 단어 의미를 벡터로 학습하는 원리
Word2Vec은 대규모 텍스트 데이터에서 단어들 사이의 관계를 학습하여, 각 단어를 다차원 벡터 공간상의 하나의 점으로 표현하는 임베딩 알고리즘입니다. Word2Vec에는 두 가지 아키텍처가 있습니다. 여기서 아키텍처란 어떤 입력을 주고 어떤 출력을 예측하게 하느냐 즉 모델이 의미를 학습하는 방식의 설계를 뜻합니다. Word2Vec은 이 아키텍처로 단어 간 의미적 관계를 벡터에 담는 방법을 구현하는데, 크게 두 가지 방식이 존재합니다.
Skip-gram: 중심 단어로부터 주변 단어들을 예측
CBOW: 주변 단어들로부터 중심 단어를 예측
Word2Vec의 아키텍처는 입력(input), 출력(output), 중간 레이어 또는 은닉층(middle layer, hidden layer)이라는 세 가지 요소로 구성됩니다. 첫째, 입력(input)은 “무엇을 입력으로 넣을 것인가?”에 대한 것입니다. 모델에 주어지는 입력은 ‘단어’인데, 어떤 단어를 중심으로 삼을 것인지에 따라 아키텍처가 달라집니다. CBOW는 주변 단어들을 입력으로 주고, Skip-gram은 중심 단어들을 입력으로 줍니다. 둘째, 출력(output)은 “무엇을 맞추도록 학습할 것인가?”에 대한 것입니다. CBOW라면 주변 단어들을 보고 중심 단어를 맞춰야 할 것이고, Skip-gram이라면 중심 단어를 보고 주변 단어를 맞춰야 합니다. 즉, 입력과 출력의 관계 설정에 따라 의미를 학습하는 방향이 달랍니다. 마지막으로, 입력과 출력을 연결하는 중간 레이어(은닉층)은 실제로 임베딩이 형성되는 공간입니다. 단어를 고차원 벡터로 변환하는 임베딩 행렬(Embedding Matrix)이 존재하며, 학습을 통해 이 임베딩 행렬이 단어 간의 의미 관계를 반영하도록 갱신되고 최종적으로 이 공간에서 의미적으로 유사한 단어들이 가까운 벡터를 갖게 됩니다. 비교해보자면 다음과 같습니다.
[그림2] Word2Vec 아키텍처 비교 (CBOW vs. Skip-gram)
예를 들면, “The cat sat on the mat"의 중심단어를 ‘sat’이라고 두었을 때의 결과는 다음과 같습니다.
[그림3] Word2Vec 두 가지 아키텍처에 따른 결과 비교
모델 학습이 완료되면, 각 단어는 고정된 차원의 벡터로 표현되며, 이 벡터들은 단어 간의 의미적 유사성과 관계 구조를 반영합니다. 대표적인 예로 Word2Vec에서 학습된 벡터는 다음과 같은 연산을 가능하게 합니다.
vector("king") - vector("man") + vector("woman") ≈ vector("queen")
이 연산 결과는 벡터 공간 내에서 ‘성별’이라는 의미 차원을 볼 수 있습니다. 즉, Word2Vec이 학습한 벡터는 단순한 수치배열이지만, 벡터 간의 연산을 통해 단어 간의 의미적 관계 예를 들어 성별, 지위, 지리와 같은 사회적 의미의 축을 벡터의 방향성과 거리 차원에서 표현할 수 있음을 시사합니다.
[그림4] Word2Vec Analog
[그림5] Word2Vec Analog
(출처 Liang, Wentao & Wang, Lu & She, Jialuo & Liu, Yuqing. (2022). Detecting Resource Release Bugs with Analogical Reasoning. Scientific Programming. 2022. 10.1155/2022/3518673. )
(2) 커뮤니티 임베딩: 단어 대신 커뮤니티를 임베딩하다
[그림6] Word2Vec과 커뮤니티 임베딩 비교
커뮤니티 임베딩(Community Embedding)은 Word2Vec의 학습 구조를 응용하여 Reddit과 같은 온라인 커뮤니티 구조에 응용한 방법입니다. Reddit과 같은 온라인 커뮤니티에서 개별 사용자가 참여한 서브레딧들의 패턴을 바탕으로, 커뮤니티 간의 의미적 유사성과 이념적 관계를 벡터 공간에 학습하는 기법입니다.
원래 Word2Vec의 Skip-gram은 중심 단어를 입력으로 주고 주변 단어를 예측하는 방식인데, 이 구조를 차용하여 ‘단어’를 ‘서브레딧(subreddit)’으로, ‘문맥(context)’을 ‘사용자(user)’로 치환합니다. 즉, 특정 사용자가 참여한 여러 서브레딧 중 하나를 입력으로 주고, 같은 사용자가 참여한 나머지 서브레딧을 예측하도록 학습함으로써, 서브레딧 간의 의미적·이념적 관계를 고차원 벡터 공간에 내재화합니다. 이때, 동일한 사용자들이 반복적으로 참여한 서브레딧들은 자연스럽게 유사한 문맥(context)에서 등장한 것으로 간주되어, 벡터 공간상에서 서로 가까운 위치에 매핑됩니다.
커뮤니티 임베딩(Community Embedding)은 단어 임베딩과 동일한 방식으로 서브레딧 사이의 유사성을 계산하거나, 연산을 수행할 수도 있습니다. 서브레딧은 이용자의 관심사가 자연스럽게 집중된 공간으로, 참여자들의 성향과 가치관이 집단적으로 반영되어 더 안정적인 경향성을 추정할 수 있게 됩니다.
(3) 시계열 비교를 위한 부트스트랩 신뢰구간
본 연구에서는 Kozlowski, Taddy, Evans(2019) 가 워드임베딩 모형 사이의 시계열 비교를 위해 사용한 부트스트랩 신뢰구간 방법을 활용합니다. 우선, 지금까지 설명한 절차에 따라 커뮤니티 임베딩을 통해 각 서브레딧들의 좌푯값을 알게 되었습니다. 앞서 언급했듯이, 서브레딧 좌표를 대통령 임기에 따라 4개 시점으로 나누어, 서로 다른 4개 커뮤니티 임베딩 모형을 구축합니다. 커뮤니티 임베딩이 완료된 벡터공간은 말하자면 서브레딧들 각각이 점하고 있는 위치를 나타내는 지도와 같습니다. 우리는 대통령 임기에 따른 4개의 지도를 가지고 있는 것이지요. 시점에 따라 레딧 공론장에 일어난 시계열적 변화를 바탕으로, 온라인 공론장에 관한 사회학적 함의를 도출하는 것이 연구의 최종 목표입니다.
그런데 시계열에 따른 커뮤니티 임베딩은 시점에 따라 여러 개의 서로 다른 모델(지도)을 구성하게 됩니다. 서로 다른 모델들을 별도로 구축하는 과정에서, 특정 서브레딧의 좌표 변화가 정말 문화적 변동에 의한 것인지, 혹은 모델 자체의 불확실성이나 일부 극단적 이용자로 인한 교란 때문인지가 주된 관심사로 떠오릅니다. 이러한 강건성 문제에 대한 답을 확률적으로라도 내놓기 위해, 서브레딧 좌표에 대한 시기별 부트스트랩 신뢰구간을 사용합니다.
예를 들어 Latte 서브레딧의 정치적 좌표를 파악해보겠습니다. 신뢰구간은 시점에 따라 구성될 것이므로, 시점을 Period 1으로 고정하고 보겠습니다. 이제 Period 1의 전체 데이터로부터 1억 개의 댓글 데이터를 랜덤으로 추출합니다. 이것을 데이터셋 1이라 하겠습니다. 같은 과정을 독립적으로 반복하면, Period 1 데이터로부터 20개의 데이터셋을 얻을 수 있습니다. 같은 절차로 랜덤하게 추출했기 때문에, 20개의 데이터셋은 Period 1의 데이터와 같은 ‘분포’를 따른다고 직관적으로 생각할 수 있겠습니다. 그 후 이렇게 얻은 20개의 데이터셋 각각에 대해 위에서 설명한 커뮤니티 임베딩을 수행합니다. 그러면 각각의 커뮤니티 임베딩 모델에 따라 Latte 서브레딧은 20개의 서로 다른 좌표를 갖게 됩니다.
당장은 임베딩 좌표축에 명시적인 의미를 부여할 수 없지만, 가령 첫번째 좌표축이 정치적 의미를 담고 있다고 가정해보겠습니다. (바로 다음 단락에서 명시적인 의미를 가진 축을 구성하는 방법도 알아볼 것입니다.) 그럼 Latte 서브레딧의 20개 좌표들 각각에 대해서, 첫번째 좌푯값은 Latte 서브레딧의 정치적 의미를 반영하게 됩니다. 그 20개의 값들을 오름차순으로 으로 배치해봅시다. 각 좌표 데이터가 같은 ‘분포’에서 독립적으로 뽑은 값이므로, Latte 서브레딧 정치성의 참값은 와 사이에 있다고 추정하면 그럴듯합니다. 20개 중 18개 정도가 이 사이에 들어올 것이므로 이러한 추정이 타당할 확률은 90퍼센트 정도로 보면 되겠지요? Latte 서브레딧 정치성의 참값을 []라는 구간으로 추정한 것을 90퍼센트 부트스트랩 신뢰구간이라고 합니다. 이러한 절차를 부트스트랩 샘플링이라고 하는데요, 직관적으로는 위와 같이 작동하고, 이를 뒷받침하는 이론적 근거 역시 가지고 있는 통계분석 기법입니다. 각 시점별로 서브레딧 좌푯값에 대한 신뢰구간을 설정해두면, 시점별로 서브레딧이 가진 좌푯값의 차이가 통계적으로 유의미한지 아닌지를 판단할 수 있게 됩니다.
(4) 유의미한 좌표축 식별하기
다음으로, 의미가 있는 좌표축을 뽑아내는 방법에 대해 논의하고자 합니다. 커뮤니티 임베딩이 완료된 서브레딧 벡터공간이 있다고 하겠습니다. 즉, 커뮤니티 임베딩 알고리즘에 따라 각 서브레딧에는 일정한 좌푯값들이 부여되어 있습니다. 2차원 평면에서 점을 생각할 때와 마찬가지로, 각 좌푯값은 알고리즘이 설정한 좌표축 위에서 서브레딧이 점하는 위치를 나타냅니다. 하지만 알고리즘이 설정한 좌표축은 주어진 데이터를 수치적으로 잘 요약할 뿐, ‘축 1은 정치, 축 2는 문화’처럼 명시적인 의미를 부여하지는 않습니다. 그래서 특정 서브레딧이 정치적 혹은 문화적으로 자리하는 위치를 파악하려면, 먼저 의미있는 좌표축을 식별할 필요가 있습니다.
축을 식별하기 위해서는 우리는 반대로, 의미있는 서브레딧들 몇 개의 위치를 파악하는 데에서 출발합니다. 예를 들어 ‘정치 축’을 찾아 볼까요? 공화당(‘Republican’) 서브레딧은 보수적 위치에 있을 것이고, 반대로 민주당(‘democrats’) 서브레딧은 확실히 서브레딧 벡터공간 위에서 진보적 위치에 있을 것입니다. 임베딩된 벡터들은 덧셈과 뺄셈의 연산이 가능하다고 언급했었지요? 그렇다면, 공화당 서브레딧에서 민주당 서브레딧을 뺀 벡터는 진보 -> 보수로의 방향을 나타낸다고 이해할 수 있을 것입니다. 그래서 이것을 하나의 축으로 삼아 모든 서브레딧들을 사영(projection)시키면, 각 서브레딧 벡터가 진보-보수 스펙트럼 상에서 어떤 위치에 있는지를 파악할 수 있습니다.
마찬가지 원리로 정치 이외에도 경제, 젠더, 문화 등 다양한 축을 뽑아내어 각 커뮤니티 벡터의 상대적 위치를 수치화할 수 있습니다. 의미 있는 좌표축들을 뽑아낸 후 그에 따라 서브레딧들을 배열하면, 이는 정치, 문화 등 여러 스펙트럼 상에서 서브레딧들의 명시적 위치를 반영한 벡터값이 됩니다. 나아가, 이를 바탕으로 인터넷 공론장에 대한 사회학적 분석 역시 수행할 수 있을 것입니다.
이때 인터넷 공론장의 지형에 익숙한 독자라면 하나의 질문을 던질 수도 있습니다. 보수적 의미를 담은 커뮤니티의 대표격으로 ‘Republican’ 서브레딧을 골랐는데, ‘Conservative’이나 ‘conservatives’ 서브레딧을 고르면 안 될까요? 다른 두 서브레딧도 충분히 일리가 있는 선택지일 텐데 말입니다. 이와 같은 취사선택의 임의성 문제를 해결하기 위해, 세 서브레딧 벡터의 평균을 고려할 수 있습니다. 이 역시 벡터공간이 덧셈연산, 그리고 심지어는 실수배를 곱하는 연산을 허용하기 때문에 가능한 것이죠. 세 벡터의 평균은 각 벡터의 위치를 고르게 반영하기 때문에, 보수적 의미의 서브레딧을 임의적으로 선택했다는 문제를 회피할 수 있습니다. 이러한 서브레딧을 다섯 개 고르면 어떨까요? 그것도 물론 가능한 선택이지만, 세 개 벡터의 평균 정도면 축의 안정성을 충분히 확보했다고 주장해도 괜찮습니다.
이처럼 축의 안정성을 위해서, 좌표축의 컨셉에 따라 양쪽 극단에서 3가지 서브레딧들을 선별한 후, 그 평균벡터 간의 차이를 계산함으로써 좌표축을 구성하게 됩니다. 아래의 표는 좌표축과 그 구성에 활용된 서브레딧들의 예시입니다. 마찬가지 원리로, 각각의 축은 Negative pole에서 Positive pole로의 방향을 함의하게 됩니다.
[그림7] 유의미한 축 식별을 위한 서브레딧 설정
이제 위에서 설명한 Latte 서브레딧의 정치적 좌표를 파악하는 방법을 이해할 수 있습니다. 보수적 서브레딧에서 진보적 서브레딧의 벡터를 빼고(사실 3개 서브레딧의 평균끼리 빼는 것이죠), 그렇게 얻은 축에 Latte 서브레딧을 사영시키면 Latte 서브레딧의 정치적 좌표를 얻을 수 있습니다. 이 과정을 도식화하면 아래의 [그림 9], [그림 10]과 같습니다. 정치적 좌표라고 하면 다소 기술적인 용어 같으니, 편하게 정파성 점수(Partisan score)라고 불러도 좋겠습니다.
[그림8] 유의미한 축 식별과 사영(projection) 절차의 도식화
[그림9] 유의미한 축 식별과 사영(projection) 절차의 도식화
내친 김에 부트스트랩 신뢰구간까지 함께 고려해보겠습니다. Period 1의 모든 데이터셋에서 랜덤으로 추출한 크기 N=1억인 하위 데이터셋 20개를 얻는다고 했지요. 각각의 데이터셋에서 커뮤니티 임베딩을 수행한 후, 마찬가지 절차를 통해 Latte 서브레딧의 정파성 점수 20개를 얻을 수 있습니다. [그림 9]와 [그림 10]의 과정을 20번 수행한 것이죠. 그 정파성 점수들 가운데 두 번째로 작은 값과 두 번째로 큰 값 사이에 Latte 서브레딧 정파성 점수의 참값이 있을 것으로 추정하는 방법을 연구는 사용합니다. Period 1부터 4까지 구성한 4개의 정파성 점수 부트스트랩 신뢰구간들이 서로 겹치지 않는다면, Latte 서브레딧의 정파성 점수는 유의하게 변하고 있다고 볼 수 있습니다. 반대로 서로 겹친다면, 그것은 시점에 따른 문화적 변동보다는 모델 각각의 불확실성이 강하게 나타난다고 해석합니다.
3. 커뮤니티 임베딩을 통한 성향 분석 사례
지금까지 설명한 커뮤니티 임베딩 기법을 실제 데이터에 적용하였을 때, 무엇을 발견할 수 있을까요? 이 장에서는 사례를 통해 레딧에서 특정한 관심사를 가진 이용자들의 성향이 어떻게 변화해왔는지, 그리고 현재 어떤 위치에 있는지를 살펴봅니다. 2장에서 살펴본대로, 서브레딧이 특정한 이념적 축에서 차지하는 위치는, 해당 서브레딧의 이념적 성향을 말해줍니다.
부트스트랩 표본에서 얻은 중앙값과 신뢰구간은, 서브레딧의 이념적 성향의 전반적 경향 및 일반화 가능성을 말해줍니다. 만약 신뢰구간이 좁다면 해당 서브레딧 이용자들의 이념적 성향이 균일하게 분포하며, 모델 각각의 불확실성이 적은 강건한 추정 결과라고 해석할 수 있습니다. 반대로 신뢰구간이 넓다면, 해당 서브레딧 이용자들의 이념적 성향이 심하게 이질적으로 분포하고 있어 표본 추출에 영향을 미쳤거나, 모델 각각의 불확실성에 민감한 추정 결과입니다.
이러한 세부사항을 염두에 두고, 다양한 주제에 대한 서브레딧들의 성향을 추정한 결과를 살펴보도록 하겠습니다.
(1) K-pop 팬덤은 이념적으로 차별화된 지향을 가지고 있을까?
K-pop 은 이제 한국어 화자뿐만 아니라, 전세계의 시민들이 향유하는 보편적 대중문화로 자리잡았습니다. 그리고 다른 한편으로, 한국이 아닌 미국에서 정치적 저항의 구심점으로 기능하기도 합니다. 그렇다면 K-pop을 향유하는 이용자들은 정말로 다른 집단과 뚜렷하게 구분되는 이념적 지향을 가지고 있을까요? 이를 알아보기 위해 K-pop과 일반 팝 아티스트 사이의 이념적 차이를 살펴보았습니다.
[그림10] 서브레딧 이념 궤적 시각화 예제
우선 간단한 사례를 통해 그래프를 읽는 방법을 알아보겠습니다. 위의 그래프에서 왼쪽 패널(K-pop 서브레딧)은 K-pop 아티스트와 관련된 서브레딧의 이념 궤적을, 오른쪽 패널(팝 서브레딧)은 팝아티스트와 관련된 서브레딧의 이념 궤적을 보여줍니다. 각 패널의 X축(수평 방향) 페미니즘에 대한 태도를 보여줍니다. 음수 방향(각 패널의 왼쪽)으로 갈수록 페미니즘에, 양수 (각 패널의 오른쪽)방향으로 갈수록 안티페미니즘에 더 우호적인 태도를 의미합니다. 각 패널의 Y 축(수직 방향)은 인종문제와 같은 사회정의에 대한 태도를 보여줍니다. 음수 방향(각 패널의 아래쪽)으로 갈수록 인종과 같은 사회적 불평등이나 차별 문제에 대한 윤리적 개입을 선호하며, 양수 방향(각 패널의 위쪽)으로 갈수록 표현의 자유를 중시하고 윤리를 내세운 검열에 적대적인 태도를 보입니다.
각 축의 숫자는 표준화된 상대적 위치(Z 점수)를 의미합니다. 즉, 절대값이 클수록 평균에서 더 멀어진 극단적인 쏠림을 의미합니다. 따라서 각 사분면이 표현하는 이념적 성향은 다음과 같습니다. 1사분면(X축과 Y축 모두 양수)은 안티페미니즘과 대안우파에 우호적인 태도를 나타냅니다. 즉, 일관성 있는 보수적 태도입니다. 2사분면(X축은 음수, Y축은 양수)은 페미니즘에는 우호적이지만, 인종문제 등의 다른 차별문제에서는 정치적 올바름에 적대적인 태도를 나타냅니다. 3사분면(X축과 Y축 모두 음수)은 페미니즘과 정치적 올바름에 모두 우호적인, 일관성있는 자유주의적 태도입니다. 4사분면(X축은 양수, Y축은 음수)은 2사분면과 정 반대로 인종문제 등에서는 정치적 올바름에 우호적이지만, 페미니즘에는 적대적인 태도를 나타냅니다.
그리고 서로 다른 도형(원형, 삼각형, 사각형)으로 표현되는 각 점의 위치는 특정 시기에 개별 서브레딧의 상대적인 이념 좌표를 나타냅니다. 이때 도형의 모양은 각 축에서 부트스트래핑을 통해 얻은 90% 신뢰구간이 0을 포함하느냐의 여부에 따른 통계적 유의미성 판정을 나타냅니다. 원형일 경우, 해당 시기의 서브레딧이 젠더와 사회정의 차원 모두에서 신뢰구간에 0을 포함하고 있으며, 사각형일 경우, 해당 시기의 서브레딧이 젠더와 사회정의 차원 모두 신뢰구간에 0을 포함하지 않으며 두 차원 모두에서 유의미한 편향을 보인다는 것을 의미합니다.
도형 내부의 색깔은 정치 차원에서의 통계적 유의미성을 나타냅니다. 파란색으로 채워질 경우, 유의미하게 민주당에 가까우며, 빨간색으로 채워질 경우 유의미하게 공화당에 가깝습니다. 도형 및 선의 투명도는 시간의 흐름을 나타냅니다. 진할수록 최근 시기를 의미합니다. 그리고 외곽선의 색깔은 서로 다른 서브레딧들을 구분해줍니다.
이러한 사항을 염두에 두고 다시 그래프를 보도록 하겠습니다. 팝 서브레딧 패널의 비욘세(Beyonce) 서브레딧은 전 기간에 걸쳐 젠더 차원에서 -1~-2 사이의 값을 보여줍니다. 이에 비해, K-pop 서브레딧의 방탄소년단(bangtan) 의 서브레딧은 동일한 차원에서 0~-0.5 사이의 값을 보여줍니다. 따라서 비욘세 서브레딧이 방탄소년단 서브레딧에 비해 전반적으로 페미니즘에 더 우호적인 방향으로 쏠려있다고 할 수 있습니다. 또한 비욘세 서브레딧은 오바마 2기에는 유의미하게 페미니즘적 지향을 지녔으나, 트럼프 1기에는 젠더 및 사회정의에 대한 태도가 더 불확실해진 반면 확실한 민주당 지지로 변화하였습니다. 가장 최근인 바이든 1기에는 유의미한 페미니즘, 사회정의 지향으로 변화함과 동시에 민주당 지지를 유지하고 있습니다.
이에 비해, 방탄소년단 서브레딧은 오바마 2기에는 평균적으로 페미니즘과 사회정의를 지향하나 통계적으로 유의미한 결과는 아니었습니다. 트럼프 1기에는 페미니즘적 지향이 조금 더 약해졌으며, 대안우파 방향으로의 급격한 전환이 나타났으나 역시 일반화할 수 있는 유의미한 변화는 아닙니다. 가장 최근인 바이든 1기에는 오바마 2기와 거의 동일한 위치로 복귀하였으나, 젠더 차원에서 유의미하게 페미니즘에 우호적인 성향을 보여줍니다. 그리고 전 시기에 걸쳐 뚜렷한 정당 선호는 보여주지 않습니다.
칸예 웨스트(Kanye) 서브레딧은 오바마 2기에는 비욘세 서브레딧과 마찬가지로, 일관된 자유주의적 가치관을 표현하는 3사분면에 위치하였으나 트럼프 1기에는 이전 시기와 정 반대로 일관된 보수적 가치관을 표현하는 1사분면으로 이동하였으며 통계적으로도 유의미한 차이를 보였습니다. 즉, 해당 시기에 칸예 웨스트 서브레딧은 급격한 이념적 전향을 겪었습니다. 하지만 가장 최근인 바이든 1기에는 거의 영점으로 돌아오며 두 차원 모두에서 통계적으로 유의미한 편향을 보이지 않게 되었습니다. 요약하면, 해당 서브레딧은 불확실한 진보에서 확실한 보수로, 다시 불확실한 중도로의 이념적 전환을 거쳤습니다. 이에 비해 블랙핑크(BlackPink) 서브레딧은 평균적으로 약한 안티페미니즘, 정치적 올바름에 우호적인 위치에서 대안우파에 우호적인 위치로 수직 이동을 하였습니다. 다만 블랙핑크 서브레딧은 전 시기에 걸쳐 통계적으로 유의미한 편향을 보이지 않기 때문에, 이러한 이동 경로가 레딧의 블랙핑크 팬덤의 균일한 경향을 나타내는 것은 아닙니다.
[그림11] K-pop/Pop 아티스트 관련 서브레딧들의 이념적 궤적
그렇다면 이제 더 많은 아티스트 관련 서브레딧들의 이념적 궤적을 표현하는 그래프를 보겠습니다. 그래프를 읽는 방식은 바로 앞선 그래프와 동일합니다. K-pop과 팝 서브레딧에서 가장 눈에 띄는 차이 중 하나는 아티스트의 성별에 따른 차이입니다. K-pop 팬덤은 남성 아티스트와 관련된 서브레딧들이 페미니즘에 우호적인 경향인 데에 비해, 팝 팬덤은 여성 아티스트와 관련된 서브레딧들이 페미니즘에 우호적인 경향을 보입니다. 물론 K-pop에서 대부분의 서브레딧은 통계적으로 유의미한 차이를 보이지 않기 때문에 결과를 일반화할 수는 없지만 (다시 말해 팬덤의 일부가 페미니즘적 경향을 보입니다), 여성 팝 아티스트 관련 서브레딧의 상당수는 유의미하게 페미니즘에 우호적인 태도를 보여줍니다. 그리고 이념적 편향성의 강도 역시 팝 팬덤이 K-pop 팬덤에 비해 더욱 강합니다.
다른 한편으로는 인종 이슈와 연관된 사회정의 차원에서의 분포 차이에 주목할 수 있습니다. 결과를 일반화하기는 어렵지만, 페미니즘적 지향을 보이는 팝 아티스트 관련 서브레딧들은 사회정의에 대한 평균적 태도가 정치적 올바름을 지향하는 위치에 분포합니다. 이에 비해 K-pop 아티스트 및 K-pop일반에 대한 서브레딧은 대부분 평균적 태도가 대안우파에 좀 더 가까운 분포를 보여줍니다. K-pop 일반에 대한 논의를 다루는 대규모 서브레딧(kpopthoughts)은 유의미하게 페미니즘 지향적이면서, 동시에 대안우파적 경향을 보여줍니다. 전반적으로 대부분의 시기에 남성 K-pop 아티스트 서브레딧은 2사분면, 여성 K-pop 아티스트 및 남성 팝 아티스트 서브레딧은 1사분면, 여성 팝 아티스트 서브레딧은 3사분면에 분포합니다.
K-pop에 대한 통념과 다르게, 실제 레딧에서 이용자들의 행동을 기반으로 한 추정 결과에서는 K-pop 팬덤이 특별히 더 일관된 자유주의적 지향을 보여주지 않습니다. 오히려 미국의 기존 여성 팝 아티스트에 대한 서브레딧이 더욱 일관된 자유주의적 지향을 보여주고 있습니다. 통계적으로 유의미한 결과는 아니지만, K-pop 팬덤은 페미니즘 지향적면서도 인종문제가 결합된 사회정의 차원에서는 오히려 대안우파에 더 가까운 태도를 보여줍니다. 다만 일부 남성 아티스트 관련 서브레딧(BTS; bangtan, 샤이니; SHINee, 엔씨티; NCT)은 평균적으로 자유주의적 지향을 보이지만 일반화하기는 어려우며, 강도 역시 여성 팝 아티스트 관련 서브레딧에 비해 약합니다.
이러한 결과는 여러 시사 이슈에 대한 발언이 적극적이고 비교적 자유로운 미국의 팝 씬에 비해, 엄격한 소속사의 통제와 대중의 감시하에 ‘중립’ 을 표명하는 한국 아이돌 아티스트의 현실이 그대로 반영된 결과라고 볼 수도 있습니다. K-pop을 향유하는 집단이 젠더 문제에 비해 인종 문제에 대해서는 상대적으로 더 둔감한 것 역시, 미국에 비해 인종 이슈가 전면적으로 다루어지지 않는 한국의 현실이 반영된 결과라고 볼 수도 있습니다. 동시에 거의 모든 서브레딧에서 뚜렷한 정당 선호는 나타나지 않았습니다. 즉, 아티스트 팬덤의 이념적 지향이 곧바로 정치적 선택으로 이어지지 않습니다. 물론 이러한 결과는 어디까지나 레딧의 이용자를 대상으로 한 분석 결과이기 때문에, 실제 문화를 향유하는 전체 팬덤에 대한 해석으로 확장하기 위해서는 추가적인 자료가 필요합니다.
(2) 학문 분과에 따른 가치관의 차이가 있을까?
레딧에는 다양한 학문 분과에 대한 서브레딧들이 존재합니다. 각 서브레딧들에는 해당 분과를 전공하는 학생이나 현업 전문가, 관심있는 일반인들이 모여들어 지식을 공유하고 질의응답을 나눕니다. 그렇다면 전공 혹은 관심 분야에 따라 가치관이 다를까요? 이를 알아보기 위해 레딧에 존재하는 지식 관련 서브레딧들을 대분야에 따라 분류한 후 정파, 경제관, 젠더 관련 태도의 차이를 살펴보았습니다.
[그림12] 학문 분과별 정당 선호 변화 추이
정파성 차원에서는 전반적으로 사회과학 분야가 가장 진보적인 경향을 보여줍니다. 그 중에서도 저널리즘과 사회학 관련 서브레딧은 바이든 1기에 확실한 민주당으로의 편향을 보여줍니다. 예술 분야에서는 현대미술(ContemporaryArt)가, 자연과학 분야에서는 생물학(biology)가 유의미한 민주당으로의 편향을 보여주며, 이러한 편향은 모두 가장 최근 시기인 바이든 1기에 나타납니다. 통계적으로 유의미하지 않으므로 일반화하기는 어렵지만, 전반적으로 사회과학, 예술, 자연과학이 공학에 비해 더 민주당에 가까운 경향을 보입니다.
[그림13] 학문 분과별 경제 가치관 변화 추이
경제관 차원에서는 경제학 관련 서브레딧(Economics)이 가장 눈에 띄는 편향을 보여줍니다. 모든 분과를 통틀어 가장 강한 자유방임주의 선호를 나타냅니다. 이 외에는 예술 분과의 디자인(Design), 공학 분야의 기계공학(MechanicalEngineering)이 가장 최근 시점에 유의미하게 자유방임주의를 선호합니다. 이에 비해 사회학은 꾸준히 정부개입을 선호합니다. 언어학(linguistics)과 철학(philosophy)는 과거에는 정부개입을 더 선호하였으나, 가장 최근 시기에는 유의미한 편향이 사라졌습니다. 즉, 전 시계열에 걸쳐 강력하고 유의미한 편향적 선호를 보이는 분야는 사회과학 분과의 경제학과 사회학이며, 각각 자유방임주의와 정부개입에 대한 편향을 보여줍니다.
[그림14] 학문 분과별 젠더 가치관 변화 추이
젠더 차원에서는 사회과학 분야의 지속적인 페미니즘 방향으로의 이동이 두드러집니다. 경제학과 심리학 서브레딧은 오바마 1기에는 유의미하게 안티페미니즘 지향을 가지고 있었으나, 지속적으로 페미니즘 방향으로 이동을 하여 바이든 1기에 이르러서는 평균적으로 페미니즘적 지향을 지니거나 강건하게 페미니즘적 지향을 가지게 되었습니다. 경제학을 제외한 사회과학 분과의 모든 서브레딧은 가장 최근 시점에 모두 유의미하게 페미니즘적 지향을 가지고 있습니다. 예술 분야 역시 연기(acting)과 연주(musicians) 관련 서브레딧을 제외하면 최근 시점에 모두 유의미한 페미니즘적 지향을 보여줍니다. 이에 비해 다른 분과에서는 생물학을 제외하면 젠더 차원에서 통계적으로 유의미한 편향이 관측되지 않습니다.
(3) 게이머들은 어떤 경제적 가치관을 가지고 있을까?
레딧은 디지털 문화와 IT기술에 친숙한 젊은 세대가 주축을 이루는 커뮤니티입니다. 그만큼 소프트웨어 및 게임과 관련된 서브레딧들도 활성화되어있습니다. 그렇다면 디지털 문화를 향유하는 이용자들은 전통적인 문화를 향유하는 이용자들과 서로 다른 가치관을 가지고 있을까요?
게이머들은 디지털 아이템 거래, 스킨 구매 등 게임 내 경제에 익숙합니다. 따라서 이들은 가상화폐, NFT나 토큰 경제와 같은 새로운 재화와 자산에도 더 개방적인 태도를 보일 것이라고 예측할 수 있습니다. 더불어 전통적인 실물경제의 관점에서만 본다면 게임 내에서 거래되는 재화는 실물이 존재하지 않는, 개념으로만 존재하는 재화입니다. 그러므로 디지털 문화보다는 아날로그 문화를 선호하는 이용자들은 가상 자산에 대해 더 보수적인 태도를 가질 것이라고 예상할 수 있습니다.
[그림15] 디지털/아날로그 취미 관련 서브레딧들의 경제적 태도 궤적
위의 그래프는 그 결과를 보여줍니다. 그래프의 X축(수평 방향)은 가상자산에 대한 태도를 보여줍니다. 음수 방향으로 갈수록 가상자산(가상화폐, NFT 등)에, 양수 방향으로 갈수록 전통자산(부동산, 주식 등)에 더 관심이 많다는 것을 의미합니다. Y 축(수직 방향)은 경제관을 보여줍니다. 음수 방향으로 갈수록 경제에 정부가 개입하는 것을 선호하며, 양수 방향으로 갈수록 시장에 맡겨두는 방침을 선호합니다. 각 축의 숫자는 표준화된 상대적 위치(Z 점수)를 의미합니다. 즉, 절대값이 클수록 평균에서 더 멀어진 극단적인 쏠림을 의미합니다. 각 도형의 모양과 내부 색깔, 투명도는 각각 축에서의 통계적 유의미성, 정당 선호 유의미성, 시기를 나타냅니다.
디지털/게임 문화와 관련된 서브레딧은 트럼프 1기에 대부분 가상자산에 친화적인 방향으로 쏠렸으나, 가장 최근인 바이든 1기에는 통계적으로 유의미한 쏠림이 사라집니다. 이러한 경향은 오픈소스 운영체제인 리눅스 관련 서브레딧(linux)와 안드로이드 관련 서브레딧(Android)에서 동일하게 나타납니다. 이에 비해 폐쇄형 운영체제인 윈도우 및 애플 관련 서브레딧들 (windows, apple)에서는 트럼프 1기에도 가상자산에 친화적인 방향으로의 쏠림이 나타나지 않습니다. 유의미한 차이는 아니지만, 대중적이고 온라인 기반의 게임에 비해 이용자층이 좀 더 매니아 위주이며 싱글플레이 기반의 게임(totalwar, BaldursGate3)은 전통자산에 더 친화적인 태도를 보여줍니다.
다른 한편으로, 애플을 제외한 다른 서브레딧들은 경제관 차원에서 전 시기에 걸쳐 일관된 강한 선호를 보여주지는 않습니다. 리눅스와 안드로이드 관련 서브레딧들은 오바마 1기나 2기에는 유의미하게 시장자유를 선호하였지만, 트럼프 1기 이후에는 모두 경제관에서 유의미한 선호의 차이를 보여주지 않습니다. 오직 애플 서브레딧의 이용자들만이 모든 시기에 걸쳐 유의미하게 시장자유를 선호하며, 쏠림 역시 큽니다.
아날로그 취미와 관련된 서브레딧의 경제적 가치관은 디지털/게임 관련 서브레딧에 비해 더 뚜렷하게 나뉘어 있습니다. 골프, 시계와 같이 상대적으로 부유한 계층이 즐긴다고 인식되는 서브레딧(golf, Watches)은 전통적 형태의 자산에 친화적이거나 자유방임주의를 선호합니다. 이에 비해 보드게임(boardgames), LP레코드(vinyl), 만년필(fountainpens) 등을 다루는 서브레딧에서는 뚜렷한 편향이 나타나지 않습니다.
통계적으로 유의미한 차이는 아니지만, 상대적으로 다른 사람과 접촉이 필요하거나 집 밖에서 즐기는 취미와 관련된 서브레딧들은 시장친화적이며, 반대로 혼자서 집에서 즐길 수 있는 취미와 관련된 서브레딧들은 정부개입에 우호적인 분포를 보여줍니다.
이러한 결과는 가상자산에 대한 태도가 시간의 흐름에 민감하게 영향을 받고 있음을 보여줍니다. 예상했던대로 디지털/게임 관련 서브레딧들은 트럼프 1기에는 가상자산에 큰 관심을 보이며 우호적인 태도를 보이지만, 코로나 판데믹을 거치며 가상자산이 본격적인 조명을 받고 가치가 급상승하는 바이든 1기에는 오히려 유의미한 쏠림이 사라집니다. 이에 비해 아날로그 취미와 관련된 서브레딧은 가상 자산에 대해 어떠한 편향도 보이지 않거나, 바이든 1기에 가상자산에 조금 더 친화적인 방향으로 이동하는 현상을 보여줍니다. 가상자산의 지속적인 가치 상승과 대중화로 인해, 그만큼 전통적인 자산과 인식 격차가 줄어들어 나타나는 현상으로 추정할 수 있습니다.
지금까지 다양한 사례를 통해 커뮤니티 임베딩의 활용 가능성을 탐색하였습니다. 커뮤니티 임베딩은 이용자들의 실제 행동 패턴을 기반으로 하여, 하위 커뮤니티 사이의 관계를 학습합니다. 이러한 접근 방식은 이용자들이 작성한 모든 댓글의 내용을 분석하는 방식에 비해 계산 자원과 시간이 훨씬 적게 소요되면서도, 신뢰도 있는 추정 결과를 얻을 수 있습니다. 그리고 이 방식은 레딧이라는 특정 커뮤니티뿐만 아니라, 개별 이용자를 식별할 수 있고 행적을 파악할 수 있는 환경이라면 어떤 커뮤니티라도 동일하게 적용할 수 있습니다. 따라서 이후 다른 온라인 공간에 대한 자료가 수집된다면, 해당 공간의 이념적 지도 역시 그릴 수 있습니다. 커뮤니티 임베딩 방법은 온라인 공간에서 벌어지는 수많은 상호작용과 갈등의 구조를 파악하는 데에 좋은 단초가 될 것입니다.
레딧에서 커뮤니티 임베딩을 위해 사용한 자료의 규모는 아래와 같습니다. 레딧의 모든 댓글을 시기별로 분할하여 상위 2만개 이내의 서브레딧에 작성된 댓글만 추출하였습니다. 시기별로 고유 이용자 단위로 부트스트랩 추출을 수행한 후, 시기별로 20개의 부트스트랩 표본에 모두 포함되어 있는 서브레딧에 대해서만 사회적 차원 점수를 추정하였습니다. 즉, 임베딩 서브레딧수가 모든 부트스트랩 표본에 포함되어 있는, 분석에 직접 활용된 최종 서브레딧의 규모입니다. 결과적으로 각 시기별 서브레딧에 대한 사회적 차원 점수 자료는 ‘임베딩 서브레딧수 X 사회적 차원 수(34개)’ 의 규모로 구성됩니다.
[그림16] 시기별 데이터셋 크기
아래의 그림들은 각 시기별로 첫 번째로 추출된 부트스트랩 표본에서 추정된 임베딩 결과(총 300차원)를 TSNE 알고리즘을 활용하여 2차원으로 축소한 결과입니다. 각 점은 개별 서브레딧들을 나타내며, 파란색과 빨간색으로 표시된 점들은 각각 모든 부트스트랩 표본에서 유의미하게 민주당과 공화당으로의 쏠림을 보이는 서브레딧들입니다.
[그림17] 오바마 1기(2009-2012) 커뮤니티 임베딩 분포
비교적 레딧의 초창기에 해당하는 오바마 1기의 임베딩 결과에서는 뚜렷한 정당 선호를 보이는 서브레딧들이 군집(좌측 중앙)을 이루고 있습니다. 대부분 직접적으로 정치, 사회 문제들을 다루는 서브레딧들로 구성되어 있습니다. 그 외에 최대 군집의 우측 하단에는 총기와 관련된 서브레딧들이, 우측 상단에는 게임과 관련된 서브레딧들이 공화당에 대한 선호를 보여줍니다. 그래프 전체에서 우측 중앙은 성소수자 관련 서브레딧들이 민주당에 대한 선호를 보여줍니다. 그 외에는 지식 및 여성과 관련된 서브레딧들은 민주당 선호를, 종교 및 스포츠와 관련된 서브레딧들은 공화당 선호를 보여줍니다.
[그림18] 오바마 2기(2013-2016) 커뮤니티 임베딩 분포
레딧의 생태계가 본격적으로 확장된 오바마 2기의 임베딩에서는 정파적 선호가 뚜렷한 서브레딧들이 더 다양한 군집을 이루고 있습니다. 대부분 공화당 선호 서브레딧으로 구성된 명확한 종교 군집(가운데), 총기 군집(좌측 하단)과, 대부분 민주당 선호 서브레딧으로 구성된 반체제 군집(가운데 하단), 사회정의 관련 서브레딧들로 구성된 군집(좌측 상단), 직접적인 정치 관련 군집(우측)들이 관측됩니다. 이 시기부터 도널드 트럼프 지지, 백인 우월주의, 안티페미니즘 관련 서브레딧들(좌측 상단)이 본격적으로 등장하며 동일한 군집 내에서 민주당 지향의 사회정의, 페미니즘 서브레딧들과 대립 구도를 형성합니다.
[그림19] 트럼프 1기(2017-2020) 커뮤니티 임베딩 분포
트럼프 1기의 레딧 생태계는 전반적으로 정파적 선호가 뚜렷한 서브레딧이 유사한 위치에 분포하는 바이든 1기와 유사한 형태를 보입니다. 하지만 이는 생태계의 확장이 주로 비정치적 서브레딧 방향으로 이루어진 결과입니다. 그래프의 상단에는 직접적으로 정치, 사회, 문화, 종교 등과 관련된 서브레딧들이 모두 모여있습니다. 즉, 직전 시기에 분화되었던 각 영역들이 타 영역의 확장으로 인해 상대적으로 다시 밀집하게 되었습니다. 그리고 상단의 광범위한 군집 내에서 공화당을 선호하는 서브레딧들은 강한 하위군집을 이루며, 섬과 같은 형태로 밀집하여 존재합니다.
[그림20] 바이든 1기(2021-2024) 커뮤니티 임베딩 분포
가장 최근인 바이든 1기에도 특정 위치에 대규모 정치사회 관련 군집(우측 하단)이 존재하지만, 주변의 소규모 군집들이 더 뚜렷하게 나타납니다. 특히 중앙 하단의 공화당 선호 서브레딧들은 종교, 총기 관련 서브레딧들로 강하게 밀집된 군집을 보여줍니다. 하단의 대규모 군집 주변 외에도 전반적으로 정파적 편향이 있는 서브레딧이 광범위하게 분포합니다. 이 중에서, 좌측 중앙 및 상단의 성 관련 서브레딧 군집에서 성소수자와 관련된 서브레딧들이 민주당 선호를 보여주지만, 이 군집에서 공화당 선호를 보여주는 서브레딧은 찾기 어렵습니다. 한편으로 우측 중앙의 생활양식 관련 서브레딧 소군집에서, 트럭, 트랙터, 포드와 관련된 서브레딧들은 공화당 선호를 보여줍니다.
<참고 문헌>
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013).
Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
Kozlowski, A. C., Taddy, M., & Evans, J. A. (2019). The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), 905-949.