중앙대학교 영상콘텐츠융합연구소
Smart Image Content Research Center
Chung-Ang University
Smart Image Content Research Center
Chung-Ang University
총서 제1권 소개글
영상콘텐츠융합연구소는 2025년부터 2031년까지 한국연구재단의 글로벌인문사회융합연구지원사업(과제명: 감성 AI 기반 글로벌 문화콘텐츠 스토리텔링과 이미지 생성 연구)을 수행하고 있습니다. 학술 활동 결과물을 체계적으로 취합하고 확산하기 위해 ‘감성 AI 글로벌 콘텐츠 총서’를 준비하고 있으며, 2026년에 발간할 제1권은 ‘감성 AI- 기술, 예술, 인간의 경계를 다시 묻다’라는 제목의 공동 칼럼집입니다. 감성 AI라는 키워드와 관련된 단순한 기술 소개서가 아닌 ‘인간과 AI가 감정을 매개로 어떻게 공존할 것인가?’라는 질문을 출발점으로 인간-기계-예술의 관계를 재사유하는 학제간 대화의 장을 만들고자 합니다. 이곳에 수록하는 칼럼들은 총서에 담길 원고들의 요약본이자 소개글로 준비했으며, 매주 한 편씩 업데이트할 예정입니다. 앞으로 이어지게 될 감성 AI 담론들에 많은 관심 부탁드립니다.
4월 2호. 감정을 읽는 AI는 무엇을 배우는가
감성 알고리즘과 모델의 현재, 그리고 다음 질문
오지형
중앙대학교 첨단영상대학 교수
우리는 이제 AI 및 기계가 사람의 얼굴을 보고, 목소리의 떨림을 듣고, 문장의 어조를 읽으며 감정을 추정하는 시대에 살고 있다. 누군가는 이를 “감정을 이해하는 인공지능”이라 부르고, 또 누군가는 아직 그 표현이 너무 이르다고 말한다. 실제로 오늘의 감성 AI는 인간의 내면을 완전히 이해한다기보다, 감정이 바깥으로 드러나는 여러 신호를 통계적으로 학습하고 해석하는 기술에 가깝다. 그런데 바로 이 지점이 흥미롭다. 감성 알고리즘은 인간의 감정을 있는 그대로 읽는가, 아니면 데이터 속에서 반복적으로 나타난 감정의 표정을 계산하는가.
「감성 알고리즘&모델」은 바로 이 질문에서 출발한다. 감성 AI의 핵심은 단순히 ‘기쁨, 슬픔, 분노’를 맞히는 분류기 (classifier)를 만드는 일이 아니다. 오히려 더 중요한 것은 감정을 어떤 형태로 모델링할 것인가의 문제다. 감정을 몇 개의 범주로 나눌 것인지, 혹은 쾌·불쾌 (valence)와 각성도 (arousal) 같은 연속 좌표 위에서 볼 것인지, 얼굴만 볼 것인지 아니면 음성, 텍스트, 몸짓, 장면 맥락까지 함께 읽을 것인지에 따라 전혀 다른 알고리즘이 만들어진다. 결국 감성 모델은 인간 감정의 본질을 그대로 복사한 기술이 아니라, 감정을 어떤 관점에서 정의하고 표현할 것인지에 대한 하나의 이론적 선택이기도 하다.
최근 이 분야는 매우 빠르게 확장되고 있다. 초창기에는 얼굴 표정 인식 (facial expression recognition)이 중심이었다면, 이제는 인물의 주변 장면과 사회적 맥락을 함께 해석하는 문맥 기반 감정 인식 (context-aware emotion recognition), 음성·텍스트·영상 신호를 함께 다루는 멀티모달 감정 인식 (multimodal emotion recognition), 나아가 대규모 언어모델과 비전모델을 결합해 감정의 이유와 상황까지 추론하려는 시도로까지 이어지고 있다. 감정은 더 이상 얼굴 근육의 미세한 움직임만으로 설명되지 않는다. 같은 표정도 상황에 따라 전혀 다른 감정이 될 수 있고, 같은 문장도 목소리와 관계 맥락에 따라 다르게 받아들여진다. 감성 AI가 점점 더 복잡한 모델을 요구받는 이유가 여기에 있다.
하지만 성능이 높아질수록 질문도 함께 어려워진다. 기계가 학습한 감정은 누구의 감정인가. 데이터셋 (dataset)에 많이 등장하는 문화권의 표정과 언어 습관이 보편적 감정처럼 오인되지는 않는가. 억지 미소, 사회적 가면, 문화적 차이, 감정의 중첩과 모호성은 알고리즘 안에서 얼마나 살아남는가. 감성 AI는 인간을 더 잘 이해하기 위한 기술이 될 수도 있지만, 반대로 인간의 복잡한 감정을 지나치게 단순한 라벨 (label)로 환원하는 장치가 될 위험도 함께 안고 있다. 그래서 감성 알고리즘의 문제는 단지 공학의 문제가 아니라, 인간 이해의 방식에 관한 철학적 문제이기도 하다.
그림 : 감성 AI
이번 글에서는 이러한 흐름을 따라 감성 AI의 주요 알고리즘과 모델이 어떻게 발전해왔는지, 그리고 앞으로 어떤 방향으로 나아가야 하는지를 살펴보고자 한다. 얼굴 표정 데이터셋에서 시작된 전통적 접근, 장면과 관계를 읽는 문맥 모델, 음성·텍스트·영상이 결합된 멀티모달 구조, 그리고 최근의 대규모 사전학습 (pre-training) 및 생성형 AI와 연결되는 흐름까지 차례로 짚어볼 예정이다. 동시에 “감정을 잘 맞히는 모델”을 넘어, “감정을 얼마나 책임 있게 다루는 모델인가”라는 질문도 함께 던지고자 한다.
감정을 읽는 기계는 결국 인간을 어떻게 상상하는 기계인가. 감성 알고리즘의 역사는 단지 더 높은 정확도의 경쟁이 아니라, 인간의 감정이 과연 측정될 수 있는가를 둘러싼 긴 사유의 역사이기도 하다. 이 글은 그 기술적 진보를 소개하는 데서 멈추지 않고, 감성 AI가 인간과 예술, 커뮤니케이션, 그리고 미래의 인터페이스를 어떻게 바꾸고 있는지까지 함께 바라보려 한다. 감정을 계산하는 기술의 시대에, 우리는 오히려 다시 질문해야 한다. 감정은 데이터가 되면 더 잘 이해되는가, 아니면 다른 방식으로 다시 낯설어지는가.
4월 1호. 인공지능은 문화를 어떻게 이해하는가: 문화적 맥락 속 의미와 감성을 반영한 데이터와 평가의 변화
김학구
중앙대학교 메타버스융합학과 교수
우리는 흔히 인공지능이 사람처럼 세상을 “이해한다”고 말한다. 사진을 보고 상황을 설명하고, 질문에 자연스럽게 답하는 모습을 보면, 인공지능이 인간과 유사한 방식으로 의미를 파악하고 있다고 느끼기 쉽다. 그러나 그 이해가 항상 동일한 방식으로 작동하는 것은 아니다. 예를 들어, 누군가에게 행운을 빌기 위해 손가락을 교차하는 제스처의 경우, 미국에서는 긍정적인 의미를 갖지만, 다른 문화권에서는 전혀 다른, 부적절한 의미로 해석되기도 한다. 실제로 해당 제스처는 문화에 따라 “행운을 빈다”는 표현으로 이해되기도 하고, “외설적인 의미”로 받아들여지기도 한다 (그림 1). 이러한 차이는 제스처 인식에만 국한되지 않는다. 여성의 초상화를 두고도, 어떤 문화권에서는 “단정하게 앉아 있는 모습이 만족스럽다”고 묘사되는 반면, 다른 문화권에서는 “복장이 지나치게 노출되어 부적절하다”고 인식되기도 한다 (그림 2). 즉, 같은 이미지를 보더라도 그것이 전달하는 감성과 의미는 문화적 맥락에 따라 크게 달라진다.
그림 1. MC-SIGNS 데이터셋: 지역과 문화에 따라 달라지는 제스처 해석
그림 2. ArtElingo-28 벤치마크 데이터셋: 객관적 사실보다 주관적 의견 및 언어와 문화에 걸친 다양성 강조
최근 인공지능, 특히 시각-언어 모델(Vision-Language Models, VLMs)이나 대형 언어 모델(Large Language Models, LLMs)은 객체를 인식하거나 질문을 이해하고 자연스럽게 답하는 일에 대해서는 이미 인간과 유사한 수준에 도달했다는 평가도 있다, 하지만 이러한 성능은 주로 “무엇이 보이는가” 또는 “문장이 무엇을 의미하는가”와 같은 일반적인 이해 능력에 기반한 것이다. 문제는, 이러한 모델이 문화적 맥락을 요구하는 질문에 대해서는 종종 부적절하거나 엇나간 답변을 생성하여 쉽게 실패한다는 점이다. 이는 단순한 오류라기보다, 인공지능이 학습한 세계 자체가 특정 문화에 편향되어 있기 때문이라는 지적이 이어지고 있다.
이러한 한계의 중요한 원인 중 하나는 데이터에 있다. 현재 인공지능 모델은 방대한 양의 이미지와 텍스트 데이터를 통해 학습되는데, 이 데이터는 특정 지역과 언어, 특히 서구권 중심으로 구성된 경우가 많다. 그 결과, 모델은 자연스럽게 그 문화에서 자주 등장하는 대상과 표현에는 강해지지만, 다른 문화에 대해서는 충분한 이해를 갖추지 못하게 된다. 다시 말해, 인공지능이 이해하는 “세계”는 실제 세계의 다양성을 온전히 반영하지 못한 채, 특정 방식으로 편집된 세계에 가깝다. 하지만 더 근본적인 문제는 이러한 한계가 그동안 충분히 드러나지 않았다는 점이다. 기존의 인공지능 평가 방식은 주로 객체 인식이나 문장 이해처럼 비교적 보편적인 과제에 초점을 맞추고 있었으며, 문화에 따라 해석이 달라질 수 있는 상황은 거의 고려하지 않았다. 따라서, 인공지능 모델이 문화적으로 부적절한 답변을 하더라도, 기존의 평가 기준에서는 높은 성능을 기록하는 일이 가능했다. 다시 말해, 문제는 존재했지만, 그것을 드러낼 수 있는 평가 틀이 부족했던 것이다.
이러한 인식 위에서, 최근 연구들은 데이터와 평가 방식을 함께 재구성하는 방향으로 나아가고 있다. 한편에서는 더 다양한 국가와 언어, 그리고 문화적 맥락을 포함하는 데이터셋을 구축하려는 시도가 이루어지고 있으며, 다른 한편에서는 문화적 맥락을 반영한 새로운 평가 방식을 설계하려는 노력이 이어지고 있다. 예를 들어, 동일한 질문이라도 문화에 따라 다른 해석이 가능하도록 문제를 구성하거나, 단순히 정답 여부가 아니라 해당 문화에서 얼마나 적절한 답변인지를 평가하는 방식이 제안되고 있다. 이는 인공지능 모델을 단순히 “더 많은 정보를 아는 시스템”으로 만드는 것이 아니라, 맥락에 따라 “다르게 이해할 수 있는 시스템”으로 확장하려는 시도라고 볼 수 있다. 나아가 일부 연구에서는 문화와 감성 이해를 단순한 정보의 문제가 아니라 규범과 가치의 문제로 확장하고 있다. 어떤 행동이 적절한지, 어떤 표현이 예의에 맞는지는 단순한 사실 지식만으로는 설명할 수 없으며, 사회적 맥락과 기대를 함께 고려해야 한다. 이러한 관점에서 보면, 문화와 감성 이해는 정답을 맞히는 문제가 아니라, 특정 상황에서 어떤 판단과 해석이 가능한지를 다루는 문제에 가깝다.
이 글은 이러한 흐름을 바탕으로, 인공지능이 문화와 감성을 어떻게 이해하고 있으며, 그 이해를 우리는 어떤 방식으로 드러내고 평가하고 있는지를 살펴보고자 한다. 특히 데이터의 구성과 평가 방식이 이 문제에서 어떤 역할을 하는지, 그리고 최근 연구들이 이 두 요소를 어떻게 재설계하고 있는지를 중심으로 소개한다. 이를 통해 인공지능의 “이해”라는 개념이 어디까지 확장될 수 있는지, 그리고 우리가 기대하는 이해란 무엇인지에 대해 생각해보고자 한다.