중앙대학교 영상콘텐츠융합연구소
Smart Image Content Research Center
Chung-Ang University
Smart Image Content Research Center
Chung-Ang University
총서 제1권 소개글
영상콘텐츠융합연구소는 2025년부터 2031년까지 한국연구재단의 글로벌인문사회융합연구지원사업(과제명: 감성 AI 기반 글로벌 문화콘텐츠 스토리텔링과 이미지 생성 연구)을 수행하고 있습니다. 학술 활동 결과물을 체계적으로 취합하고 확산하기 위해 ‘감성 AI 글로벌 콘텐츠 총서’를 준비하고 있으며, 2026년에 발간할 제1권은 ‘감성 AI- 기술, 예술, 인간의 경계를 다시 묻다’라는 제목의 공동 칼럼집입니다. 감성 AI라는 키워드와 관련된 단순한 기술 소개서가 아닌 ‘인간과 AI가 감정을 매개로 어떻게 공존할 것인가?’라는 질문을 출발점으로 인간-기계-예술의 관계를 재사유하는 학제간 대화의 장을 만들고자 합니다. 이곳에 수록하는 칼럼들은 총서에 담길 원고들의 요약본이자 소개글로 준비했으며, 매주 한 편씩 업데이트할 예정입니다. 앞으로 이어지게 될 감성 AI 담론들에 많은 관심 부탁드립니다.
5월 3호. 국악처럼 들리는 것의 시대
유리나
중앙대학교 영상콘텐츠융합연구소 연구전담교수
AI 음악 생성 기술은 빠르게 발전하고 있지만, 그 기반이 되는 데이터는 심각하게 편향되어 있다. 최근 연구에 따르면, AI 음악 생성에 사용되는 데이터의 약 86%가 서구 음악에 편중되어 있으며, 남반구의 음악은 약14.6% 수준에 불과하다. 또한 많은 연구가 악보 기반의 상징적 음악 표현에 의존하고 있어, 지역 음악의 문화적·수행적 맥락을 충분히 반영하지 못한다[1]. 이러한 조건에서 비서구 전통음악은 단순히 덜 학습되는 것이 아니라, 애초에 부정확한 방식으로 재현될 가능성을 안고 출발한다.
AI가 생성한 음악이 다시 학습 데이터로 축적되는 구조는, 단순한 오류 축적을 넘어 모델 자체의 붕괴로 이어질 수 있다. 실제로 AI가 생성한 데이터를 반복적으로 학습한 모델은 빠르게 성능이 저하되고, 결국 의미 없는 결과를 산출하는 상태에 이르는 것이 확인되었다[2]. 이는 이른바 ‘모델 붕괴(model collapse)’로, 원래 데이터 분포의 드문 패턴들이 사라지고 점점 더 단순하고 왜곡된 형태로 수렴하는 과정이다. 국악 역시 이로부터 자유롭지 않다. 다만 국악은 대규모 시장이 아니라 국가 지원과 제도적 전승을 기반으로 유지되는 영역이기 때문에, 민간 산업을 통한 점진적 오염이 크게 우려되는 상황은 아니다. 오히려 문제는 다른 방식으로 발생할 수 있다. 만약 왜곡된 형태가 한 번 유통되기 시작하면, 그것이 기준처럼 굳어지는 속도는 매우 빠를 것이다. 따라서 이 문제는 시장이 아니라 아카이브의 문제이며, 국악의 학습 데이터 구축과 관리 역시 국가기관이 주도할 필요가 있다.
한편, 이러한 변화는 이미 음악 제작 도구 수준에서 현실이 되고 있다. 애플의 최신 Logic Pro는 AI 기반 ‘스튜디오 어시스턴트’를 통해 작곡, 편곡, 연주를 보조하며, 가상 베이시스트와 키보디스트가 사용자의 입력에 맞춰 즉각적으로 반응하는 ‘세션 플레이어’, 하나의 음원을 여러 파트로 분리하는 ‘스템 스플리터’ 등의 기능을 제공한다[3]. 이 도구들은 창작 과정을 단순히 보조하는 수준을 넘어, 음악 제작의 진입 장벽 자체를 낮추고 있다. 이제 일정 수준의 작곡 기술이 없어도 음악을 구성할 수 있는 조건이 마련된 것이다. 이 변화는 국악 전공자에게 새로운 가능성을 연다. 전공자는 이미 국악의 장단, 시김새, 스타일에 대한 감각과 생성된 결과물을 판단하고 선택할 수 있는 능력을 갖추고 있기 때문이다. 따라서 중요한 것은 더 정교하게 만드는 기술이 아니라, 무엇을 선택하고 어떤 형태로 제시할 것인가에 대한 판단이다.
국악은 오랫동안 생산의 문제가 아니라 소비의 문제를 안고 있었다. 하지만 지금의 기술적 조건은, 국악을 보다 넓은 층위로 유통할 수 있는 새로운 계기가 될 수 있다. 그러나 이 과정에서 ‘국악처럼 들리는 것’이 ‘국악’으로 오인될 위험은 항상 존재한다. 우리가 아무것도 하지 않는다면, ‘국악처럼 들리는 것’이 곧 국악의 기준으로 자리 잡게 될 수 있다는 것이다. 그렇기 때문에 전공자의 역할은 단순한 창작자를 넘어 “무엇을 국악으로 제시할 것인가”를 결정하는 기준 설정자로 확장된다. 결국 문제는 기술이 아니라 주도권이다. 국악은 어떤 음악인가, 국악의 기준을 누가 설정할 것인가. 지금은 그 질문에 답해야 하는 시점이다.
5월 2호. 납득의 속도 - 매끄러운 이미지와 노이즈
한상임
중앙대학교 첨단영상대학원 교수
사진은 한때 무언가가 실제로 존재했다는 증거였다. 롤랑 바르트가 『밝은 방』에서 사진의 본질로 짚은 것도 바로 이 점이다. 사진은 “이것이 존재했다”는 돌이킬 수 없는 과거성을 통해 다른 이미지들과 구별되었다. 그러나 이제 그 문법은 존재하지 않는 것을 실재처럼 읽히게 만드는 데 쓰인다. 사진적 형식은 살아남았지만, 그것이 가리키던 존재의 흔적은 사라졌다. 오늘날 가장 설득력 있는 이미지는 가장 정교하게 만들어진 이미지가 아니다. 가장 자연스럽게 도착하는 이미지다.
생성형 AI 이미지는 이제 단순한 진위 판별의 문제가 아니다. 더 근본적인 질문은 이것이다. 이미지는 어떻게 우리의 판단이 시작되기 전에 이미 납득을 확보하는가. 한 번도 촬영된 적 없는 장면이 사진적 문법을 통해 기억처럼 스며들고, 존재하지 않는 공간이 건축 사진의 형식을 빌려 실재처럼 읽힌다. 히토 슈타이얼이 지적했듯, 오늘날 이미지의 권위는 원본의 충실한 재현이 아니라 순환과 유통의 속도에서 온다. 생성형 AI는 여기서 한 걸음 더 나아간다. 그것은 이미지를 유통하는 데 그치지 않고, 유통에 최적화된 감각의 형식 자체를 생산한다. 허구가 현실로 오인되는 과정조차 생략한 채, 처음부터 '그럴듯한 것'으로 도착한다. 그리고 그 도착은 언제나 매끄럽다. 저항 없이, 마찰 없이, 멈춤 없이.
그런데 현실은 원래 매끄럽지 않다. 현실에는 늘 미세한 불균형과 우연, 정리되지 않은 잔여가 남는다. 노이즈는 그런 잔여가 기술적 이미지 안에서 감지되는 한 방식이다. 노이즈는 보통 제거해야 할 오류로 취급되지만, 그것은 노이즈를 기술의 언어로만 읽을 때의 이야기다. 조금 다른 각도에서 보면, 노이즈는 이미지가 세계와 마찰하고 있다는 증거다. 형광등 아래 사람의 얼굴은 고르지 않고, 오래된 사진 속 배경은 약간 흔들려 있으며, 실제 도시의 거리에는 불필요한 것들이 가득하다. 그 불완전함이 오히려 '이것은 진짜 세계'라는 신호다. 불완전함이 현실성의 징표가 되는 역설이다.
생성형 AI의 이미지는 이 역설 바깥에 있다. 조명은 어디서나 균일하고, 질감은 지나치게 정교하며, 공간은 군더더기 없이 정리되어 있다. 한병철은 『아름다움의 구원』에서 이 매끈함의 논리를 날카롭게 짚은 바 있다. 매끈한 표면은 저항을 제거한다. 마찰이 없는 곳에서는 멈춤도 없고, 멈춤이 없는 곳에서는 질문도 없다. 생성형 AI 이미지의 설득력은 정교한 재현에서 오는 것이 아니라, 바로 이 저항의 소거에서 온다. 이미지가 너무 빨리 닫혀버릴 때, 시선은 그 표면 위를 미끄러질 뿐 결코 뚫고 들어가지 못한다.
더 깊은 문제가 있다. 이 매끄러움은 중립적이지 않다. 케이트 크로포드가 지적했듯, AI 시스템은 언제나 특정한 사회적 분류 체계와 권력의 배치를 내장한 채 작동한다. 생성형 AI가 만들어내는 평균적 얼굴, 안정적인 공간, 설명 없이도 중심이 되는 장면은 기술의 순수한 산물이 아니라 이미 사회가 시각적으로 승인해온 규범의 반복이다. 무엇이 '보기 좋은' 것인지, 무엇이 '맞는 그림'처럼 받아들여지는지의 기준이 감각의 층위에서 조용히 재생산된다. 편향은 오류의 형태로만 나타나지 않는다. 더 자주, 더 부드럽게, 더 매혹적인 형식으로 나타난다.
그렇다면 노이즈는 단순한 결함이 아니라 하나의 인식론적 사건이다. 바르트가 사진에서 '푼크툼'이라 불렀던 것—계획되지 않았으나 보는 사람을 찌르는 세부—은 어떤 의미에서 노이즈와 닮아 있다. 그것은 전체를 압도하지 않으면서도, 시선을 붙잡아 그 자리에 머물게 만든다. 손의 구조적 이상함, 글자의 미세한 파열같은 가시적 오류만이 아니다. 지나치게 완벽해서 오히려 세트장처럼 느껴지는 장면, 모든 것이 설명 가능한데 그래서 더 낯선 얼굴—이것들도 노이즈다. 납득이 완료되기 직전에 무언가가 걸리는 감각, 그 미세한 저항이 사유의 시간을 만든다. 노이즈는 이미지가 너무 빨리 끝나버리지 않도록 붙잡아두는 균열이다.
결국 생성형 AI가 바꾸는 것은 이미지의 제작 방식만이 아니다. 우리가 이미지를 받아들이는 판단의 속도가 바뀌고 있다. 더 정교한 판별 기술이 필요한 것은 물론이다. 그러나 그보다 먼저 요구되는 것은, 내가 어디서 이미 안심했는지를 되묻는 감각이다. 가장 비판적인 눈이란 모든 것을 의심하는 눈이 아니라, 너무 빨리 납득하지 않는 눈이다.
조금 늦게 믿는 것. 그 작은 지연 속에서 이미지는 정보가 아니라 사건이 된다. 지금 필요한 비판은 거짓을 더 빨리 식별하는 기술만이 아니라, 납득이 너무 빨리 완결되지 않도록 붙잡아 두는 감각이다. 노이즈는 바로 그 감각이 시작되는 자리다.
5월 1호. 감정의 조각 -AI 시대의 애니메이션 창작
김탁훈
중앙대학교 첨단영상대학원 교수
AI가 이미지를 그리고, 장면을 구성하고, 영상을 만드는 시대가 도래했다. Midjourney, Stable Diffusion, Sora와 같은 도구들은 불과 몇 년 만에 전문 창작자의 영역으로 여겨졌던 시각적 표현을 누구나 접근할 수 있는 것으로 만들어버렸다. 이 변화 앞에서 애니메이션 창작자들은 새로운 질문과 마주한다. 표현의 기술이 더 이상 창작자만의 것이 아닌 시대에, 애니메이션 창작자들은 무엇을 만들어야 하고, 왜 만들어야 하는가.
AI 시대의 창작 전환을 이해하기 위해서는 먼저 예술의 개념이 어떻게 변화해 왔는지 살펴봐야 한다. 마르셀 뒤샹의 레디메이드가 '얼마나 잘 만드는가'의 문제를 '무엇을 제시하는가'의 문제로 전환 시켰듯이, AI는 다시 한번 창작의 무게중심을 이동시키고 있다. 솔 르윗이 아이디어를 설계하고 타인이 실행하도록 한 개념미술의 방법론은 오늘날 인간이 감정과 컨셉을 설계하고 AI가 이를 시각화하는 공동 창작 구조와 구조적으로 비슷하다고 할 수 있다. 고퀄리티 이미지를 생성하는 기술이 누구에게나 열린 이상, 창작의 가치는 결과물의 완성도가 아니라 그 결과물이 전달하는 컨셉과 감정에 의해 결정된다.
그 창작의 중심에 있는 개념은 '감정의 조각(emotional fragment)'이다. 낯선 공간에서 느끼는 불안, 관계 속의 미묘한 거리감, 설명하기 어려운 공허함—이 미세한 감정의 단위들이 거대한 서사에 앞서 존재하며, 바로 그것이 창작의 진정한 출발점이 된다. 신카이 마코토의 「초속 5센티미터」가 사건의 논리가 아닌 그리움과 거리감의 반복으로 구성되듯, 진정한 서사는 사건이 아니라 감정에서 시작된다. 사건은 감정을 담는 넓은 운동장이 되고 여러개의 감정들이 같이 사건에 따라 같이 병렬적으로 배치 된다.
인간 창작자의 대체 불가능한 역할도 바로 이 지점에서 드러난다. 안토니오 다마지오의 ‘신체표지가설(Somatic Marker Hypothesis)’에서 말하듯 이성만으로는 의사결정을 할 수 없듯이, 인간의 감정 경험과 표현이 단순한 데이터 패턴과는 근본적으로 다름을 알 수 있다. AI는 수백만 개의 이미지를 학습해 확률적으로 그럴듯한 결과를 생성하지만, 그것은 평균화된 패턴의 재현이다. 반면 창작자의 경험은 평균화되지 않는다. 비가 내리던 날 아침 어느 버스 정류장에서 느꼈던 특정한 외로움, 설명할 수 없는 어떤 오후의 공허함, 또한 어릴 때 친한 친구가 전학을 떠났을 때의 상실감—이런 감각들은 살아있는 몸만이 기억한다. 이 살아있는 경험의 축적이 곧 인간 창작자만이 가질 수 있는 '경험의 데이터셋'이다.
감정이 서사를 만드는 방식은 크게 두 갈래로 나뉜다. 이사오 타카하타의 「반딧불의 묘」처럼 실제 경험에서 추출한 감정을 서사의 중심에 놓는 방식이 있고, 「진격의 거인」처럼 존재하지 않는 세계를 설계하되 그 안에 현실적인 감정을 배치하는 방식이 있다. 두 방식은 출발점이 다르지만, 감정에서 시작해 서사로 확장된다는 구조는 같다. 픽사의 「인사이드 아웃」이 감정 자체를 캐릭터로 형상화하며 보여주듯, 감정은 이야기를 이끌어가는 서사의 주체가 될 수 있다.
오늘날의 콘텐츠 환경은 이미 이 감정 단위 구조를 향해 빠르게 재편되고 있다. 「러브, 데스 + 로봇」의 옴니버스 형식, 「스파이더버스」 시리즈가 스타일 자체를 감정의 언어로 활용하는 방식, 틱톡과 숏폼 콘텐츠의 폭발적 성장—이 모두는 창작이 더 이상 긴 서사 중심이 아니라 감정 단위로 분해되고 재구성되고 있음을 보여준다. 감정을 설계하고 표현하는 능력은 선택이 아니라 시대적 요청이 되었다.
AI 시대의 애니메이션 창작자는 이미지를 생산하는 기술자가 아니라 감정의 흐름을 설계하는 스토리텔러다. AI가 표현을 담당하는 시대에, 창작자는 제작자에서 디렉터이자 큐레이터로 이동한다. 무엇을 시각화할지를 결정하는 것, 수백 개의 AI 생성 결과물 앞에서 자신이 원하는 감정에 가장 가까운 것을 선택하는 것—그 판단의 기준은 오직 살아있는 경험과 감수성에서 나온다.
기술이 창작의 문턱을 낮추는 시대일수록, 무엇을 왜 만드는지에 대한 감각이 더욱 중요해진다. 더 많이 만들어내는 사람이 아니라, 더 깊이 느끼고 더 섬세하게 발견하는 사람이 앞으로의 창작자가 될 것이다. AI와 함께 살아가는 시대의 창작자가 자신의 역할을 어떻게 정립할 수 있는지 우리는 다시 정의해야 한다.