논문 장학금 신청
확장 현실 환경 내 지능형 에이전트 기반 멀티모달 상호작용의 선호적 사용성에 괂란 연구
확장 현실 환경 내 지능형 에이전트 기반 멀티모달 상호작용의 선호적 사용성에 괂란 연구
논문 저자 및 소속
삼성전자(Samsung Electronics) 소속의 연구진들이 공동으로 집필한 연구
저자 명단: Hoon Yoon(인터랙션 디자이너), Hojeong Im(시니어 비주얼 인터랙션 디자이너), Yoonsu Kim(스태프 엔지니어 II), Younghoon Song(시니어 인터랙션 디자이너)이 공동 저자로 참여.
교신 저자: Taeha Yi(스태프 엔지니어 II)가 연구의 교신 저자.
게재 정보: 본 논문은 2024년 학술지인 'Archives of Design Research(디자인학연구)' 37권 4호에 게재.
서론 (Introduction)
AI 기술과 공간 컴퓨팅(XR)의 발전으로 가상현실 내에서 정보를 탐색하기 위한 지능형 에이전트의 필요성이 커지고 있다. 기존의 컨트롤러 중심 방식에서 벗어나, 손가락 제스처, 시선처리, 음성 명령과 같은 '내추럴 인터랙션(Natural Interaction)'과 이들을 결합한 '멀티모달(Multimodality)' 방식이 중요해지고 있다. 본 연구의 목적은 AI가 통합된 XR 환경에서 사용자가 잠재적으로 선호하는 사용성을 조사하는 것이다.
2. 연구 방법 (Method)
연구진은 가상 홈 공간을 배경으로 두 가지 타입의 AI 에이전트를 정의 했다.
에이전트 유형 비교
[독립형 에이전트(ITA)]
특징: 가상 공간 내에 독립적인 구체(Orb) 형태로 존재
작동: 사용자가 원하는 위치에 자유롭게 소환 가능
[종속형 에이전트 (DTA)]
특징: 패널 형태의 인터페이스에 종속되어 존재
작동: 사용자의 시선이 머무는 패널 근처로 이동
개발 환경
언리얼 엔진5.1.1과 메타 퀘스트 프로(Meta Quest Pro)를 사용하였다. 음성과 시선 추적은 '오즈의 마법사(Wizard of Oz)' 기법(실제 구현 대신 연구자가 뒤에서 조작)을 통해 실험 참가자가 기능을 사용하는 것처럼 느끼게 했다.
3. 실험 설계 (Experiment Design)
삼성전자 R&D 센터의 UX 디자이너 및 개발자 27명을 대상으로 실험을 진행했다. 참가자들은 두가지 에이전트(ITA, DTA)와 멀티보달(제스처, 음성, 시선) 방식으로 상호작용하며 활성화, 탐색, 일시정지, 종료의 행동 패턴을 수행했다. 평가는 UEG-S(사용자 경험 설문지)와 심층 인터뷰를 통해 이루어졌다.
4. 실험 설계 (Result)
높은 만족도: 참가자들은 두 에이전트 모두에 대해 긍정적인 반응을 보였으며, 특히 독립형 에이전트(ITA)가 유희적 품질(Hedonic Quality) 면에서 높은 평가를 받았다.
병행 사용 선호: 참가자의 51.9%는 상황에 따라 두 에이전트 모두 사용하고 싶어 했다. 예를 들어, 업무용으로는 DTA를, 영상 시청 등 편안한 상황에서는 ITA를 선호했다.
실재감의 승리: 기존 모바일 기기(스마트폰 등)의 AI보다 XR 내 에이전트가 "내 곁에 실재하는 것 같다"는 느낌을 주어 92.6%의 긍정 응답을 얻었다.
불편 사항: 손을 휘두르는 '종료' 제스처와 옆으로 넘기는 '탐색' 제스처가 비슷해 혼란스럽다는 의견도 있었다.
5. 결론 (Conclusion)
연구 결과, 사용자들은 XR 환경에서 AI 에이전트가 가상이더라도 실제로 존재하는 것처럼 느껴지는 형태를 선호하며, 상호작용 과정에서 실용성뿐만 아니라 즐거움(Playfulness)을 추구한다는 점이 확인되었다. 향후에는 제스처 간 유사성 문제를 해결하고, 실제 음성 인식 및 시선 추적이 완벽히 구동되는 워킹 프로토타입을 통한 추가 연구가 필요하다.
총평
본 논문은 삼성전자 연구진이 수행한 연구로, 확장 현실(XR) 환경에서 지능형 AI 에이전트와 사용자가 어떻게 자연스럽게 소통할 수 있는지에 대한 설계 청사진을 제시하고 이를 UX 실험으로 검증했다는 점에서 큰 의의가 있다.
첫째, 멀티모달 상호작용의 실용적 가치를 입증했다. 시선 처리, 음성 명령, 손 제스처를 통합한 상호작용 방식은 기존 모바일 환경의 단일 모드 방식보다 훨씬 직관적이고 끊김 없는(seamless) 경험을 제공한다는 점을 확인했다. 특히 참가자의 74.1%가 이러한 멀티모달 방식에 대해 편리함을 느꼈으며, 이는 미래 XR 플랫폼의 표준 인터랙션으로서의 가능성을 보여준다.
둘째, 사용자 경험(UX)의 다각화된 분석을 통해 에이전트의 존재 방식을 정의했습니다. 사용자가 원하는 위치에 소환하여 즐거움을 주는 '독립형 에이전트(ITA)'와 정보 탐색 효율성을 높여주는 '종속형 에이전트(DTA)'를 구분하여 분석함으로써, AI 에이전트가 단순히 기능적인 도구를 넘어 상황에 따라 '유희적 즐거움'과 '실용적 편의성'을 동시에 제공해야 함을 시사했다. 실제로 참가자의 절반 이상이 상황적 맥락에 따라 두 유형을 모두 사용하기를 희망했다는 점은 주목할 만한 결과이다.
셋째, 기존 모바일 AI와의 차별화된 실재감을 강조했습니다. 참가자의 92.6%가 모바일 기기 속 AI보다 XR 공간 내 에이전트와의 상호작용을 긍정적으로 평가했는데, 이는 에이전트가 사용자 곁에 물리적으로 존재하는 실체처럼 느껴질 때 상호작용의 질이 비약적으로 향상된다는 사실을 뒷받침한다.
다만, 연구 과정에서 개선해야 할 기술적·방법론적 과제도 명확히 드러냈다. 실제 음성 인식 및 시선 추적 기술을 완전히 구현하는 대신 '오즈의 마법사(Wizard of Oz)' 기법을 사용했다는 점과, 특정 손 제스처(스와이프와 웨이빙 등)가 서로 비슷하여 사용자가 혼란을 느꼈다는 점은 향후 실제 작동하는 프로토타입 기반의 후속 연구가 필요함을 시사한다.
결론적으로 이 연구는 인간과 AI 에이전트 간의 상호작용(Human-Agent Interaction)을 최적화하기 위한 구체적인 사용자 선호도 데이터를 제공하며, 차세대 XR 환경 인터페이스 설계를 위한 중요한 학술적·산업적 토대를 마련한 것으로 평가된다.
ITA & DTA 란
논문에서 제시된 두가지 AI 에이전트 유형인 독립형 에이전트(ITA)와 종속형 에이전트(DTA)는 확장 현실(XR) 환경 내에서 에이전트가 존재하는 방식과 사용자와의 상호작용 논리에 따라 구분된다.
독립형 에이전트 (ITA: Independent-Type Agent)
가상 공간 내에서 특정 인터페이스에 얽매이지 않고 자유롭게 존재하는 형태
외형 및 존재 방식: 구체(Orb) 모양의 3D 객체로 시각화되며, 가상 홈 공간 내에서 공중에 떠 있는 형태로 존재
활성화 방법: 사용자가 XR 환경 내에서 손을 펴는 '오픈(Opening)' 제스처를 취하면 사용자가 원하는 워치에 생성
상호작용 특성:
사용자의 음성 명령, 시선 처리, 손 제스처에 모두 반응하는 멀티모달 방식을 지원
사용자는 손을 휘둘러 대화 주제를 바꾸거나(Swipe), 멈춤 제스처(Stop)로 에이전트의 답변을 준단 시킬 수 있다.
사용자 피드백: 참가자들은 이를 '가상 집사(Virtial Butler)'와 소통하는 것처럼 느꼈으며, 시뮬레이션에서 즐거움(Hedonic Quality) 점수가 더 높게 나타났다. 주로 편안하게 영상을 시청하는 등의 상황에서 선호되었다.
종속형 에이전트 (DTA: Dependent-Type Agent)
정보를 제공하는 패널형 인터페이스와 밀접하게 연동되어 작동하는 형태
외형 및 존재 방식: ITA와 동일하게 구체 모양의 3D 객체이나, 항상 인터페이스 패널 주변에 위치한다.
활성화 및 이동:
사용자가 특정 콘텐츠 패널을 응시하면(Eye-gazing) 에이전트가 활성화 된다.
사용자가 시선을 다른 패털로 옮기면, 에이전트 역시 해당 시선을 따라 패널 상단으로 위치를 동적으로 이동한다.
상호작용 특성:
패널 기반의 콘텐츠를 탐색할 때 사용자의 시선 데이터를 실시간으로 반영하여 반응한다.
콘텐츠 중심의 질의응답에 최적화되어 있다.
사용자 피드백: 사무 업무나 특정 정보를 빠르게 검색해야 하는 '오피스 태스크(Office tasks)' 상황에서 유용하다는 평가를 받았다. 다만, 일부 사용자는 시선을 옮길 때마다 에이전트가 따라오는 것이 시각적으로 방해된다고 느끼기도 했다.
멀티모달(Multimodality)란
시선, 음성, 손동작 등 서로 다른 개별적인 표현 모드들을 하나의 통합된 입력 모듈로 결합하는 것을 의미한다. 이를 통해 사용자는 시스템 및 인터페이스와 상호작용하는 범위를 크게 확장할 수 있다.
멀티모달 인터랙션의 3대 요소
이 연구에서는 자연스러운 상호작용(Natural Interaction)을 구현하기 위해 다음 세 가지 감각 입력을 핵심 요소로 설정했다.
손 제스처 (Hand Gestures): 가장 직관적이고 즉각적인 표현 수단으로, 콘텐츠를 빠르게 넘기거나 에이전트의 반응에 개입할 때 주로 사용되는 기본 입력 요소이다.
음성 명령 (Voice Commamds): 에이전트와 대화를 주고받거나 복잡한 명령을 내릴 때 사용되는 언어적 소통 수단이다.
시선 처리 (Eye-Gazing): 사용자가 무엇을 보고 있는지 파악하여 에이전트를 활성화하거나 특정 콘텐츠를 선택하는 비언어적 입력 방식이다.
왜 멀티모달 방식이 중요한가?
단일 모드(예: 음성만 사용)와 비교했을 때 멀티모달 방식은 다음과 같은 장점이 있다.
동시성: 사용자의 언어적 표현과 비언어적 표현을 동시에 처리할 수 있어 소통의 질이 높아진다.
몰입감 증대: 시선이나 머리의 움직임 같은 자연스러운 흐름을 인터랙션에 포함함으로써 XR 환경에서의 몰입감과 정보 수용 능력을 향상시킨다.
사용자 편의성: 익숙하지 않은 시스템이라도 사용자가 사진이 선호하는 방식(음성 혹은 제스처 등)을 선택해 쉽게 적응할 수 있도록 돕는다.