PROJECTS
PROJECTS
2023.05 - 2024.04
연구유형 : 기업제
연구목표 : 글로벌 시장에서는 문장을 동영상으로 변환하는 TTV(Text-to-Video) 기술이 급속도로 성장 중이며 현재 2022-2027 TTV 시장 전망은 CAGR 37.1%의 빠른 성장률을 보이고 있음. 이러한 기술의 발전은 동영상 캡셔닝 AI 기술 발전에 영향을 받는데, 특히 최근 Open AI에서도 선보인 T2I(text-to-image) 기반 CLIP 모델은 트랜스포머를 이용한 모델임. 현재 국내에서도 CNN, RNN, LSTM을 사용한 AI모델에 대한 개발이 이루어져 왔으나, 트랜스포머 기반 모델 대한 연구는 수행되지 않았음. 그간 국내에서 수행된 연구는 싱글 모달(single-modal) 모델로, 넓은 범위의 분류가 어려움. 또한 OPEN AI社 CLIP 모델은 기존 학습언어인 영어에 대한 성능은 뛰어나나, ZSL(zero-shot learning) 모델로 새로운 데이터 학습에 취약해 전이학습에는 적합하지 않음. ㈜스톡폴리오는 영어를 완벽하게 구사하지 못하는 국내 이용자들이 손쉽게 사용할 수 있는 한국어 전용 TTV(Text-to-Video) 어플리케이션을 개발하기 위해 트랜스포머 기반 다국어 동영상 캡션 AI모델의 전이학습을 통한 재현도 75%이상급 한국어 전용 동영상 캡션 AI모델을 선행기술로 개발하고자 함.
Keyword : Multimodal, Long-tailed, Deep learning