Invite 프로그램 일정
10월 11일
유강민 리더 (네이버)
11:00 - 11:45 (45분)
Abstract: HyperCLOVA X, the second non-English large language model (LLM) unveiled globally, plays a crucial role in securing AI sovereignty for Korea and NAVER. The model is designed to handle vast multilingual datasets, with a specific focus on the Korean and English languages. Through years of development in pretraining and alignment learning techniques tailored to the Korean language and demographics, HyperCLOVA X demonstrates remarkable capabilities in reasoning and generating highly coherent Korean texts with an unrivaled level of culture-specific awareness, while remaining competitive in general capabilities against English-specific LLMs. HyperCLOVA X also represents a significant step toward sovereign multimodal integration, including vision and speech synthesis. NAVER’s expertise in pre-training, fine-tuning, and evaluation, coupled with a focus on AI safety and responsible development, positions HyperCLOVA X as a key asset for both public and private sector applications. Its cross-lingual knowledge transfer and Korean-specific optimization distinguish it from other models, further reinforcing its strategic importance. The model's future development includes smaller, more efficient versions and the creation of autonomous foundation agents to expand its application across various domains.
이환희 교수 (중앙대)
11:45 - 12:30 (45분)
초록: 최근 거대 언어모델의 발전은 문서 요약, 대화 시스템 등 다양한 자연어처리 분야에서 눈부신 성과를 이루어 냈다. 그러나 이와 동시에 거대 언어모델들이 종종 환각 현상으로 인해 사실과 다른 정보를 제공하거나, 유해한 응답을 생성하는 문제가 점차 부각되고 있다. 본 강연에서는 언어모델의 신뢰성을 향상시키는 다양한 방향 중에서, 언어모델의 진실성과 안전성에 초점을 맞춘 최신 연구 동향을 소개한다. 진실성 측면에서는 해석 가능하고 정밀한 진실성 판별 기법과, 근거 문서를 활용하는 Retrieval-Augmented Generation (RAG) 기법, 긴 문서를 활용한 답변의 진실성 분석 관련 최신 연구와 앞으로의 연구방향을 살펴본다. 또한, 유해한 답변의 생성 여부를 탐지하고, 유해성을 통제하는 언어모델의 안전성 강화 기법들도 함께 살펴본다.
최진호 교수 (Emory University)
14:10 - 15:00 (50분)
초록: The remarkable prowess of large language models (LLMs) has spurred a surge of interest in end-to-end models for dialogue systems. While these models excel in performance, they overlook the intricate cognitive processes inherent in human conversation, relying solely on pattern matching. In this talk, I propose a Cognition-oriented Framework for Conversational AI, designed to emulate human cognition in conversations, with two novel models targeting commonsense reasoning and dialogue state generation. First, I present ConvoSense, a comprehensive dataset comprising over 500,000 inferences across 10,000 dialogues. Leveraging ConvoSense, we develop an inference model and adapt it as a cognition module to augment open-chat dialogue quality, surpassing the performance of established LLMs such as GPT-4. Next, I introduce DS5K, a diverse dataset featuring 5,000 dialogues across 1,000 domains, and a dialogue state tracking model, showing competitive performance to previous approaches using 13 times larger LLMs. Leveraging DS5K, we develop a dialogue state generation model, serving as another cognition module, to extract pertinent information from dialogue contexts to construct a memory structure, enabling Conversational AI to effectively engage in long-term, multi-sessional conversations. Finally, I present a diagnostic model capable of conducting clinical interviews with trauma patients, facilitating personalized treatment decisions with minimal resources. This innovative approach exemplifies the potential of AI to revolutionize mental healthcare by delivering cost-effective, data-driven interventions.
옥철영 명예교수 (울산대)
15:00 - 15:50 (50분)
Abstract : 본 강연에서는 다음 내용들을 살펴보고자 한다.
- 옛한글 문서의 형태소분석 관점에서 현재까지 구축되었거나 구축중인 역사말뭉치
- 옛한글 형태소분석기를 개발하기 위해 고려해야할 사항들
- unicode 기반의 한국어 형태소분석기 UTagger4.0 소개
- 기존 형태소분석된 역사말뭉치를 기반으로 만들어진 UTagger-훈민정음 성능평가
- LLM(GPT-4o-mini)에서 동일한 역사말뭉치를 fine tuning한 성능평가 비교
- 형태소분석된 역사말뭉치를 활용한 연구 등
Bibliography
“형태소 깎는 노인: 국어사 자료를 위한 형태분석 보조기”, 서울대학교 언어학과, 제28회 한글및한국어 정보처리 학술대회
그믐달 고전MOON학 <고어 자동번역기>, 이용우
歷史資料 형태분석 프로그램 개발의 國語學的 意義와 活用 硏究-活字本 古小說을 중심으로”, 어문연구(한국어문교 육연구회), 제37권, 제4호, pp.137~162, 2009
한국어 고문헌 검색기 '어듸메' 개발기
https://pat.im/category/한글부호계
KOCW_국어사_이금영(충남대), http://www.kocw.net/home/cview.do?cid=8752f7ee0808f590
오마국 - 오분만에 마스터하는 국어 (YouTube)
개화기 한글자료 말뭉치의 구축 방안 - S-Space
start [한국어 역사 자료 말뭉치]
“역사 자료 형태소 분석 말뭉치 프로그램 개발 및 고도화 과정”, 한국학연구원·국어사학회 공동 2024 여름 학술대회