DAMI Lab - jailbreak

PROJECTS

2025.03 - 2027.02

연구유형 : 한국연구재단 우수신진연구
연구목표 : 본 연구는 윤리적인 다국어 LLM을 위한 문맥 기반 탈옥 가드레일 구축을 목표로 함. 보안 취약점을 탐지하는 레드팀과 방어 프로세스를 설계하는 블루팀의 협력을 기반으로 한 퍼플팀 체계를 중심으로 연구를 진행할 예정임. 다국어 유해-무해 데이터셋을 구축하고, LLM 유해 응답 평가, 공격, 방어 알고리즘을 개발하여 다양한 탈옥 공격에 효과적으로 대응할 수 있는 방어 시스템을 설계하고자함. 이를 통해 보안 취약점을 발견하고 대응 프로세스를 강화하여 LLM 유해 응답 생성을 사전에 차단함. 세계 최초로 다국어의 언어적 특징을 고려한 유해응답 데이터셋을 자동으로 구축하는 알고리즘 개발 및 문맥 적합성을 고려한 다국어 응답 평가 지표를 설계함. LLM의 토크나이저 작동 방식에 따른 다국어 토큰의 다중 바이트 문제를 최초로 규명하고, 이를 극복하는 최적화 알고리즘을 통해, 불가능하다고 여겨졌던 다국어 LLM 모델의 탈옥 공격 해법을 제시함. 입력 프롬프트와 응답 간의 일관성을 고려하여 다국어 환경에서 탈옥 공격을 효과적으로 막아내는 혁신적인 방법론을 제시함.
Keyword : Large Language Model, Jailbreaking, Guardrail

Page updated

Google Sites

Report abuse