PROJECTS
PROJECTS
2025.04 - 2025.07
연구유형 : 한국과학기술정보연구원 위탁과제
연구목표 : 본 연구의 목표는 구축된 데이터에서 발생하는 오류를 유형화하고, LLM을 활용하여 데이터 오류 유형을 자동으로 분류한 후, 평가 지표를 개발하여 품질 평가를 수행하고, 개선 정도를 정량적으로 측정하는 것임. 이를 통해 데이터 품질을 향상시키고, 데이터 구축 프로세스의 신뢰성을 강화하는 것을 궁극적인 목표로 함. 과학기술 분야 데이터 품질관리 기준 설정 및 품질 개선 방안 수립으로 데이터 품질을 체계적으로 관리하여 데이터 활용의 신뢰성을 높이고, 다양한 AI 모델의 성능을 향상할 수 있는 기반을 마련함. LLM을 활용한 자동화된 데이터 품질 관리 시스템을 구축하면 PDF, XML, HTML 등 다양한 형식의 데이터를 실시간으로 검사해 태깅 오류와 형식 오류를 자동 검출·수정할 수 있으며, 오류 유형 DB와 룰셋을 통해 신규 데이터 유입 시 오류를 빠르게 예측하여 정제된 데이터셋을 확보할 수 있음. 이 과정에서 축적된 오류 데이터를 ‘오류 교정용 LLM’으로 파인튜닝 또는 프롬프팅함으로써 데이터 정제 프로세스의 효율을 높이고 모델 성능 평가와 개선 방향 설정에도 활용할 수 있음. 또한 자동화된 전처리를 통해 수동 검수에 드는 인력 및 시간을 절약하여 운영 비용을 절감하고 생산성을 높이며, 결과적으로 신뢰성 높은 AI 서비스와 데이터를 공급하여 산업 경쟁력을 강화할 수 있음.
Keyword : Large language models, Automate error classification, Data quality, Quality improvement, Data reliability