초청강연

  • 신진연구자 초청강연 1: 한국어 문서로부터의 시간정보 추출 (정영섭 박사, Naver Labs)[보기]
    • 사람은 문서로부터 정보를 습득합니다. 문서의 양이 기하급수적으로 증가함에 따라, 문서를 자동으로 분석하여 필요한 정보를 추출하는 기술을 개발해왔으며, 이 정보를 바탕으로 질의응답 시스템, 추천 시스템 등을 개발하는 것이 가능해졌습니다. 이 시스템들은 정보를 바탕으로 개발되므로, 정보의 종류와 질에 의해 서비스 종류와 질이 달라지게 됩니다. 따라서, 보다 다양한 정보를 정확하게 추출하는 기술이 필요합니다. 특히, 대부분의 문서에는 시간 정보가 포함되어있으며, 시간정보는 시스템 성능에 큰 영향을 끼치기도 합니다. 예를 들어, 질의응답 시스템에 “10 년 전 대통령이 누구야?”라고 질문을 할 경우, ‘10 년 전’에 해당하는 시간 정보를 추출하지 못한다면 정확한 답변을 제공할 수 없게 됩니다. 시간 정보를 정확하게 추출하는 기술 개발을 위해 약 20 여년동안 활발히 연구되어왔지만, 한국어 문서로부터의 시간정보 추출 연구는 초기 수준에 머물러있습니다. 한국어 문서로부터 시간 정보를 추출할 때 발생하는 각종 이슈들과 현재 상황에 대해 공유합니다. 

  • 신진연구자 초청강연 2: 커뮤니티 기반 질문-응답 서비스를 위한 질문 분류 및 검색 기법 (배경만 박사, ETRI)[보기]
    • 최근 지식iN, Yahoo! Answer, 바이두 쯔다오와 같이 사용자가 자신이 원하는 정보에 대한 질문을 등록하면, 다른 사용자가 질문에 대한 응답을 해주는 커뮤니티 기반의 질문-응답 서비스(community-based Question Answering Service, 이하 cQA)의 중요성이 늘어나고 있다. 효과적인 cQA 서비스를 구축하기 위해서는 질문을 분류하는 방법과 유사한 질문을 효과적으로 검색하는 방법이 중요하다.
      질문 분류는 입력된 질문에 대해 적절한 범주를 자동으로 결정하는 방법으로 입력된 질문이 적은 수의 단어로 이루어져 있기 때문에 질문 분류에 필요한 정보가 부족하다는 문제를 가지고 있기 때문에 짧은 질문 길이 문제(short length problem)를 해결하는 것이 첫 번째 도전과제이다. 질문 검색은 입력된 질문과 의미적으로 유사한 질문을 찾아 주는 것으로써 질문 사이의 연관성을 효과적으로 계산할 수 있는 검색 모델을 설계하는 것이 중요하다. 추가적으로 의미적으로 같지만 다른 형태의 단어들로 구성된 질문들이 가지는 단어 불일치 문제(lexical gap problem)를 해결하는 것이 필요하고, 이를 해결하기 위한 방법들을 두 번째 도전과제로 지정한다. 그리고 의미적으로 유사한 질문은 비슷하거나 동일한 주제를 가질 것이라는 가정 하에 질문 검색의 성능 향상을 위해 질문 분류 결과를 활용하는 방법에 대한 연구를 진행하였으며,  이를 세 번째 도전과제로 정의한다.
    • 첫 번째 도전과제를 해결하기 위해서 범주(category) 정보를 이용한 단어 가중치 계산 방법과 효과적인 질문 확장 방법에 대한 연구를 진행하였다. 먼저 단어 가중치 계산을 위해 현재 범주에서 분포와 다른 범주에서 단어들이 가지는 분포의 평균과의 비율을 고려한 단어 가중치 계산 방법을 제안한다. 다음으로 제안한 단어 가중치 계산 방법과 의사 적합성 피드백 방법을 이용하여 질문과 연관된 양질의 단어들을 효과적으로 확장하는 질문 확장 방법을 제안한다. 추가적으로 제안하는 가중치 계산 방법은 범주정보가 필요하며 테스트 질문의 잠재적인 범주를 결정하는 문제가 존재한다. 이를 해결하기 위해 엔트로피 기반의 결정 방법을 이용한 테스트 질문의 효과적인 표현 방법을 제안한다. 
    • 두 번째 도전과제를 위해서 의존 파서 결과를 기반으로 바이그램 자질 추출하고, 문장에서 중요한 성분인 주어, 서술어, 목적어, 보어로 이루어진 격틀 자질을 추출하여 새로운 질문 검색 모델을 제안한다. 추가적으로 단어 간의 연관성을 효과적으로 계산할 수 있는 워드 임베딩을 활용함으로써 유사한 질문을 효과적으로 검색할 수 있는 새로운 질문 검색 모델들을 제안한다. 마지막으로 제안한 질문 분류 방법과 단어 가중치 계산 방법을 기반으로 주제에서의 단어 분포를 효과적으로 반영할 수 있는 질문 검색 방법에 대해 제안한다. 
    • 제안한 방법에 대해 실험을 통해 평가를 진행하였다. 실험 결과를 통해 제안한 질문 분류 방법과 질문 검색 방법을 효과적으로 조합했을 때 좋은 성능을 얻을 수 있었다. 

  • 신진연구자 초청강연 3: 다국어 공동 공간상의 개체 군집화를 통한 개체 요약 향상 기법 연구 (김은경 박사, KAIST 정보전자연구소 시맨틱웹연구센터)[보기]
    • 시맨틱 웹과 링크드 데이터 기술의 발전으로 최근 몇년간 상호 연결된 웹 데이터의 양이 방대하게 증가하고 있다. 특히 개체 중심의 데이터가 빠르게 증가하는 환경에서 <개체-속성-목적어>로 이루어진 지식베이스 규모가 방대해짐에따라, 서로 다른 지식 정보원에서 발행된 데이터 간의 중복적인 사실과 의미없는 연결 정보가 비정렬적으로 혼재되어 있어, 개체의 주요 본질을 신속하게 식별하기 어렵다.  본 강연에서는 링크드 데이터를 실현하기 위한 허브 역할을 하는 디비피디아로부터 다국어 연결 데이터를 확보하고 이를 활용하여 지식베이스에서 개체 단위의 주요 트리플을 추출하는 개체 요약 방법을 소개하고자한다. 특히 개체를 다국어 공동 공간상으로 투영한 자질로 군집화하고, 군집별로 중요한 속성관계를 가려내 소형 요약본에 포함시키는 방식을 제안함으로써, 개체 본질을 기술하기 위한 필수 항목을 포함시키는 전문가의 요약 방식과 최대한 가깝게 재현한 기법을 소개한다. 제시된 기법은 개체 요약의 최신 기법과의 비교 품질 평가 결과를 통하여 기존의 독립된 언어 중심 정보 추출에서 간과할 수 있는 다양성 및 연관성을 효율적으로 확인할 수 있는지 분석한다. 

  • 신진연구자 초청강연 4: 언어적 특징을 이용한 의생명 분야 초록의 구조화 (남세진 박사, 충남대) [보기]
    • 의생명 분야에서는 1980년대 후반부터 구조화된 초록을 사용하고 있습니다. 구조화된 초록은 Introduction, Methods, Results, 그리고 Discussion(IMRAD)과 같은 섹션명으로 구분되어, 연구자들이 논문의 세부 내용을 쉽게 파악할 수 있도록 하여 논문 검색과 선택이 효율적이도록 도와줍니다. 그러나, 많은 의생명분야의 저널에서 구조화된 초록을 사용하고는 있지만, 여전히 MEDLINE의 초록 중 75%가 구조화되지 않은 상태로 있습니다. 본 연구는 이렇게 비구조화된 의생명 분야의 초록을 구조화된 초록으로 변환하는 것을 목표로 초록의 문장을 IMRAD중 하나로 분류(Classification)하는 내용을 담고 있습니다. 문장 분류에서 가장 일반적으로 사용되는 특징(Feature)은 Bag-of-words입니다만, 본 연구에서는 의생명 분야의 초록에 나타난 언어적 특징을 문장 분류에 사용했다는 점에서 차별성을 가지고 있습니다. 본 강연을 통해 대규모 의생명 초록 코퍼스에서 추출한 초록의 섹션별 언어적 특징과 이러한 특징을 이용하여 문장을 분류한 결과를 공유하고자 합니다. 또한 연구 과정에서 구축된 언어 자원과 데모 시스템을 공개하여, 관련 연구에 조금이나마 기여하고자 합니다. 

  • 초청강연1-1: 오픈 지식베이스와 질의응답 협력 개발 플랫폼의 QA 플러그인 규격: OKBQA-4 (최기선 교수, KAIST)[보기]
    •  질의응답시스템은 여러 구성요소들이 구현되어야 하고 통합되어야 하며, 각 모듈 개개의 평가는 물론 전체 시스템의 평가도 이루어져야 하는 복잡한 시스템이다. 각 구성 모듈은 다른 기술을 필요로 하여 다른 분야의 전문가들이 협력하여야 되는 시스템이다. 이에 OKBQA 플랫폼에서는 지식베이스를 기반으로 하는 질의응답 시스템의 협력적 개발 지원 체계를 만들어 각 전문가가 각 모듈의 규격에 맞게 플러그인이 되도록 하면 전체 시스템 차원에서 평가를 할 수 있어 각 모듈이 어떻게 전체 모듈에 기여할 수 있는지도 알게 된다. 이 강연에서는 현재 플랫폼인 OKBQA-4의 질의응답 플랫폼과 향후 오픈 프로젝트로서 협력과 활용성에 대한 소개를 한다. 

  • 초청강연1-2: Translation Machine Translation ans Annotation symbol (김민영 회장, 한국번역가협회)[보기]
    •  ISO/TC37/SC5는 국제표준기구(ISO, International Organization for Standardization)의 번역, 통역, 관련 기술에 대한 국제표준과 규격문건을 만들고 있는 하부기술위원회 입니다. 국제번역가협회(FIT, International Federation of Translators)에서 FIT 기관들에게 ISO/TC37/SC5의 문건 열람을 가능하게 하고자 ISO/TC37/SC5에 참여의사를 물어왔고 이것이 가능하게 되어 국제번역가협회의 회원인 당기관은 자연스럽게 ISO/TC37/SC5활동에 참여하게 되었습니다. 
    • 번역은 한나라의 국가 브랜드를 향상시킬 수 있는 매우 중요한 작업으로 번역품질에 따라 국가이미지가 실추되기도 하고 국가 간의 계약으로 이루어져 국가나 기업 그리고 개인에 큰 영향을 미칩니다. 
    • IT의 발달로 기계번역의 출현은 번역이라는 언어행위에 또 다른 지평을 열게 했습니다. 장래의 번역은 단순한 언어의 이동이 아니라 IT와 번역솔루션의 결합으로 언어자원이 정보공유 하게 되며 번역가는 모름지기 기존의 인식에서 탈피하여 새로운 번역가의 지위를 얻게 될 것입니다.

  • 초청강연2: 훈민정음의 과학성과 공학화 (변정용 교수, 동국대학교) [보기]
    • 국보70호이면서 1997년 유네스코 기록유산으로 등재된 훈민정음은 우리의 문자생활에 큰 기여를 하여 왔다. 1933년 한글맞춤법이 제정되면서 표기체계가 정립되는 성과를 이루었다. 정보화시대를 맞이하여 한글 정보화는 한글부호 제정이 중요하고 그 중심에 보호화 대상을 음절로 할 것인가 음소로 할 것인가의 논란이 있었다. 결론은 음절로 하였고 그것이 곧 한글완성형부호이다. 그리고 유니코드에 한글자모, 한글호환자모, 한글음절 등 세가지 종류의 부호가 반영되고 최근에 한글자모가 추가되면 과학적인 문자에 누가 되고 있다. 지금 훈민정음 과학성을 논하는 것은 여러 가지 새로운 표현요구에 문제가 있고, 유니코드에 반영된 3종류 부호가 합당한지에 대하여 근본적 해결을 모색하고 방향을 제시하고자 함이다.

    • 초청강연3: 언어장벽 해소를 위한 자동통번역 기술 동향 (김영길 실장, ETRI)[보기]
      • 최근 글로벌화의 가속화로 언어장벽 해소를 위한 자동통번역 기술의 중요성이 커지고 있다. Google, MS 등 선진글로벌 기업을 중심으로 다양한 다국어 자동통번역 서비스를 경쟁적으로 출시하고 있으며, 국내에서도 시스트란인터내셔널, 한컴인터프리, 네이버 등에서 자동통번역 서비스를 내놓으면서 한국어를 중심으로 영어, 중국어, 일어에 대한 자동통번역 기술에 대한 경쟁력을 확보하고 있으며, 불어, 스페인어, 독어, 러시아어, 동남아권 언어에 대한 확장을 시도하고 있다.
        그리고, 자동번역 방법론으로는 규칙기반(Rule-based Machine Translation)과 통계적 자동번역(SMT; Statistical Machine Translation)에 이어 신경망 자동번역(Neural Machine Translation)까지 범위가 확대되고 있으며, 이들 방법론의 장단점을 활용한 하이브리드 자동번역 기술도 활발히 연구되고 있다. 자동번역의 요소기술인 형태소 분석, 구문 분석, 의미 분석 등도 딥러닝 기술이 다양하게 적용되면서 성능 향상이 이루어지고 있다.
        본 강연에서는 자동통번역 기술 현황, 발전방향 및 ETRI에서의 연구 내용 등을 소개하고자 한다.