고려대 강재우 교수팀, 프린스턴대 연구진과 공동연구 성과

[사진=Apple사의 인공지능 개인 비서 응용 프로그램 Siri, Apple]
[사진=Apple사의 인공지능 개인 비서 응용 프로그램 Siri, Apple]

[교육정책뉴스 장윤서 기자] 고려대학교(총장 정진택) 컴퓨터학과 강재우 교수팀(이진혁 박사, 성무진 박사과정)과 프린스턴 대학교 Danqi Chen 교수가 공동연구를 통해 500만개가 넘는 문서에 대한 자연어 질의에 답을 실시간에 찾을 수 있는 인공지능 모델을 개발했다.

이번 연구는 프린스턴대에 방문연구 중인 고려대 이진혁 박사 주도하에 성무진 박사과정과 프린스턴대 Danqi Chen 교수가 참여하였으며, 8월 첫째 주에 개최된 인공지능 언어처리분야 최고 권위 학회인 'Annual Meeting of the Association for Computational Linguistics(ACL)'에서 8월 4일에 발표됐다.

이 연구는 지난 수년간 이진혁 박사가 주도해온 '구 기반 질의응답(Phrase-Indexed QA)'과 '오픈도메인 질의응답(Open-Domain QA)'기술을 발전시킨 결과이다. 이 사전연구들 또한 2019년과 2020년에 각각 ACL에 발표되어 올해로 3년연속 최고권위 학회인 ACL 에서 그 연구 성과를 인정받게 됐다.

덴스프레이즈(DensePhrases)라 불리는 이 인공지능 모델은 영어 위키피디아 500만개 이상의 문서에 대한 사용자의 자연어 질의를 100ms(0.1초) 내외로 처리한다. 이 모델은 기존 최고 성능의 모델과 유사한 성능을 유지하면서도 20배가 넘는 속도 향상을 달성했으며 값비싼 GPU(딥러닝 모델 구동에 활용되는 그래픽프로세서)의 사용없이 모델을 구동할 수 있다는 장점을 지닌다.

덴스프레이즈는 사용자가 일상어로 작성한 질문에 대한 답을 위키피디아에서 찾는다. 예를 들어, "2016년 올림픽 남자 에페에서 금메달을 딴 사람이 누구냐"는 질문이 주어지면 실시간으로 '2016 하계 올림픽 펜싱'이라는 위키피디아 문서로부터 박상영이라는 구체적인 정답을 찾아 사용자에게 돌려준다. 

덴스프레이즈의 학습에는 기계독해 (Machine Reading Comprehension) 데이터셋과 질의생성 (Question Generation) 모델을 활용하여 생성된 150만 여건의 데이터가 사용됐으며, 깃허브 사이트에 배포된 덴스프레이즈 프로그램을 통해 누구나 직접 사용해 볼 수 있다. 이 모델은 위키피디아 뿐만 아니라 다양한 도메인의 대용량 문서 빅데이터에도 적용 가능하도록 설계되어 학계와 산업계의 다양한 분야에서 자연어 기반 질의응답 플랫폼으로 활용 가능하다.

관련기사

저작권자 © 교육정책뉴스 무단전재 및 재배포 금지