자연어 처리 전문 AI 벤처 기업인 투블럭에이아이(대표 조영환)는 페이스북의 BART 모델에 대응하는 한국어 버전인 HanBART를 공개한다고 29일 밝혔다. 지난해에는 구글 BERT 모델의 한국어 버전인 HanBERT를 공개한 바 있다.
이에 따라 비상업적인 연구나 교육, 경진대회에서 사용할 때는 오픈소스 공개 사이트나 회사 홈페이지를 통해 HanBART를 무료 다운로드 받아 기계번역, 자동요약, 문제생성, 챗봇대화 등의 개발에 사용할 수 있게 했다.
HanBART는 한국어 특성을 딥러닝에 접목시켰고, 이미 공개한 HanBERT의 학습 결과 재활용 기술을 적용했으며, 관련 특허 출원도 진행했다고 회사 관계자는 전했다.
사람이 언어를 사용할 때에는 다른 사람의 말이나 글을 이해하는 부분과 자신의 생각을 말이나 글로 다시 생성하는 부분이 필요한데, 기존 BERT 모델이 언어 이해 위주였다면 문장 생성 기능이 추가된 모델이 BART 모델이다.
BART 모델은 구글에서 발표한 트랜스포머 모델을 페이스북이 발전시켜 언어이해와 생성이 동시에 가능하도록 개선한 모델이다. 기계번역, 자동요약, 문제생성, 챗봇대화 등에서 활용할 수 있는데, 언어 이해만 가능했던 BERT 모델과 언어생성까지 가능한 GPT 모델이 연결된 형태이다.
투블럭에이아이 조영환 대표는 “과학기술정보통신부 주최의 인공지능 온라인 경진대회에서 우수기업으로 선정이 돼 사업화 지원을 받아 AI 연구자들에게 공유하게 됐다”며 “자연어 처리 분야 기술력으로 시장에 새로운 솔루션을 계속 공개할 계획”이라고 말했다.
한편, 이 회사는 KAIST 출신인 조 대표가 설립한 기업으로 AI 영역 중 자연어처리에 집중하고 있으며, 지난해 HanBERT와GPT-2를 개발한 후 수요기업 대상으로 관련 컨설팅이나 솔루션을 제공하고 있다.