솔트룩스 '구어 자료 수집· 원시 말뭉치 구축 사업' 수주

2019-08-12 11:26:26

- AI 활용한 고품질 우리말 자원 구축 앞장

[프라임경제] 솔트룩스(대표 이경일)는 축적된 경험과 신뢰성을 바탕으로 대규모 고품질 우리말 자원구축을 위한 국립국어원의 '구어 자료 수집 및 원시 말뭉치 구축 사업'을 수주했다고 12일 밝혔다.

▲ⓒ 솔트룩스

국립국어원은 TV, 라디오등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고 저작권 이용 계약 체결로 민간 활용 가치를 극대화 하고자 이 사업을 계획했다.

 언어 데이터인 말뭉치 어절 보유량을 살펴보면 △영어 2000억 어절 △중국어 800억 어절 △한국어 2억 어절로 한국어가 영어의 1/1000에 그치는 등 해외보다 데이터 자산이 매우 취약한 상황이다.

솔트룩스는 2018년 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 '국어 말뭉치 연구 및 구축 사업'을 수행해 왔다.

그 외에도 한국전자통신연구원(ETRI)의 음성DB구축, 한국언론진흥재단의 뉴스 빅데이터 시스템구축 등 20년간 축적된 빅데이터구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받아 이번 사업에 밑거름이 될것으로 보인다.

이경일 솔트룩스 대표는 "인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다"고 말했다.

이어 "자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다"고 의지를 밝혔다.


카카오 페이스북 카카오스토리 트위터


Copyright 프라임경제 ⓒ 무단전재 및 재배포금지
이전 1 / 0 다음
Copyright ⓒ 프라임경제 all rights reserved.