솔트룩스 '구어 자료 수집· 원시 말뭉치 구축 사업' 수주

김이래 기자 | kir2@newsprime.co.kr | 2019.08.12 11:26:26

[프라임경제] 솔트룩스(대표 이경일)는 축적된 경험과 신뢰성을 바탕으로 대규모 고품질 우리말 자원구축을 위한 국립국어원의 '구어 자료 수집 및 원시 말뭉치 구축 사업'을 수주했다고 12일 밝혔다.

국립국어원은 TV, 라디오등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고 저작권 이용 계약 체결로 민간 활용 가치를 극대화 하고자 이 사업을 계획했다.

언어 데이터인 말뭉치 어절 보유량을 살펴보면 △영어 2000억 어절 △중국어 800억 어절 △한국어 2억 어절로 한국어가 영어의 1/1000에 그치는 등 해외보다 데이터 자산이 매우 취약한 상황이다.

솔트룩스는 2018년 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 '국어 말뭉치 연구 및 구축 사업'을 수행해 왔다.

그 외에도 한국전자통신연구원(ETRI)의 음성DB구축, 한국언론진흥재단의 뉴스 빅데이터 시스템구축 등 20년간 축적된 빅데이터구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받아 이번 사업에 밑거름이 될것으로 보인다.

이경일 솔트룩스 대표는 "인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다"고 말했다.

이어 "자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다"고 의지를 밝혔다.

김이래 기자 kir2@newsprime.co.kr

많이 본 뉴스