[서울=뉴스핌] 양태훈 기자 = 솔트룩스가 16일 '과학기술정보통신부'가 주관하고 '한국지능정보사회진흥원(NIA)'이 추진하는 '2022년 인공지능 학습용 데이터 구축사업'을 통해 전문분야 심층인터뷰 및 방송콘텐츠 대화체 음성인식 데이터를 구축했다고 밝혔다.
솔트룩스는 이번 사업에서 전문분야 심층인터뷰 데이터와 방송콘텐츠 대화체 음성인식 데이터 사업을 주관하고 ▲ 경북대 산학협력단 ▲ 소리자바 ▲ 비투엔 등과 컨소시엄을 구성해 전문분야 심층인터뷰 2000시간과 방송콘텐츠 7000시간의 데이터를 구축했다.
구체적으로 솔트룩스는 자사 '랭기지 스튜디오' 솔루션을 통해 의도분류, 대화 요약생성, 오탈자 교정 등 다양한 인공지능(AI) 학습 모델을 구현함으로써 구축 업무의 효율성을 극대화했다. 랭기지 스튜디오는 오픈AI의 '챗GPT' 서비스 구현에도 활용된 'GPT' 등 거대 언어 모델을 활용해 금융, 법률, 공공 각 도메인에 특화된 언어모델을 빠르게 생성할 수 있는 생성 AI 솔루션이다.
솔트룩스 로고. [사진=솔트룩스] |
또 솔트룩스는 전문분야 심층인터뷰 데이터 사업의 전문 용어 추출을 위해 자연과학, 환경, 역사·고고학 등 15개 카테고리와 관련된 영상·음성 데이터를 3000시간 이상 수집하였을 뿐 아니라, 전문가들과의 심층 인터뷰를 통해 700시간 이상 음성 데이터를 직접 녹음했다. 해당 사업은 성과에 대한 전문성을 인정받아 최종 평가에서 '우수' 등급을 받았다.
이번에 구축된 데이터는 NIA의 AI Hub 사이트를 통해 공개될 예정이며 음성인식 기반 콜센터, 여론 및 감정분석 서비스, 음성인식 기반 가상비서 서비스, 방송콘텐츠 자막 및 요약 서비스, AI 비대면 면접 시스템 고도화, 전문용어 자동스크립트 서비스 고도화 등에 활용될 전망이다.
솔트룩스 측은 "챗GPT 등 대화형 인공지능 열풍이 전 산업군으로 확산되면서 고품질의 인공지능 학습용 데이터를 확보하는 것이 갈수록 중요해지고 있다"며 "국내 인공지능 업계 선도 기업으로써 인공지능 산업의 생태계 조성과 경쟁력 향상을 위해 앞으로도 노력할 것"이라고 전했다.
dconnect@newspim.com