[서울=뉴스핌] 이나영 기자= 최근 한국형 대형언어모델(LLM) 개발이 본격화될 것으로 예상되면서 인공지능에 필요한 양질의 데이터 확보가 주요 전략 과제로 부상하고 있다. 이와 관련해 국내 기업 '비큐AI'는 데이터 저작권 문제 해결과 동시에 AI모델의 신뢰성 향상을 위한 데이터 파이프라인 솔루션 'RDPLINE(Real-time Data Pipeline)'을 제공하고 있어 주목받고 있다.
과학기술정보통신부는 최근 '소버린 AI(자주적 AI)' 구축을 위한 독자 AI 파운데이션 모델 개발을 공식화하며, 고품질 데이터의 중요성을 강조했다. 김경만 과기부 정보통신정책관은 고품질 데이터는 AI의 성능을 좌우하는 핵심 자산이라고 언급하면서 신뢰도 높은 콘텐츠 확보에 나설 것임을 강조했다.
![]() |
비큐AI 로고. [사진=비큐AI] |
7일 업계에 따르면 뉴스는 정치, 사회, 문화, 과학 등 다양한 카테고리를 포함하며 사실 기반의 정제된 문장, 이미지, 통계 자료 등을 포괄하고 있어 AI 모델 학습에 가장 이상적인 데이터셋이라는 평가를 받고 있다.
실제로 챗GPT-3의 학습에 사용된 4990억 토큰 중 4320억 토큰이 웹에서 수집됐으며, 그 중 높은 비율로 뉴욕타임즈 등 주요 언론사들의 뉴스데이터가 활용된 것으로 알려져 있다. 네이버의 하이퍼클로바X의 경우에도 5618억 토큰 중 뉴스데이터는 800억 가량으로 높은 비중을 차지하고 있다.
또한 뉴스데이터는 AI 서비스의 고도화와 실시간성 확보를 위한 핵심 데이터로도 주목받고 있다. AI의 대표적 부작용인 할루시네이션 현상과 정보 편향 문제를 해결하기 위해서 신뢰할 수 있는 실시간 데이터의 지속적 반영이 필수적이다. 이러한 측면에서 매일 새롭게 생성되는 뉴스데이터는 그 역할을 효과적으로 수행할 수 있는 최적의 자산으로 주목된다.
최근 '소버린AI' 구축을 목표로 개발이 본격화되고 있는 한국형 대형언어모델(LLM)은, 한국어의 문맥 이해는 물론 사회·정치적 맥락과 문화적 배경까지 정밀하게 반영해야 하는 과제를 안고 있다. 이에 따라 신뢰도 높은 AI서비스를 제공하기 위해서는 매일 생성되는 최신정보를 반영할 수 있는 '실시간 데이터 파이프라인'의 연결이 필수적이며, 이러한 측면에서 뉴스데이터가 AI의 핵심자산으로 주목받고 있는 것이다.
하지만 뉴스데이터는 '저작권' 문제라는 현실적 장벽에 부딪히고 있다. 생성형 AI 확산에 따라 뉴스 콘텐츠의 무단 활용, 재가공, 요약·생성 등과 관련된 법적 분쟁이 늘고 있으며, 해외에서는 디즈니·유니버설 스튜디오와 오픈AI·뉴욕타임스 간의 소송전이 벌어지고 있다. 국내에서도 뉴스콘텐츠 저작권 침해 여부가 쟁점이 되고 있으며, AI 산업 확산과 유료화 흐름 속에서 뉴스데이터의 경제적·기술적 가치가 재조명되고 있다.
이런 배경에서 민간의 행보도 주목된다. 국내 기업 '비큐AI'는 데이터 저작권 문제 해결과 동시에 AI모델의 신뢰성 향상을 위해 데이터 파이프라인 솔루션 'RDPLINE'을 제공하고 있다.
이 솔루션은 합법적으로 확보하고 정제한 뉴스데이터를 실시간으로 AI의 학습 및 고도화를 위해 공급함으로써, 정확하고 시의성 있는 응답을 가능하게 한다. 또한 할루시네이션, 정보편향 등 생성형AI의 주요 부작용을 완화할 수 있는 현실적인 대안을 제시하고 있다.
비큐AI 관계자는 "데이터 구축과 AI기술에 대한 전문성을 바탕으로, 저작권자와 데이터 수요자 간의 신뢰기반 거래 구조를 제안하고 있다"며 "신뢰할 수 있는 AI를 위한 데이터 확보와 기술개발에 지속적으로 힘쓰며 국내에 바람직한 AI생태계가 구축될 수 있도록 노력하겠다"고 전했다.
nylee54@newspim.com