한국어 특화 속도 내지만 금새 추월한 해외 LLM
글로벌 기업 속도 쫓기보단 현실적 경쟁력 절실
[세종=뉴스핌] 이경태 기자 = 초거대인공지능(AI) 시대를 맞았지만 사실상 글로벌 경쟁에서 국내 거대언어모델(LLM)의 경쟁력을 찾는 데 한계가 있다는 지적이 제기된다.
지난달 과학기술정보통신부는 국내에서 독자 기술로 개발된 LLM 모델로 ▲하이퍼클로바X(네이버, 2023년 8월) ▲엑사원 2.0(LG AI 연구원, 2023년 7월) ▲가우스(삼성전자, 2023년 11월) ▲코난LLM(코난테크놀로지, 2023년 8월), 바르코(엔씨소프트, 2023년 7월) 등 다수의 독자 파운데이션 모델을 보유하고 있는 상황이라고 공식적으로 밝힌 바 있다.
그동안 국내 LLM 개발 기업은 한국어 특화 서비스에 초점을 맞췄다. 사실상 오픈AI가 출시한 챗GPT, 구글의 제미나이, 앤트로픽의 클로드, 메타의 라마 등은 대규모 영어 학습을 통해 독보적인 영어 구사 능력을 보여주고 있다는 판단에서다.
네이버의 경우, 자체 포털 서비스에서 비롯된 다양한 서비스를 활용한 한국어 학습이 최적화됐다는 얘기다. LLM 모델을 독자적으로 개발한 국내 기업들 대부분이 동일한 생각을 갖고 있다.
지난해만 하더라도 정부에서 이에 동의했다. 정부 한 고위급 관계자는 "국내 기업이 아무래도 한글 학습에서는 앞서 있는 게 사실"이라며 "정부도 이같은 방향에서 국내 기업이 제대로 된 서비스를 할 수 있도록 도울 것"이라고 말했다.
하이퍼클로바X와 다른 주요 오픈소스 LLM들의 성능 비교 [자료=국제 논문 사전 공개 사이트 아카이브(arxiv.org)] 2024.05.22 biggerthanseoul@newspim.com |
지난달 네이버클라우드는 '하이퍼클로바X'의 세부적인 기술 정보를 담은 테크니컬 리포트를 공개했다. 이 리포트에서는 주로 한국어 모델인 '폴리글롯(1.3B, 5.8B, 12.8B)', 오픈 소스인 '팰컨(7B, 40B)', 메타의 '라마2(7B, 13B, 70B)', 업스테이지의 '솔라 10.7B' 등이 대부분 대부분 매개변수가 적은 소형언어모델(sLM)과의 분석에 초점이 맞춰졌다.
하이퍼클로바X는 한국어, 영어, 수학, 코딩, 상식, 사실성, 안전성 분야에서 우월한 성적을 보이긴 했다. 그러나 곧바로 상황은 급반전됐다.
AI 업계에서는 실제 서비스에 활용하는 LLM 모델로는 GPT 시리즈를 꼽고 있다. 지난주 오픈AI는 GPT-4o(OMNI:모든 것)를 공개했다. 챗과 개발 서비스에서 일부 기능을 이용할 수 있다.
AI 기업 한 대표는 "생성물의 질적인 측면과 GPT-4o의 상대적인 가성비를 보더라도 국내 기업의 LLM 모델을 활용하는 데는 한계가 많다"며 "오히려 GPT-4부터 한글 능력에서 국내 LLM을 뛰어넘는다는 평가도 있다"고 전했다.
오픈AI가 지난주 공개한 GPT-4o 시연 모습 [사진=오픈AI] 2024.05.22 biggerthanseoul@newspim.com |
전원이 오픈AI 출신인 앤트로픽의 클로드는 감성적인 한국어 능력이 특출하다는 평가를 업계에서 받고 있다.
여기에 지난달 오픈소스로 공개된 메타의 라마3(Llama3)는 한국어에 특화된 것으로 평가된다. 업계에서는 라마3가 GPT-3.5와 GPT-4의 중간 수준에 도달해있다고 말한다.
국내 기업 중 최근 라마3를 기반으로 LLM 모델을 출시한 테디썸의 경우에는 추가적인 한국어 말뭉치 등을 학습토록 해서 기존 국내 LLM 모델과의 차별성을 높이고 있다.
업계에서는 국내 서비스를 당장 활용할 것에 대해서는 여전히 주춤하는 모습이다.
AI 기업 한 대표는 "한국어 능력까지 글로벌 기업의 LLM에 뒤처진다는 지적을 받고 있다보니 국내에서도 실제 서비스에는 국내 기업의 서비스를 도입하기에는 추가적인 파인튜닝을 하는데 에너지를 소모할 것 같다"며 "국내 시장에서도 제대로 경쟁이 되지 않는다면 해외로 가기에는 더더욱 어려운 만큼 뭔가 돌파구가 필요하긴 할 것"이라고 말했다.
그는 이어 "국내에서는 대표적인 LLM 모델이라는 하이퍼클로바X가 매개변수가 적은 오픈소스 sLLM 모델을 두고 경쟁 우위를 자체적으로 판단해서 어느 정도 우위에 있다는 리포트를 내는 것에 업계는 높게 평가를 하지는 않는다"며 "오픈AI, 구글, 앤트로픽 등 기업의 LLM 업데이트 속도를 마냥 쫓아가기보다는 좀더 현실적인 경쟁력을 확보할 만한 부분을 찾아야 할 것"이라고 전했다.
biggerthanseoul@newspim.com