이미지·텍스트 동시 이해, 복잡한 문서 효과적 처리 가능
4종 오픈소스로 순차 공개…"전 국민 AI 생태계 발전 기여"
[서울=뉴스핌] 이성화 기자 = 엔씨소프트의 인공지능(AI) 전문 자회사 NC AI는 한국어 기반 멀티모달 AI 기술력을 집약한 '바르코 비전(VARCO-VISION) 2.0' 4종의 멀티모달 AI 모델을 오픈소스로 공개한다고 16일 밝혔다.
바르코 비전 2.0은 이미지와 텍스트를 함께 이해하는 능력을 갖춘 차세대 인공지능으로 복잡한 문서나 표, 차트를 효과적으로 처리할 수 있다. 한국어와 영어 모두 자연스럽게 이해할 수 있으며 특히 텍스트 생성 능력과 한국 문화에 대한 이해도가 크게 향상됐다.
![]() |
NC AI의 '바르코 비전(VARCO-VISION) 2.0' 로고. [사진=NC AI] |
이번에 공개하는 바르코 비전 2.0 모델은 ▲14B ▲1.7B ▲1.7B 광학문자판독(OCR) ▲비디오 임베딩(Video-Embedding) 등 총 4종이다. 14B와 임베딩 모델은 16일, 1.7B와 OCR 모델은 다음 주 중 공개할 예정이다.
바르코 비전 2.0 14B 모델은 글로벌 오픈소스 비전언어모델(VLM) 최고 성능으로 알려진 InternVL3-14B와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 성과를 기록했다.
NC AI는 "동급 모델들을 영문 이미지 이해, 한국어 이미지 이해, OCR 벤치마크 등 다양한 벤치마크에서 능가하며 멀티모달 AI에서도 소버린(주권) AI의 가능성을 확인했다"고 설명했다.
14B 모델은 복잡한 멀티이미지 분석과 고도화된 추론이 필요한 업무용 환경에 최적화돼 있으며, 1.7B 경량 모델은 스마트폰이나 PC 등 개인 기기에서도 원활하게 동작할 수 있도록 설계됐다.
NC AI는 "클라우드 환경뿐만 아니라 개인 디바이스에서도 고성능 멀티모달 AI를 활용할 수 있게 함으로써 AI 기술의 접근성과 확장성을 크게 높일 것"이라고 전망했다.
![]() |
NC AI는 '바르코 비전(VARCO-VISION) 2.0' 4종의 멀티모달 AI 모델을 오픈소스로 공개한다고 16일 밝혔다. 사진은 바르코 비전 2.0 14B 모델의 벤치마크 비교표. [사진=NC AI] |
이미지 내 문자를 인식하는 광학 문자 인식 작업에 특화된 모델인 1.7B OCR 모델은 기존 OCR 모델들과 달리 이미지와 언어 정보를 동시에 학습한 VLM기반 접근 방식을 채택해 기존 오픈소스 OCR 모델 대비 한국어 OCR 능력이 더 높은 것으로 나타났다.
비디오 임베딩 모델은 텍스트, 이미지, 비디오 간의 의미적 유사도를 고차원 임베딩 공간에서 정밀하게 계산한다. 임베딩이란 영상의 내용을 숫자로 변환해서 저장하는 것으로, 해당 기술을 통해 사용자의 자연어 질의에 따라 동영상 콘텐츠를 고차원 임베딩으로 변환하고 임베딩 간의 거리나 유사도를 기반으로 관련성 높은 이미지나 비디오를 검색할 수 있다.
이번에 공개된 4종은 복잡한 보고서·계약서·청구서 등의 자동 분석 및 디지털화, 표와 차트가 포함된 문서 처리, 주문서 자동 정리·요약 등 문서 처리 및 자동화 분야에서 광범위하게 활용할 수 있다.
또한 제품 이미지 기반 자동 설명 생성, 비디오 콘텐츠의 자연어 기반 검색 시스템, 크리에이티브 콘텐츠 생성 및 광고 문구 작성 등 콘텐츠 및 미디어 분야에서도 업무효율의 증대를 가져올 전망이다.
NC AI는 이번에 공개하는 4종 모델 모두를 연구용 오픈소스로 공개한다. 기업과 개인, 공공기관 누구나 활용할 수 있도록 함으로써 전 국민 AI 생태계 발전에 기여하겠다는 의지다. 이와 함께 국내 AI 기술의 글로벌 경쟁력을 입증하고 오픈소스 생태계를 통한 기술 민주화에도 기여, 정부가 추진하는 '소버린AI' 강화에 힘을 더할 계획이다.
이연수 NC AI 대표는 "기술 고도화로 글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 전환되고 있다"며 "이번 4종 모델 공개를 통해 미디어와 게임, 패션 등 버티컬 AI로 기존 국내 멀티모달 AI를 선도하는 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다"고 밝혔다.
shl22@newspim.com