긴 문서 빠르게 처리하는 'A.X 인코더'로 LLM 학습 최적화
7B 모델 기반 'A.X 4.0 VL Light', 고효율 멀티모달 성능 입증
한국어 시각·문서 이해 벤치마크서 기존 모델 압도
[서울=뉴스핌] 양태훈 기자 = SK텔레콤이 자체 개발한 초거대언어모델 '에이닷 엑스'를 기반으로, 시각·언어통합처리 기술과 긴 문서 처리에 특화된 문서 해석 모델을 새롭게 선보였다.
29일, SK텔레콤(이하 SKT)은 자사 초거대언어모델(LLM)인 에이닷 엑스(A.X)를 기반으로 한 멀티모달 시각·언어모델과 범용 문서 해석 기술을 공개했다고 밝혔다.
이번에 오픈소스 커뮤니티 허깅페이스(Hugging Face)에 등록된 모델은 'A.X 인코더'와 'A.X 4.0 VL Light'로, 학술연구 및 상업적 용도에 자유롭게 활용할 수 있다.
![]() |
사진은 유영상 SK텔레콤 대표가 SK T타워 수펙스홀에서 열린 'SK텔레콤 AI 사업전략 기자간담회'에서 키노트를 발표하고 있는 모습. [사진=SK텔레콤] |
SKT는 7월 한 달간 A.X 4.0 표준·경량 모델과 A.X 3.1 표준·경량 모델에 이어 이번 두 개의 기술을 추가함으로써 총 6개의 자체 모델을 연이어 발표했다.
'A.X 인코더'는 LLM 학습에 최적화된 범용 문서 처리 기술로, 긴 문서도 빠르고 효율적으로 처리할 수 있다. 1억 4,900만 개의 파라미터를 기반으로 작동하며, KLUE 기준 평균 85.47점을 기록해 'RoBERTa-base' 모델(80.19점) 대비 뛰어난 성능을 보였다. 최대 1만 6,384개의 토큰을 처리할 수 있어 기존 모델 대비 최대 3배 빠른 추론 속도와 2배의 학습 속도를 제공한다.
또 다른 모델인 'A.X 4.0 VL Light'는 한국어 기반 시각-언어 모델로, 70억 개 파라미터의 A.X 4.0 경량 모델을 바탕으로 개발됐다. 경량 구조에도 불구하고 시각 정보와 언어 이해, 표·그래프·도면 등 복합 정보를 효과적으로 처리해 기업 애플리케이션에 적합한 성능을 갖췄다.
해당 모델은 한국어 시각 벤치마크에서 평균 79.4점을, 텍스트 벤치마크에서 60.2점을 기록했다. K-Viscuit 벤치마크에서는 80.2점, KoBizDoc에서는 89.8점을 획득해 Qwen2.5-VL32B 모델보다 작지만 더 나은 성능을 보였다. 동일 데이터 입력 시 약 41% 적은 토큰을 사용해 처리 효율도 높였다.
김태윤 SKT 파운데이션 모델 담당은 "자체 기술력 확보는 소버린 AI의 핵심"이라며, "내재화 역량 강화와 함께 컨소시엄 기업들과의 협력을 통해 글로벌 수준의 AI 경쟁력을 확보할 것"이라고 전했다.
dconnect@newspim.com