AI 핵심 요약
beta- 아크릴이 1일 GPUBase 대규모 성능 검증 1단계를 완료했다.
- 글로벌 3대 클라우드 1272개 GPU에서 학습 속도가 최대 24배 빨라졌다.
- 장애 18건은 5분 안에 복구했고 AI 데이터센터 공략에 나섰다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
LLM 학습 시간 96% 단축·최대 24배 처리
[서울=뉴스핌] 양태훈 기자 = 인공지능 전환(AX) 인프라 전문기업 아크릴은 AI 인프라 운영 플랫폼 'GPUBase'의 대규모 성능 검증 1단계를 완료했다고 1일 밝혔다.
아크릴은 세계 주요 클라우드 환경에서 진행한 'K-Scale Evaluation'의 첫 번째 단계인 'Horizontal Phase'에서 GPUBase 적용 시 학습 속도가 최대 24배 빨라진 것으로 나타났다고 설명했다.
이번 검증은 GPUBase가 특정 클라우드나 단일 환경에 종속되지 않고 다양한 AI 데이터센터 인프라에서 작동하는지 확인하기 위해 진행됐다. 아크릴은 글로벌 3대 클라우드 서비스 제공업체(CSP) 환경에서 7종의 그래픽처리장치(GPU) 총 1272개를 활용해 대규모 AI 학습, 추론, 운영 성능을 점검했다.

대규모 AI 데이터센터는 GPU 개별 성능뿐 아니라 여러 GPU가 데이터를 주고받는 네트워크와 운영 구조가 전체 성능에 영향을 준다. GPUBase는 GPU 작업 배분, 데이터 이동 경로, 병목 구간, 전송 우선순위 등을 통합 조율해 대규모 환경에서 발생하는 작업 지연을 줄이는 플랫폼이다.
검증 결과 GPUBase는 작업 부하가 커질수록 성능 개선 효과가 나타났다. 대규모 언어모델(LLM) 학습에서 GPUBase 적용 환경은 처리 속도를 유지한 반면, 미적용 환경은 고부하 상황에서 속도가 저하됐다. 이에 따라 학습 시간은 약 96% 줄었고, 동일 작업 기준 최대 24배 빠른 처리 성능을 기록했다.
서비스 응답 단계에서도 안정성이 확인됐다고 회사는 설명했다. GPUBase는 요청이 몰리는 상황에서 응답 성능 편차를 줄였고, 학습과 추론이 동시에 수행되는 AI 데이터센터 운영 환경에서도 서비스 품질 기준을 충족했다. GPU 간 데이터가 집중되는 구간에서는 데이터 처리량이 미적용 대비 약 24배, 비율로는 2375% 증가했다.
운영 측면에서는 서로 다른 7종의 GPU가 혼재된 환경에서 수천 건의 작업을 중단 없이 배분했다. GPU 활용률은 90% 이상을 기록했다. 작업 대기 시간은 최대 93%, 전체 완료 시간은 최대 34% 줄었다. 18가지 장애 상황은 모두 5분 안에 감지·복구했다고 회사는 밝혔다.
GPUBase의 핵심 기술은 아크릴 최고기술책임자(CTO)이자 성균관대 소프트웨어학과 교수인 염익준 박사의 컴퓨터 네트워크 연구를 기반으로 한다. 아크릴은 데이터 전송 경로를 분산하는 PeRF 기술과 여러 경로를 동시에 활용하는 UL-MPRDMA 기술을 GPUBase에 적용해 AI 학습·추론 효율을 높였다고 설명했다.
아크릴은 과학기술정보통신부의 'AI 클라우드 경쟁력 강화 기술개발 사업'에서 네트워크 분야 주관기관으로 선정된 바 있다. 회사는 GPUBase를 통해 GPU, 서버, 저장장치, 네트워크를 하나의 시스템으로 통합 운영하는 AI 데이터센터 인프라 플랫폼 시장을 공략할 계획이다.
염익준 아크릴 CTO는 "대규모 AI의 성능은 GPU 간 연결과 데이터 전송 효율에 달려 있다"며 "이번 검증을 통해 GPUBase가 글로벌 클라우드와 1000장 규모 GPU 환경에서도 작동한다는 점을 확인한 만큼, 더 큰 클러스터와 장시간 운영 환경에서도 확장성과 안정성을 지속 검증하겠다"고 말했다.
dconnect@newspim.com












