메타 라마3.1 기반으로 개발
영어 성능 손실 없이 달성
[세종=뉴스핌] 이경태 기자 = 서울과학기술대학교 멀티모달 언어처리 연구실(MLP) 임경태 교수팀과 테디썸은 한국어 최초 405B급 한국어-영어 초거대 언어모델 Bllossom-405B를 6일 완전 공개했다.
이 모델은 메타가 최근 공개한 공개 언어모델인 라마3.1(LLama3.1-405B) 기반 모델을 토대로 만들어졌다. 메타가 공개한 라마3.1-405B 모델은 한국어가 가능한 공개 언어모델 중 가장 큰 모델이다.
챗 블로썸 서비스 모습 [사진=테디썸] 2024.08.07 biggerthanseoul@newspim.com |
블로썸-405B 모델은 라마3.1 모델에 자체 개발한 '효율적인 층별 최적화(Efficient Layer-specific Optimization, ELO)' 추가 사전학습 방법을 적용한 모델이다.
한국어-영어 병렬 말뭉치 데이터를 활용한 지식 연결을 통해 영어 성능의 손실 없이 한국어 성능을 강화한 모델이다.
405B급 초거대 모델 추론에만 최소 엔비디아의 A100 GPU 6대가 필요할 정도로 상당히 큰 모델로 추가 사전학습의 장벽이 높다.
서울과기대 임경태 교수팀은 이러한 문제를 자체 개발한 층별 최적화 방법으로 완화시켰다.
이번 블로썸 3.1 모델은 공식적으로 한국 '휴렛 패커드 엔터프라이즈(Hewlett Packard Enterprise. HPE)의 컴퓨팅 지원과 커먼 크롤(Common Crawl) 재단이 제공한 한국어 데이터를 토대로 대량의 GPU와 영어-한국어 데이터를 활용해 만들어진 모델이다.
이번에 공개된 모델은 Bllossom3.1-8B 모델과 Bllossom3.1-405B 모델이다. 이 모델은 전체적으로 공개가 되며, 개별적인 추가 학습이 가능해 상업적인 이용도 할 수 있다. GPU메모리 사용량을 매우 줄인 4bit 양자화된 모델도 동시에 공개해 일반 유저들이 직접 활용해볼 수 있다.
함영균 테디썸 대표는 "한국어 공개 모델의 필요성에 공감한 글로벌 빅테크 기업들이 현재 블로썸과 협업하고 있다"며 "앞으로도 지속적으로 거대 모델을 공개해 중소규모 회사 및 연구 그룹에서도 활용할 수 있도록 초거대 언어모델의 민주화에 기여할 것"이라고 말했다.
biggerthanseoul@newspim.com