[서울=뉴스핌] 양태훈 기자 = 코난테크놀로지가 15일, 자체개발 대규모 언어모델 '코난 LLM'이 파라미터 410억개 학습을 마쳤다고 밝혔다.
코난테크놀로지는 오늘 기준으로 전체 토큰 7000억개로 총 파라미터 410억개(41 Billion) 모델의 학습을 마쳤다. 한국어 학습토큰은 13.1B 모델 3000억개에서 1000억개 늘어난 4000억개다. 양질의 대규모 데이터로 학습된 41B 모델은 최적화 및 미세조정을 거쳐 고객에게 제공할 예정이다.
코난 LLM은 문서 생성뿐만 아니라 자동 도표 생성, 자동 요약, 참고문서 제공 등을 통해 문서 생산성을 크게 향상시킨다. 나아가 RAG(Retrieval Augmented Generation)에 자사의 강점인 '벡터 검색'을 활용함으로써 성능을 더욱 업그레이드했다. 생성형 AI가 근거 있는 답변을 내놓게 만드는 RAG 기법에 벡터검색엔진 '코난 서치6'를 접목한 결과, 고객의 내부 문서나 최신 데이터 등을 기반으로 한 관련 문서에서 추출한 신뢰도 높은 최신 답변이 제공된다. 이러한 방식은 질의응답 뿐만 아니라 문서 생성시에도 적용되어 전체적인 답변 품질을 향상시키고, 환각 현상은 해소시켰다.
[사진=코난테크놀로지] |
사용자별 권한 관리에도 신경 썼다. LLM 사용시 부서별, 직책별로 사내 문서와 데이터에 대한 열람 및 접근 권한을 부여하고, 이에 따라 반환되는 정보는 엄격하게 제어함으로써 철저한 접근제어 환경을 마련했다.
고객이 데이터규모나 예산, 용도 등에 따라 13.1B 또는 41B 파운데이션 모델 중 원하는 사양을 선택하면 기업 전용 관리 도구인 '코난 LLM 스튜디오'가 함께 제공된다. 코난 LLM 스튜디오는 고객의 내부 데이터나 문서에 대해 도메인 추가 학습부터 미세 조정에 이르기까지 AI 전문 개발자가 아니더라도 쉽고 빠르게 업무에 적용할 수 있도록 지원하며, 기업별 최적화된 문서 양식과 프롬프트를 맞춤형으로 제공한다.
코난 LLM은 지난 8월 13.1B 출시 이후 9월 청와대에서 열린 대한민국 초거대AI 출정식에서 尹 대통령에게 시연을 선보였으며, 행정안전부의 AI 행정지원 서비스 시범 개발 PoC도 참여하며 범 정부 AI 도입 수요에 부응하고 있다.
기본적으로 온프레미스로 구축되며, 라이선스 및 연간 구독 모델 방식 등 판매방식 다변화를 계획하고 있다. 또한 AICC 비즈니스를 지원하는 자사의 'Konan VoiceBot'(코난 보이스봇)과 같은 서비스에도 도입되는가 하면 여러 하드웨어에 LLM을 내재화함으로써 새롭게 주목 받는 온디바이스 AI 시장에 뛰어들 채비도 갖추고 있다.
김영섬 코난테크놀로지 대표이사는 "지속적인 모델 고도화로 연내 순차 학습을 마치게 돼 기쁘다"며 "코난 LLM을 도입해 여러 인공지능 비즈니스 수요에 적극적으로 대응하겠다"고 포부를 전했다.
dconnect@newspim.com