한국어 특화 성능…글로벌 모델 상회
3종 오픈소스 모델, 허깅페이스 통해 공개
[서울=뉴스핌] 양태훈 기자 = 카카오가 생성형 AI의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 '카나나 세이프가드'를 개발하고, 국내 기업 최초로 이를 오픈소스로 공개했다.
27일, 카카오는 생성형 AI 기술의 안전성과 신뢰성 확보를 위한 AI 가드레일 모델 '카나나 세이프가드(Kanana Safeguard)'를 개발하고, 총 3종의 모델을 오픈소스로 공개했다고 밝혔다. 이는 국내 기업 중 최초로 시도된 오픈소스 배포 사례로, 안전한 AI 생태계 구축을 위한 기술적 기여를 목표로 한다.
최근 생성형 AI의 활용이 확산되면서 유해 콘텐츠 노출 등 안전성에 대한 사회적 우려가 커지고 있는 가운데, 카카오는 이에 대한 기술적 대응책 마련의 일환으로 해당 모델을 개발했다. 주요 글로벌 빅테크 기업들 또한 유사한 목적의 AI 가드레일 시스템을 운영 중이다.
![]() |
[자료=카카오] |
'카나나 세이프가드'는 카카오가 자체 개발한 언어모델 '카나나(Kanana)'를 기반으로 하며, 한국어 및 한국 문화를 반영한 고유 데이터셋을 활용해 한국어 특화 성능을 갖춘 것이 특징이다. F1 스코어 기준 평가 결과, 한국어 성능에서는 글로벌 모델을 능가하는 수준을 기록했다.
카카오는 이번에 공개한 모델 3종을 각각 다른 리스크 유형에 대응할 수 있도록 구성했다. '카나나 세이프가드'는 사용자의 발화나 AI 응답 중 증오, 괴롭힘, 성적 콘텐츠 등의 유해 요소를 탐지하며, '카나나 세이프가드 사이렌(Kanana Safeguard-Siren)'은 개인정보·지식재산권 등 법적 주의가 필요한 요청을 식별한다. '카나나 세이프가드 프롬프트(Kanana Safeguard-Prompt)'는 AI를 악용하려는 의도를 탐지하는 데 특화된 모델이다. 세 모델 모두 허깅페이스(Hugging Face) 플랫폼을 통해 다운로드할 수 있다.
특히 카카오는 해당 모델에 아파치 2.0(Apache 2.0) 라이선스를 적용해 상업적 이용은 물론 수정 및 재배포도 자유롭게 허용함으로써, 생태계 전반의 확산과 활용도를 높였다. 향후 지속적인 업데이트를 통해 기능 고도화도 추진할 방침이다.
김경훈 카카오 AI Safety 리더는 "생성형 AI 기술이 급속히 발전하면서 윤리성과 안전성에 대한 사회적 논의가 활발히 진행되고 있다"며 "카카오는 책임 있는 기술 개발을 선도하기 위해 지속적으로 선제 대응에 나설 것"이라고 밝혔다.
자세한 정보와 모델은 허깅페이스에서 확인할 수 있다.
dconnect@newspim.com