전체기사 최신뉴스 GAM
KYD 디데이
산업 ICT

속보

더보기

카카오, 텍스트·음성·이미지 통합 AI 공개

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

국내 최초 멀티모달 언어모델 'Kanana-o' 성능 발표
억양·감정까지 분석해 자연스러운 음성 응답
한국어 벤치마크서 글로벌 모델 대비 우위 입증

[서울=뉴스핌] 양태훈 기자 = 카카오가 텍스트, 음성, 이미지 정보를 동시에 처리할 수 있는 멀티모달 언어모델 'Kanana-o'를 공개하고, 감정까지 이해하는 대화형 인공지능 기술 경쟁력 강화를 본격화했다.

1일 카카오는 공식 테크블로그를 통해 텍스트·음성·이미지를 통합적으로 이해하고 응답할 수 있는 멀티모달 언어모델 'Kanana-o'의 성능과 개발 후기를 공개했다고 밝혔다.

Kanana-o는 국내 최초로 텍스트, 음성, 이미지 형태의 정보를 동시에 처리하는 통합형 AI 모델이다. 질문이 텍스트·음성·이미지 중 어떤 조합으로 입력되더라도 상황에 맞는 텍스트 또는 음성으로 응답이 가능하도록 설계됐다.

[자료=카카오]

이번 모델은 이미지 처리에 특화된 'Kanana-v', 음성 이해와 생성에 강점을 지닌 'Kanana-a'를 '모델 병합(Model Merging)' 기술로 결합해 개발됐으며, 이후 '병합 학습(Joint Training)'을 통해 세 가지 입력 정보를 통합적으로 학습했다.

Kanana-o는 음성 감정 인식 기술을 활용해 사용자의 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성할 수 있다. 특히 대규모 한국어 데이터를 기반으로 지역 방언까지 인식하고 표준어로 변환해 자연스러운 한국어 음성 생성이 가능하다.

또한 스트리밍 기반 음성 합성 기술이 적용돼 긴 대기 시간 없이 응답이 이뤄진다. 예컨대 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 요청하면, 해당 음성을 인식하고 감정과 상황을 분석해 즉석에서 이야기를 들려주는 방식이다.

카카오에 따르면, Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 감정 인식 능력에서는 큰 차이를 보이며 경쟁력을 입증했다. 이미지·음성 질의응답 등 복합적 멀티모달 과제에서도 우수한 결과를 나타냈다.

카카오는 향후 Kanana-o를 기반으로 ▲다중 턴 대화 처리 ▲양방향 통신(Full-duplex) 대응 ▲안전한 응답 제공 등을 위한 연구를 지속해, 실제 대화와 유사한 자연스러운 상호작용을 구현해나갈 계획이다.

김병학 카카오 카나나 성과리더는 "카나나 모델은 복합적인 정보를 통합적으로 처리해 텍스트 중심 AI에서 사람처럼 보고, 듣고, 말하며 공감하는 AI로 진화하고 있다"며 "독자 기술 기반의 멀티모달 역량을 통해 인공지능 기술 경쟁력을 강화하고, 연구 결과 공유를 통해 국내 AI 생태계 발전에 기여해 나가겠다"고 밝혔다.

한편, 카카오는 지난해 자체 개발한 AI 모델 'Kanana' 라인업을 공개했으며, 테크블로그를 통해 언어모델, 멀티모달 모델, 비주얼 생성모델 등의 성능과 개발기를 지속적으로 소개해왔다. 올해 2월에는 'Kanana Nano 2.1B'를 깃허브에 오픈소스로 배포하고, 연구 성과를 아카이브(arXiv)에 공개한 바 있다.

dconnect@newspim.com

[뉴스핌 베스트 기사]

사진
군 마트 매출 상위 4개 모두 '술' [서울=뉴스핌] 오동룡 군사방산전문기자 = 올해 1∼11월 군 마트 판매량 상위 4개 품목이 모두 주류로 집계됐다. 국군복지단 소속 PX(군 마트)가 병영 내 '생활복지 시설'로 운영되고 있음에도, 판매 구조는 사실상 '주류 중심'으로 재편된 셈이다. 논산 육군훈련소 본점 군 마트 전경. [사진=국방부 제공] 2025.12.21 gomsi@newspim.com 국회 국방위원회 소속 유용원 국민의힘 의원이 21일 국방부로부터 제출받은 자료에 따르면, 기간 내 판매량 1위는 A 캔맥주(2398만개)였으며, 이어 B 캔맥주(2171만개), D 캔맥주(1400만개), C 소주(256만개) 순으로 나타났다. 네 품목 판매량을 합치면 총 8025만개, 매출액은 918억6948만원에 달한다. 군 마트 내 A 캔맥주 가격은 1000원으로, 편의점 평균가(2250원)의 절반 이하다. C 소주 역시 1060원으로, 시중가(1800원)보다 약 40% 낮은 수준이다. 복지단이 대량 구매 및 유통 수수료 절감으로 단가를 낮춘 영향으로 풀이된다. 매출액 기준으로는 E 화장품 세트가 전체 1위(323억6621만원)를 차지했다. 판매량은 83만개로, 군 마트 판매가(3만8930원)는 온라인 최저가(29만원)의 약 7분의 1 수준이다. 유용원 의원은 "군 마트는 장병들의 기본적인 생활을 지원하기 위한 공간임에도, 실제 판매 비중을 보면 주류와 화장품이 매출을 주도하고 있다"며 "복지 취지에 맞게 품목 구성과 가격 체계를 다시 점검할 필요가 있다"고 지적했다. gomsi@newspim.com 2025-12-21 15:12
사진
이노스페이스, '한빛-나노' 23일 발사 [세종=뉴스핌] 이경태 기자 = 민간 우주발사체 기업 이노스페이스가 첫 상업발사체 '한빛-나노'의 발사를 한국시간 오는 23일 오전 3시 45분에 재시도한다고 21일 밝혔다. 이노스페이스는 지난 20일 발사를 앞두고 추진제 충전 과정에서 2단 액체 메탄 탱크 배출 밸브의 간헐적 미작동을 확인하고 발사를 중단했다. 해당 밸브는 발사체 상단부 압력 제어를 담당하는 부품으로, 작동 불량 시 탱크 파열 가능성이 있어 안전을 고려해 예방적으로 발사를 중단했다. 이노스페이스 '한빛-나노' 발사체 전경 [사진=이노스페이스] 2025.12.21 biggerthanseoul@newspim.com 이후 점검 결과 배출 밸브 외 추가 이상은 없었으며, 예비품으로 교체가 가능한 상태다. 발사 일정은 브라질 공군과의 협의를 거쳐 발사 윈도우 마지막 날인 12월 22일(브라질 시간) 오후 3시 45분으로 확정됐다. 다만 당일 비 예보가 있어 기상에 따라 조정될 수 있다. 이노스페이스는 이번 발사로 고객 위성 5기를 고도 300km, 경사각 40도의 지구 저궤도에 투입하고, 비 분리 실험용 탑재체 3기에 대한 임무를 수행할 예정이다. 김수종 대표는 "발사체 개발과 발사 운용은 고난도 기술 영역인 만큼 남은 시간 면밀히 점검해 안전하고 성공적인 발사를 수행하겠다"고 말했다. biggerthanseoul@newspim.com 2025-12-21 17:20
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동