카카오, 텍스트·음성·이미지 통합 AI 공개

기사입력 : 2025년05월01일 11:37

최종수정 : 2025년05월01일 11:37

국내 최초 멀티모달 언어모델 'Kanana-o' 성능 발표
억양·감정까지 분석해 자연스러운 음성 응답
한국어 벤치마크서 글로벌 모델 대비 우위 입증

[서울=뉴스핌] 양태훈 기자 = 카카오가 텍스트, 음성, 이미지 정보를 동시에 처리할 수 있는 멀티모달 언어모델 'Kanana-o'를 공개하고, 감정까지 이해하는 대화형 인공지능 기술 경쟁력 강화를 본격화했다.

1일 카카오는 공식 테크블로그를 통해 텍스트·음성·이미지를 통합적으로 이해하고 응답할 수 있는 멀티모달 언어모델 'Kanana-o'의 성능과 개발 후기를 공개했다고 밝혔다.

Kanana-o는 국내 최초로 텍스트, 음성, 이미지 형태의 정보를 동시에 처리하는 통합형 AI 모델이다. 질문이 텍스트·음성·이미지 중 어떤 조합으로 입력되더라도 상황에 맞는 텍스트 또는 음성으로 응답이 가능하도록 설계됐다.

[자료=카카오]

이번 모델은 이미지 처리에 특화된 'Kanana-v', 음성 이해와 생성에 강점을 지닌 'Kanana-a'를 '모델 병합(Model Merging)' 기술로 결합해 개발됐으며, 이후 '병합 학습(Joint Training)'을 통해 세 가지 입력 정보를 통합적으로 학습했다.

Kanana-o는 음성 감정 인식 기술을 활용해 사용자의 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성할 수 있다. 특히 대규모 한국어 데이터를 기반으로 지역 방언까지 인식하고 표준어로 변환해 자연스러운 한국어 음성 생성이 가능하다.

또한 스트리밍 기반 음성 합성 기술이 적용돼 긴 대기 시간 없이 응답이 이뤄진다. 예컨대 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 요청하면, 해당 음성을 인식하고 감정과 상황을 분석해 즉석에서 이야기를 들려주는 방식이다.

카카오에 따르면, Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 감정 인식 능력에서는 큰 차이를 보이며 경쟁력을 입증했다. 이미지·음성 질의응답 등 복합적 멀티모달 과제에서도 우수한 결과를 나타냈다.

카카오는 향후 Kanana-o를 기반으로 ▲다중 턴 대화 처리 ▲양방향 통신(Full-duplex) 대응 ▲안전한 응답 제공 등을 위한 연구를 지속해, 실제 대화와 유사한 자연스러운 상호작용을 구현해나갈 계획이다.

김병학 카카오 카나나 성과리더는 "카나나 모델은 복합적인 정보를 통합적으로 처리해 텍스트 중심 AI에서 사람처럼 보고, 듣고, 말하며 공감하는 AI로 진화하고 있다"며 "독자 기술 기반의 멀티모달 역량을 통해 인공지능 기술 경쟁력을 강화하고, 연구 결과 공유를 통해 국내 AI 생태계 발전에 기여해 나가겠다"고 밝혔다.

한편, 카카오는 지난해 자체 개발한 AI 모델 'Kanana' 라인업을 공개했으며, 테크블로그를 통해 언어모델, 멀티모달 모델, 비주얼 생성모델 등의 성능과 개발기를 지속적으로 소개해왔다. 올해 2월에는 'Kanana Nano 2.1B'를 깃허브에 오픈소스로 배포하고, 연구 성과를 아카이브(arXiv)에 공개한 바 있다.

dconnect@newspim.com

[관련기사]

GAM - 해외주식 투자 도우미

인탭, AI·클라우드 화력으로 반등 신호탄 쏘아 올려 ②

인탭, AI·클라우드 화력으로 반등 신호탄 쏘아 올려 ①

[홍콩 대장주] 메이퇀 ③ 신성장 동력의 '폭발적 성장'

[홍콩 대장주] 메이퇀② 실적은 고속 상승, 밸류는 역대 저점

[뉴스핌 베스트 기사]

사진

美, 인텔 이어 삼성도 지분 내놔라? [서울=뉴스핌] 최원진 기자= 도널드 트럼프 미국 행정부가 반도체법(CHIPS Act)상 보조금을 활용해 인텔 지분 확보를 추진 중인 가운데, 삼성전자와 대만 TSMC 등 다른 반도체 기업에도 같은 방식을 적용하는 방안을 검토 중이라고 로이터 통신이 두 명의 소식통을 인용해 19일(현지시간) 보도했다. 보도에 따르면 하워드 러트닉 상무부 장관은 삼성전자, 마이크론, TSMC 등 미국 내 공장 건설과 투자를 진행 중인 반도체 기업들을 상대로, 조 바이든 전임 행정부 시절 약속된 정부 보조금 제공과 맞바꿔 지분을 확보하는 방안을 모색하고 있다. 현실화하면 글로벌 반도체 업계에 파장이 불가피하다. 미국 정부에 지분을 넘기고 싶지 않다면 보조금을 포기해야 할 수 있는데 이 경우 기업들의 순익 전망과 투자 계획도 차질을 빚을 수 있다. 미국의 산업정책이 정권에 따라 오락가락한다는 업계의 불만과 비난 또한 커질 수 있지만 트럼프 행정부의 성격상 귀담아 들을 가능성은 높지 않다. 러트닉 장관은 CNBC 인터뷰에서 "트럼프 대통령은 미국이 거래에서 실질적 이익을 얻어야 한다고 본다"며 "왜 1천억 달러 규모의 기업에 돈을 줘야 하는가. 우리는 약속한 보조금을 지급하되, 그 대가로 지분을 받아 미국 납세자들에게 혜택을 돌릴 것"이라고 말했다. 트럼프 행정부가 인텔 지분 10%를 확보할 경우 최대 주주가 될 수 있지만, 러트닉 장관은 "경영권에 개입하지는 않을 것"이라고 선을 그었다. 그럼에도 불구하고 이러한 조치는 전례가 없는 것이며, "이는 대기업에 대한 미국의 영향력 확대라는 새로운 시대를 열게 될 것"이란 진단이다. 로이터는 "마이크론은 인텔에 이어 반도체법 보조금을 가장 많이 받는 미국 기업이며, 삼성전자와 TSMC 역시 주요 수혜 대상"이라며 "이번 검토는 미국 정부가 반도체 산업에 대한 직접적 영향력을 확대하려는 움직임"이라고 분석했다. 올해 6월에도 비슷한 조치가 있었는데, 트럼프 정부는 일본제철의 U.S.스틸 인수 승인 조건으로 '황금주(golden share)'를 확보해 주요 경영 결정에 거부권을 행사할 수 있게 됐다. 삼성전자 미국 텍사스주 테일러 공장 건설 현장. [사진=삼성전자] wonjc6@newspim.com 2025-08-20 08:31

사진

"10개 석화기업 NCC 370만톤 감축" [세종 = 뉴스핌] 김범주 기자 = 구윤철 부총리 겸 기획재정부 장관이 20일 위기에 처한 석유화학 업계에 대해 강도 높은 '자구노력'을 요구했다. 업계가 제출한 계획에 대한 진정성 여부를 판단한 후 금융, 세제 등 종합대책을 마련하겠다는 방침도 공개했다. 구 부총리는 20일 정부서울청사에서 산업경쟁력강화 관계장관회의(산경장)를 주재하고, 10개 석유화학 기업과 사업재편 협약을 체결했다. 이재명 정부의 첫 산경장이다. 이번 협약은 최대 370만톤 규모의 설비(NCC) 감축을 목표로 연말까지 각 사별로 구체적 사업 재편 계획을 제출하는 것을 골자로 하고 있다. 협약식에는 LG화학, 롯데케미칼, SK지오센트릭, 한화토탈, 대한유화, 한화솔루션, DL케미칼, GS칼텍스, HD현대케미칼, S-OIL 등 10개사가 참석했다. [서울=뉴스핌] 윤창빈 기자 = 구윤철 부총리 겸 기획재정부 장관이 20일 오전 서울 여의도 국회 의원회관에서 열린 새정부 경제성장전략 당정협의에서 모두발언을 하고 있다. 2025.08.20 pangbin@newspim.com 구 총리는 "중국·중동 등 글로벌 공급과잉이 예고됐는데도 국내 석화 업계는 과거 호황에 취해 오히려 설비를 증설했다"며 "고부가 전환까지 실기하며 큰 어려움에 직면했다"고 질타했다. 이어 "이제 첫걸음을 뗀 것일 뿐 갈 길이 멀다"며 강도 높은 구조조정을 예고했다. 구 부총리는 "기업과 대주주가 뼈를 깎는 자구노력을 바탕으로 구속력 있는 사업 재편·경쟁력 강화 계획을 빠르게 제시해야 한다"며 "당장 '다음 달'이라도 계획을 제출하겠다는 각오로 속도감 있게 임해야 한다"고 강조했다. 석유화학 업계가 정부에 제출한 계획이 진정성이 있다고 판단되면 규제완화, 금융, 세제 등 종합적인 대책을 마련하겠다는 방침도 밝혔다. 구 부총리는 "사업 재편을 미루거나, 무임승차하려는 기업에 대해서는 정부 지원 대상에서 배제하는 등 단호히 대처할 것"이라고 강조했다. 한편 과거 뼈를 깎는 구조조정 과정을 거쳤지만, 현재 활황을 보이는 조선업은 '좋은 선례'라고 소개했다. 그는 "조선업은 과거 고강도 자구 노력이 열매를 맺어 세계 1위로 재도약하고, 최근 한-미 관세협상에도 결정적인 기여를 했다"며 "조선업의 발자취를 따라간다면 석유화학산업도 화려하게 재도약할 수 있다"고 덧붙였다. wideopen@newspim.com 2025-08-20 13:15