전체기사 최신뉴스 GAM
KYD 디데이
경제 과학기술

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
"애플 폴더블폰 테스트서 문제 발생" [뉴욕=뉴스핌] 김민정 특파원 =  애플이 첫 폴더블 아이폰의 엔지니어링 테스트 단계에서 예상 외 어려움을 겪으며 대량생산 및 출하 일정이 수개월 지연될 가능성이 제기됐다. 닛케이아시아는 7일(현지시간) 소식통을 인용해 폴더블 아이폰 초기 테스트 생산 과정에서 예상보다 많은 문제가 드러났다고 전했다. 닛케이아시아에 따르면 이 소식통은 폴더블 아이폰의 초기 테스트 생산 단계에서 예상보다 많은 문제가 발생해 이를 해결하고 조정하는 데 추가 시간이 필요하다고 설명했다. 최악의 경우 첫 출하가 수개월 늦어질 수 있으며, 이는 애플의 폴더블 기기 진입 전략에 차질을 줄 전망이다. 다만 블룸버그 통신은 이날 애플이 여전히 오는 9월 아이폰 18 프로와 프로 맥스와 함께 첫 폴더블 아이폰을 출시할 예정이라고 전했다. 다만 출시 시점이 확정된 것은 아니며 생산이 본격 가동되지 않은 상태로 6개월 여유가 있어 조정 가능성이 남아있는 것으로 알려졌다.  이날 소식에 애플 주가는 장중 5.1%까지 하락한 뒤 오후 거래에서 3% 가까이 떨어졌다. 미국 동부시간 오후 2시 27분 애플은 전장보다 2.88% 내린 251.41달러를 기록했다. 애플 로고 [사진=블룸버그통신] mj72284@newspim.com 2026-04-08 03:29
사진
민주, 경기지사 후보에 추미애 확정 [서울=뉴스핌] 박서영 기자 = 더불어민주당 6·3 지방선거 경기지사 후보로 추미애 의원이 7일 최종 확정됐다. 추 의원은 한준호 의원, 김동연 경기지사와 3인 본경선에서 과반을 득표하며 결선투표 없이 본선에 직행했다. 소병훈 중앙당 선거관리위원장은 이날 여의도 중앙당사에서 브리핑을 열고 "기호 2번 추미애 후보가 민주당 9회 지방선거 경기지사 후보자로 선출되었음을 선포한다"고 밝혔다. [서울=뉴스핌] 국회사진기자단 = 추미애 더불어민주당 경기도지사 경선후보가 1일 서울 양천구 SBS 목동 스튜디오에서 열린 더불어민주당 경기도지사 후보자 2차 TV 합동토론회에 참석해 시작을 기다리고 있다. 2026.04.01 photo@newspim.com 소 위원장은 "본경선에서는 최고 득표자가 과반 득표를 하였으므로 결선 없이 본경선 결과에 따라 최종 후보자가 확정됐다"고 말했다. 이날 후보자별 순위와 득표율은 별도로 공개되지 않았다. 본경선은 지난 5일부터 7일까지 사흘간 실시됐으며, 권리당원 투표 50%와 일반 국민 여론조사 50%를 합산하는 방식으로 진행됐다. seo00@newspim.com 2026-04-07 18:41
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동