전체기사 최신뉴스 GAM
KYD 디데이
글로벌·중국 미국·북미

속보

더보기

AI 최강자 등극 구글 '제미나이', GPT-4와 비교해 보니

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

[서울=뉴스핌] 최원진 기자= 구글이 오픈AI의 최신 생성형 인공지능(AI) 거대언어모델(LLM) 'GPT-4'를 능가하는 자체 모델 '제미나이(Gemini) 1.0'을 6일(현지시간) 공개해 화제다.

지난해 11월 챗GPT로 생성형 AI의 미래를 제시한 오픈AI가 기술 최강 자리를 굳건히 지킬 것이란 예상이 GPT-4 출시 후 불과 약 9개월 만에 깨진 것이다. 구글 제미나이가 AI 업계의 치열한 개발 경쟁에 다시 한번 불을 지폈다.

◆ 제미나이의 강점은 '멀티 플레이어'

제미나이는 3가지 버전으로 나온다. 구글이 지금까지 내놓은 것 중 가장 강력한 LLM이자 데이터센터와 기업용 모델인 '제미나이 울트라', 구글의 AI 챗봇 '바드'의 모델인 '제미나이 프로', 스마트폰 등 모바일 기기에서 사용 가능한 컴팩트한 사이즈의 '나노'다.

제미나이 프로는 제품 공개한 이날 바로 바드에 탑재됐다. 제미나이 프로가 적용된 바드는 170개 이상 국가 및 지역에서 영어로 제공되며, 향후 서비스 확장 및 새로운 지역과 언어도 지원될 예정이다. 

'제미나이 울트라'는 내년 초 '바드 어드밴스드'라는 이름으로 바드에 장착되며, '제미나이 나노'는 구글이 지난 10월 공개한 최신 스마트폰인 '픽셀8 프로'에 탑재된다.

구글은 제미나이가 "선천적"(natively)으로 멀티모달(Multi-Modal·다중모드) AI 모델이라고 소개한다. 멀티모달은 말그대로 텍스트뿐만 아니라 이미지, 동영상 등 비언어 입력값도 이해해 응용할 수 있는 '멀티 플레이어'다.

오픈AI가 이미지 생성 AI '달리'(DALL-E), 음성 인식 AI '위스퍼'(Whisper)를 각각 개발한 방식과 달리 구글은 애초부터 텍스트·이미지·오디오 등 다양한 데이터로 제미나이를 훈련해왔다는 것이다.

제미나이가 학생의 물리학 문제를 풀이해주는 예시. [사진=구글 딥마인드 제공]

특히 제미나이는 이미지와 동영상을 이해한 데이터를 응용하고 상호 작용하는 데 강점을 보인다.

예컨대 한 학생이 물리학 문제를 풀이하는 과정을 펜으로 쓴 이미지를 교사가 제미나이 프롬프트에 넣어 문제 풀이 과정에 어떤 부분이 틀렸는지 질문하면 제미나이는 정확히 문제의 정답과 학생의 손 글씨를 이해해 잘못된 문제 풀이 과정을 수정해 준다.

구글 딥마인드는 "제미나이가 이미지 속 텍스트를 이해하는 것을 넘어 교사가 어떻게 문제를 다르게 설정했는지 등을 이해해야 가능하다"고 설명했다. 제미나이는 오답 풀이 뿐만 아니라 학생이 틀린 유형의 다른 연습 문제도 제공해 교육 환경에서의 활용도가 높다는 게 자체 평가다.

이 밖에 제미나이는 동영상 속 언어를 감지해 번역 자막을 달아주고, 동영상 속 상황을 이해해 질문에 답할 수 있다.

◆ 32개 벤치마크 테스트 중 30개, 최고 성적

이미지와 영상의 이해부터 수학적 추론까지 가능한 제미나이 울트라가 업계에서 LLM 연구개발 평가 시 널리 사용되는 학술 벤치마크 기준 32개 가운데 30개 항목에서 GPT-4를 뛰어넘는 성적을 기록했다.

구체적으로 제미나이 울트라는 텍스트와 추론 벤치마크 부문 12개 중 10개, 이미지 이해 부문 9개 중 9개, 동영상 이해 벤치마크 6개 중 6개, 음성 인식 부문 5개 중 5개에서 GPT-4보다 높은 신기록을 썼다.

특히 대규모 다중작업 언어 이해(MMLU) 벤치마크에서 제미나이 울트라는 90% 이상의 정답률을 기록했다.

MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개의 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대표 격 LLM 벤치마크다.

구글 딥마인드는 제미나이 울트라의 MMLU 점수가 GPT-4의 86.4%를 앞선 것에서 나아가 AI 모델로는 최초로 인간 전문가 점수인 89.8%를 뛰어넘었다고 밝혔다. 

이 밖에 여러 단계의 추론을 요구하는 여러 문제 해결 능력을 평가하는 빅 벤치 하드(BIG-Bench-Hard)와 독해력 벤치마크인 DROP에서 각각 80%가 넘는 점수로 GPT-4를 능가했다. 

WMT23 벤치마크는 LLM의 번역 능력을 평가한다. 제미나이 울트라는 74.40%로 GPT-4보다 번역 능력이 우수했다.

다만 일상에 필요한 상식 추론 능력을 보는 헬라스웨그(HellaSwag) 벤치마크에서는 제미나이 울트라가 GPT-4에 못미쳤다. 

제미나이 울트라의 이미지 이해 능력은 GPT-4 보다 뛰어났다.

과학, 기술, 인문 과학, 음악 등 6개 핵심 부문 대학교 시험과 교과서에서 수집된 차트, 표, 악보 이미지를 이해하는 능력을 평가하는 다소 새로운 벤치마크인 MMMU에서 제미나이 울트라는 59.4%를 기록, GPT-4를 앞섰다.

이미지를 보고 이해해 관련 질문에 답할 수 있는 능력을 확인하는 VQAv2 벤치마크와 서류상 이미지를 이해하는 능력을 보는 DocVQA, 그래프 등을 보고 수학적 추론 능력을 보는 매스 비스타(MathVista) 벤치마크에서도 GPT-4 보다 좋은 성적을 거뒀다.

AI 모델의 동영상 이해를 평가하는 벤치마크들에서도 제미나이 울트라는 두각을 보였다. 

영상 속 상황을 텍스트로 옮기는 능력을 평가하는 VATEX 벤치마크와 영상과 관련된 질문에 답해 전반적인 영상 이해도를 평가하는 인식 테스트 MCQA 벤치마크 모두 GPT-4를 뛰어넘었다. 

이밖에 중국어 텍스트로 영상 속 상황을 옮기는 능력을 평가하는 VATEX ZH, 영어로 복잡한 요리 과정이 담긴 영상을 텍스트로 옮기는 YouCook2 등 여러 벤치마크에서도 높은 성적을 거뒀다.

제미나이 프로의 음성 인식 이해도도 우수했다. 21개 언어의 음성을 인식해 텍스트로 변환하는 능력을 평가하는 CoVoST 2 벤치마크에서 제미나이 프로는 40.1을 기록, 오픈AI의 음성 인식 AI 모델 '위스퍼' 버전 2(v2) 보다 10 이상 높았다.

62개 언어로 음성 인식 여부를 확인하는 FLEURS 벤치마크에서도 제미나이 프로는 7.6%를 기록, 위스퍼 v3 보다 월등했다. FLEURS는 AI 모델이 음성 인식 정확도를 측정하는 테스트로 점수가 낮을 수록 인식 오류가 적다는 의미다. 

이밖에 제미나이는 파이선(Python), 자바(JAVA), C++, Go 등 세계에서 널리 사용되는 프로그래밍 언어로 코드를 이해하고 생성할 수 있다. 

코딩 작업 성능을 평가하는 업계 표준인 휴먼이발(HumanEval) 벤치마크에서 제미나이 울트라는 74.4%를 기록해 GPT-4(67.0%)를 능가했다. 파이썬 코드 생성 능력을 평가하는 내추럴2코드(Natural2Code) 벤치마크에서도 GPT-4 보다 1%포인트(p) 높은 74.9%를 기록했다. 

[사진= 구글 홈페이지]

wonjc6@newspim.com

 

[뉴스핌 베스트 기사]

사진
충북지사 신용한 45.4% 김영환 40.8% [서울=뉴스핌] 배정원 기자 = 6·3 지방선거 충북지사 선거에 출마한 신용한 더불어민주당 후보와 김영환 국민의힘 후보가 오차범위 안에서 접전을 벌이고 있는 것으로 23일 조사됐다. 종합뉴스통신사 뉴스핌 의뢰로 여론조사 전문기관 리얼미터가 지난 20~21일 충청북도 만 18살 이상 남녀 804명을 대상으로 실시한 충북지사 후보 지지도 조사 결과, 신 후보 45.4%, 김 후보 40.8%였다. 두 후보 간 격차는 4.6%포인트(p)로 오차범위 안이다. '없음' 5.7%, '잘 모름' 8.1%였다. ◆적극 투표층, 신용한 53.8% 김영환 39.8%  지역별로 ▲청주시 신 후보 44.7%, 김 후보 42.0% ▲충주·제천·단양 신 후보 47.0%, 김 후보 41.3% ▲보은·옥천·영동·괴산·증평·진천·음성 신 후보 45.5%, 김 후보 37.9%다. 연령별로는 ▲18~29살 신 후보 30.4%, 김 후보 38.4% ▲30대 신 후보 39.1%, 김 후보 45.4% ▲40대 신 후보 51.8%, 김 후보 36.1% ▲50대 신 후보 62.6%, 김 후보 30.1% ▲60대 신 후보 50.1%, 김 후보 38.3% ▲70대 이상 신 후보 32.5%, 김 후보 58.1%다. 성별로는 ▲남성 신 후보 47.4%, 김 후보 42.1% ▲여성 신 후보 43.4%, 김 후보 39.5%로 오차범위 안의 팽팽의 지지율을 보였다. 지지 정당별로는 민주당 지지층의 84.9%가 신 후보, 7.3%는 김 후보를 지지했다. 국민의힘 지지층의 84.9%는 김 후보, 8.0%는 신 후보를 지지했다. 적극 투표층은 신 후보가 53.8%로 39.8%의 김 후보를 크게 앞섰다. 투표 의향자 중에서는 신 후보 48.5%, 김 후보 42.3%로 오차범위 안 접전이다. '잘 모름' 신 후보 20.8%, 김 후보 34.8%이다. 이번 조사는 무선전화 가상번호 100% 자동응답(ARS) 방식으로 진행됐다. 표본오차는 95% 신뢰수준에서 ±3.5%p이며 응답률은 7.7%다. 2026년 4월 말 행정안전부 주민등록 인구를 기준으로 성별·연령별·권역별 가중치(림가중)를 적용했다. 모든 여론조사의 자세한 내용은 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. jeongwon1026@newspim.com 2026-05-23 05:00
사진
靑, 김승룡 소방청장 감찰 착수 [서울=뉴스핌] 김미경 기자 = 이재명 대통령이 22일 김승룡 소방청장에 대한 즉각적인 진상 확인을 지시해 감찰에 착수했다고 청와대가 밝혔다. 강유정 청와대 수석대변인은 이날 저녁 언론 공지를 통해 이같이 밝혔으며 현재로선 개인 비위로 인한 사유로 전해졌다. [남양주=뉴스핌] 김현우 기자 = 김승룡 소방청장 직무대행이 24일 오후 경기도 남양주 수도권119특수구조대에서 열린 현대자동차그룹-소방청 무인소방로봇 기증식에서 인사말을 하고 있다. 2026.02.24 khwphoto@newspim.com 김 청장은 허석곤 전 청장이 12·3 비상계엄 가담 의혹으로 직위 해제된 지난해 9월부터 소방청장 직무대행을 맡아왔다. 올해 3월 새 청장에 정식 임명됐다. 청와대는 어떤 사유로 김 청장에 대한 감찰에 착수했는지에 대해서는 공개하지 않았다.  일각에서는 업무 추진비와 갑질 의혹이 거론되고 있다. 관용차를 이용하는 과정에서 규정에 어긋난 부적절한 행동을 한 것 아니냐는 얘기도 흘러나온다. 청와대는 감찰 사유에 대해 '개인 비위'라고 설명했지만 구체적인 내용에 대해서는 공개하지 않고 있다. the13ook@newspim.com 2026-05-22 22:45
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동