기존 방법 대비 2.3배 높은 성공률
실내 서비스 로봇 활용 가능성 확대
[세종=뉴스핌] 이경태 기자 = 광주과학기술원(GIST)은 AI융합학과 김의환 교수 연구팀이 사람의 언어 설명을 바탕으로 3차원 공간에서 물체를 찾아내는 로봇 내비게이션 기술을 개발했다고 2일 밝혔다. 기존 강화학습 기반 방법 대비 약 2.3배 높은 성공률을 달성했다.
기존 로봇 기술은 물체의 짧은 속성 정보만 활용해 사람이 제공하는 긴 문장 설명의 맥락을 충분히 반영하지 못했다. 특히 '왼쪽' '오른쪽' 같은 공간 관계는 관찰자의 시점에 따라 달라져 로봇이 잘못된 물체를 목표로 오인할 가능성이 높았다.

연구팀은 RGB 카메라와 깊이 센서로 주변 환경을 인식한 뒤, 사람의 설명과 일치할 가능성이 높은 영역을 실시간으로 확인하는 방식을 개발했다. 후보 공간의 적합도를 계산해 점수로 기록한 후 가장 높은 점수 지역을 중심으로 탐색 경로를 결정한다. 후보 물체를 발견하면 이미지와 텍스트를 함께 이해하는 비전언어모델을 활용해 속성을 확인하고 3차원 공간 추론으로 주변 물체와의 위치 관계를 정밀하게 검증한다.
연구팀의 기술은 물체와의 관계, 색, 모양 등 세부 속성이 포함된 긴 문장을 이해하는 능력을 평가하는 테스트에서 20.3%의 성공률을 기록했다. 이는 기존 강화학습 기반 방법의 8.9%보다 2.3배 높은 수치다.
김의환 교수는 "로봇이 물체 자체의 특징만 보는 수준을 넘어 주변 맥락과 3차원 공간 관계까지 함께 이해하도록 했다"며 "특정 과제에 맞춘 별도의 학습 없이 새로운 공간이나 처음 보는 물체에도 바로 적용 가능해 실내 서비스 로봇의 실제 활용 가능성을 높이는 기반 기술이 될 것"이라고 밝혔다.
이 연구는 과학기술정보통신부·한국연구재단 우수신진연구자지원사업, 정보통신기획평가원 자기주도 시각지능 기술 개발 사업, 국가과학기술연구회 글로벌 TOP 전략연구단 사업의 지원을 받았다. 연구 결과는 지난 3월 18일 국제 학술 서버 arXiv에 사전 공개됐으며, 6월 3일부터 7일까지 미국 콜로라도주 덴버에서 개최되는 국제학술대회 'Computer Vision and Pattern Recognition Conference(CVPR 2026)'에서 발표될 예정이다.
biggerthanseoul@newspim.com












