AI가 열쇠 위치를 알려줄까?
출처: MIT 뉴스 - AI
자동차 공장 노동자는 어제 밤에 파트별로 조립 중인 부품을 두었던 저장함을 기억하고 빠르게 그곳으로 돌아가서それを 주워 올릴 수 있다. 그러나 그녀가 옆에工作하는 로봇은 동일한 유형의 “공간‑시간” 메모리를 개발하고 접근하는 데 어려움을 겪을 것이다.
이제 MIT 연구자들은 로봇이 복잡한 대형 환경을 신속하게 형성하고 회상할 수 있도록 허용하는 장term 메모리 프레임워크를 개발했다.
미래에 이 발전은 공장 노동자가 로봇 보조에게 단순히 “어제 밤부터 조립을 시작한 부품을 가져와” 라고 요청함으로써 그 부품을 가져오게 할 수 있게 만들 것이다.
이 새로운 방법은 로봇이 오랜 시간 동안 이동하며 수집한 환경에 대한 풍부한 설명과 고급 지도 표현을 결합한다. 로봇은 이 메모리를 빠르게 액세스하여 자연어로 복잡한 질문에 답할 수 있다.
이 메모리 프레임워크는 최첨단 방법보다 더 정확하게 질문을回答하고, 모바일 로봇이 실시간으로 사용할 수 있을 만큼 충분히 빠르다.
로봇 외에도 이 방법은 유지보수 작업자가 이상을 감지하는 데 도움을 주는 증강 현실 시스템이나 통근자들이 길 찾을 수 있도록 assisting 하는 데에도 활용될 수 있다.
‘로봇이 인간과 함께 일하고 인간과 더 원활하게 상호작용하려면 같은 언어를 사용해야 한다. 로봇은 인간이처럼 시간과 공간에 대해 추론할 수 있어야 한다. 이것이 우리 방법이 하는 일이다. 우리는 전통적인 지도를 로봇이 생각하고 언어 기반으로 접근하기 쉬운 언어 지도로 변환한다,’라고 MIT 항공우주공학부( Aeronautics and Astronautics, AeroAstro) 부교수이자 정보 및 결정 시스템 연구소(LIDS) 주임 연구원이며 MIT SPARK Laboratoy 감독인 Luca Carlone이 말한다.
그는 논문 에 Nicolas Gorlo( MIT 졸업생, 공동 저자)와 Lukas Schmid( 전 MIT 연구원, 현재 독일 Nuremberg 공과대학 교수)이 함께 참여했다. 이 연구는 최근 컴퓨터 비전 및 패턴 인식 회의(CVPR)에서 발표되었다.
공간‑시간 메모리
메모리는 챗봇과 같은 인공지능 시스템이 복잡한 질문을 답하고 사용자와의 이전 상호작용을 추론할 수 있게 한다.
‘우리는 로봇이 실제 상호작용과 센서 관찰을 기억할 수 있도록 하는 새로운 유형의 메모리, 즉 공간‑시간 메모리를 설계하고 싶다. 마치 ChatGPT처럼 현실 세계에 기반을 두고 환경에 대한 모든 질문을 답할 수 있게 된다,’ Carlone은 말한다. ‘예를 들어 “내 지갑이 어디 있었나요?”’
MIT 연구자들은 컴퓨터 비전과 로봇 매핑이라는 두 분야의 경계를 넘어서 이 메모리 프레임워크를 개발했다.
다중 모달 컴퓨터 비전 모델은 장면에 있는 물체를 이해하고 풍부하게 설명할 수 있지만, 보통 한 번에 하나의 주석만 처리한다. 반면 로봇 매핑 프레임워크는 전체 아파트나 캠퍼스와 같은 환경을 3D 지도 형태로 만들지만, 객체에 대한 상세한 설명이 부족하거나 계산 비용이 많이 든다.
MIT 연구자들이 만든 방법인 ‘Describe Anything, Anywhere, Anytime, at Any Moment’(DAAAM)는 양쪽의 장점을 결합한다.
DAAAM을 사용하면 로봇이 환경을 이동하면서 눈에 보이는_objects_에 상세한 설명을 붙인다. 예를 들어 캠퍼스 내 특정 건물은 ‘Stata Center’라 불리며 특정 건축 양식을 가지고 있으며, 자전거 거대대는 다섯 대의 자전거를 수용하고 그 중 빨간색 하나는 펑크가 났다는 것을 인식한다.
이 정보는 로봇이 공간적으로 구분된 지역으로 그룹화된 3D 지도 기반 표현에 저장된다. 이렇게 하면 로봇은 빨간색 자전거(펑크가 난)가 Stata Center 밖에 있는 자전거 거대대에 있음을 기억할 수 있다.
하지만 이러한 풍부한 설명을 포착하는 기존 기술들은 몇 개의 물체를 주석화하는 데 몇 초가 걸린다. 로봇이 몇 분 동안 탐색하면서 수백 개의 물체를 볼 경우 실시간性能에 부족하다.
‘로봇이 공간 메모리를 더 빨리 형성할수록 환경 내 작업을 보다 효율적으로 수행할 수 있다,’ Carlone은 덧붙인다.
프로세스 스트리밍
속도를 높이기 위해 DAAAM는 이동하면서 주변 물체를 집계하고, 여러 객체를 한 번에 설명할 수 있도록 하는 최적화 방법을 사용해 핵심 프레임을 선택한다. 이러한 프레임은 여러 객체의 명확한 시각을 제공하므로 시스템이 병렬로 여러 항목을 상세히 설명할 수 있어 계산 속도가 10배 빨라진다.
로봇이 공간을 탐색하면서 각 배치의 주석을 해당 위치에 있는 3D 지도 내 여러 물체와 연결한다.
‘우리는 모든 객체를 한 번만 주석화하므로 우리 프레임워크는 대규모 환경에서 실시간으로 작동할 수 있다. 또한 객체를 지역에 클러스터링함으로써 환경 내 물체와 위치에 대한 다양한 질문에 답할 수 있다,’ Gorlo는 설명한다.
시스템이 공간 메모리를 구축한 후에는 방대한 객체와 설명 데이터베이스에서 효율적으로 정보를 검색해야 한다.
이를 위해 연구자들은 다양한 도구를 호출하는 LLM을 사용했으며, 이를 통해 환상적인 오류를 줄이며 특정 정보를 빠르게 검색할 수 있다. 이로써 DAAAM은 사용자 질문에 몇 초 안에 정확하게 답변할 수 있다.
예를 들어 로봇에게 특정 캠퍼스 건물 근처에서 본 조각에 대해 물어보면, DAAAM은 단어를 ‘sculpture’(조각)으로 사용해 의미 검색 도구를 활용하거나 건물 위치 기반으로 다른 도구를 사용해 관련 정보를 검색한다.
다른 방법들과 비교했을 때 DAAAM은 질문 유형에 따라 정확도가 21%에서 53% 정도 향상되었다.
미래에 연구자들은 DAAAM을 확장해 환경에서 발생한 중요한 사건을 포apturing(포착)할 수 있도록 할 계획이며, 시스템 응답에 신뢰도를 포함시키는 작업도 진행 중이다.
‘최종적으로 우리는 로봇이 어떤 작업을든 도울 수 있기를 원한다. 이 프레임워크를 통해 일반형 에이전트가 무엇이든 요청할 수 있도록 기반을 마련하고자 한다,’ Gorlo는 말한다.
이 연구는 미국 육군 연구소와 해군 연구소의 일부 지원금을 받았다. Carlone은 현재 Amazon Scholar로 휴직 중이며, 이 기사는 MIT에서 수행된 작업을 설명하고 Amazon과 관련이 없다.