화제의 로보틱스 스타트업 피지컬 인텔리전스, 학습하지 않은 작업도 해내는 새 로봇 두뇌 공개

설립 2년 차의 샌프란시스코 로보틱스 스타트업 피지컬 인텔리전스가 목요일 새 연구를 공개했다. 베이 지역에서 가장 주목받는 AI 기업 중 하나로 떠오른 이 회사는, 최신 모델이 명시적으로 학습하지 않은 작업도 로봇에게 수행하게 할 수 있다고 밝혔다. 회사 연구진조차도 이 결과에는 적잖이 놀랐다고 말한다.

π0.7이라는 이름의 새 모델은, 익숙하지 않은 작업을 로봇에게 제시하고 자연어로 설명해 주면 실제로 수행하게 만드는 범용 로봇 두뇌라는 오랜 목표를 향한 초기이지만 의미 있는 진전이라고 회사는 설명한다. 이 결과가 추가 검증을 견뎌낸다면, 로보틱스 AI가 대규모 언어모델에서 목격됐던 변곡점과 비슷한 지점에 접근하고 있음을 시사한다. 즉, 기초 데이터만으로는 설명하기 어려울 정도로 능력이 빠르게 누적되기 시작하는 단계다.

논문의 핵심 주장은 조합적 일반화(compositional generalization)다. 서로 다른 맥락에서 배운 기술을 결합해 한 번도 본 적 없는 문제를 해결하는 능력이다. 지금까지 로봇 훈련의 표준 방식은 사실상 반복 암기에 가까웠다. 특정 작업 데이터를 모으고, 그 데이터로 전용 모델을 학습시키고, 새 작업이 생길 때마다 같은 과정을 반복하는 식이다. 피지컬 인텔리전스는 π0.7이 이 패턴을 깨뜨린다고 주장한다.

피지컬 인텔리전스 공동창업자이자 UC 버클리에서 로보틱스용 AI를 연구하는 세르게이 레빈은 “데이터로 수집한 그대로의 일만 하던 단계에서 벗어나 새로운 방식으로 배운 것을 재조합하기 시작하는 임계점을 넘으면, 데이터 양이 늘어나는 속도보다 능력 증가폭이 더 커진다”고 말했다. 그는 “이런 더 유리한 스케일링 특성은 언어와 비전 같은 다른 영역에서도 본 적이 있다”고 덧붙였다.

논문에서 가장 인상적인 사례는 학습 단계에서 사실상 본 적이 거의 없는 에어프라이어다. 연구팀이 확인한 결과, 전체 학습 데이터셋에서 관련 사례는 두 건뿐이었다. 하나는 다른 로봇이 에어프라이어를 닫는 장면이었고, 다른 하나는 오픈소스 데이터셋에서 또 다른 로봇이 사람 지시에 따라 그 안에 플라스틱 병을 넣는 장면이었다. 그런데 모델은 이 단편적 사례들과 웹 기반 사전학습 데이터를 종합해, 기기가 어떻게 작동하는지에 대한 기능적 이해를 만들어낸 것으로 보였다.

피지컬 인텔리전스의 연구 과학자이자 스탠퍼드대 컴퓨터공학 박사과정인 애시윈 발라크리슈나는 “이 지식이 정확히 어디서 왔는지, 어디서 성공하고 실패할지를 추적하기는 매우 어렵다”고 말했다. 그럼에도 별도의 코칭 없이도 모델은 에어프라이어로 고구마를 조리하려는 꽤 그럴듯한 시도를 보여줬다. 여기에 사람이 새 직원에게 일 가르치듯 단계별 음성 지시를 해주자, 실제로 작업을 성공적으로 수행했다.

이 코칭 능력이 중요한 이유는, 추가 데이터 수집이나 모델 재학습 없이도 로봇을 새로운 환경에 배치하고 실시간으로 성능을 개선할 수 있음을 시사하기 때문이다.

그렇다면 이 결과는 무엇을 의미할까. 연구진은 모델의 한계를 숨기지 않았고, 과장도 피하려 했다. 적어도 한 사례에서는 문제의 원인을 로봇이나 모델이 아니라 연구팀 자신에게 돌렸다.

발라크리슈나는 “실패 원인이 로봇이나 모델에 있지 않은 경우도 있다. 우리에게 있다. 프롬프트 엔지니어링을 잘하지 못한 것”이라고 말했다. 그는 초기 에어프라이어 실험에서 성공률이 5%에 그쳤지만, 약 30분 동안 작업 설명 방식을 다듬은 뒤 성공률이 95%까지 뛰었다고 설명했다.

다만 이 모델이 단일 고수준 명령만으로 복잡한 다단계 작업을 자율적으로 수행할 수 있는 수준은 아직 아니다. 레빈은 “그냥 ‘토스트 좀 만들어줘’라고 말할 수는 없다”고 했다. “하지만 ‘토스터의 이 부분을 열고, 저 버튼을 누르고, 이렇게 해’라고 단계별로 안내하면 실제로 꽤 잘 작동하는 편”이라고 설명했다.

팀은 또 로보틱스 분야에는 사실상 표준화된 벤치마크가 없어 외부 검증이 쉽지 않다는 점도 인정했다. 대신 회사는 π0.7을 기존의 전용 모델들과 비교했다. 개별 작업에 맞춰 학습된 특화 모델들과 비교한 결과, 커피 만들기, 빨래 개기, 상자 조립 같은 복잡한 작업 전반에서 범용 모델이 비슷한 성능을 냈다고 밝혔다.

이 연구에서 특히 눈에 띄는 점은, 연구진의 말을 그대로 받아들인다면, 특정 데모 하나보다도 결과가 그들 자신을 놀라게 했다는 사실일 수 있다. 학습 데이터에 무엇이 들어 있는지 가장 잘 아는 사람들이기에, 원래라면 모델이 무엇을 할 수 있고 없는지 대체로 예측할 수 있어야 하기 때문이다.

발라크리슈나는 “보통은 데이터에 뭐가 들어 있는지 깊이 알면 모델이 무엇을 할 수 있을지 어느 정도 짐작할 수 있다. 그래서 놀라는 경우가 드물다”며 “하지만 지난 몇 달은 정말로 처음으로 놀라고 있다. 그냥 기어 세트를 하나 무작위로 사 와서 로봇에게 ‘이 기어를 돌려볼래?’라고 했는데, 실제로 작동했다”고 말했다.

레빈은 연구진이 처음 GPT-2가 안데스의 유니콘 이야기를 생성하는 장면을 봤던 순간도 떠올렸다. 그는 “도대체 페루의 유니콘에 대해 어디서 배운 걸까. 너무 이상한 조합”이라며 “그런 현상이 로보틱스에서도 나타나는 걸 보는 건 정말 특별하다”고 말했다.

물론 비판자들은 여기서 불편한 비대칭을 지적할 수 있다. 언어모델은 인터넷 전체를 학습할 수 있었지만, 로봇은 그렇지 못하다. 아무리 영리한 프롬프팅도 그 격차를 완전히 메우지는 못한다. 다만 레빈은 회의론이 향할 지점을 다른 데서 찾는다.

그는 “어떤 로봇 일반화 데모에도 늘 따라붙는 비판은 작업이 다소 심심하다는 점이다. 로봇이 백플립을 하는 건 아니니까”라고 말했다. 하지만 그는 바로 그 점이 핵심이라고 반박한다. 사람을 놀라게 하는 화려한 로봇 시연과 실제로 일반화하는 로봇 시스템의 차이가 중요하다는 것이다. 일반화는 정교하게 연출된 묘기보다 덜 극적으로 보일 수 있지만, 훨씬 더 실용적이라는 설명이다.

논문 자체도 전반적으로 신중한 표현을 쓴다. π0.7이 일반화의 “초기 징후”를 보이며 새로운 능력의 “초기 시연”을 제시한다고 표현한다. 이는 상용 제품이 아니라 연구 결과이며, 피지컬 인텔리전스는 처음부터 상용화 일정에 대해 절제된 태도를 유지해 왔다.

이 결과를 바탕으로 한 시스템이 언제 실제 현장에 배치될 수 있겠느냐는 질문에 레빈은 추측을 피했다. 그는 “낙관할 만한 충분한 이유가 있고, 분명 2년 전 내가 예상했던 것보다 더 빠르게 진전되고 있다”면서도 “하지만 그 질문에는 답하기가 매우 어렵다”고 말했다.

피지컬 인텔리전스는 지금까지 10억 달러 이상을 조달했고, 가장 최근 기업가치는 56억 달러로 평가됐다. 투자자들의 큰 기대를 끌어낸 배경에는 공동창업자 라키 그룸의 존재도 있다. 그는 실리콘밸리에서 손꼽히는 엔젤 투자자로 오랜 기간 활동하며 Figma, Notion, Ramp 등에 투자해 왔고, 이후 자신이 찾던 바로 그 회사가 피지컬 인텔리전스라고 판단해 직접 공동창업에 나섰다. 이런 이력 덕분에 회사는 상용화 일정 제시를 거부하면서도 대형 기관투자자 자금을 끌어들일 수 있었다.

화제의 로보틱스 스타트업 피지컬 인텔리전스, 학습하지 않은 작업도 해내는 새 로봇 두뇌 공개

관련 글