Large Behavior Model

Large Behavior Model (LBM)

TRI : Toyota Research Institute

Articles

2024/11/12 Large Behavior Models: The Next Evolution in AI That's Taking Over 👍
2024/11/11 Large Behavior Models: The Key to Predicting and Optimizing Human Actions
2024/11/11 Large Behavior Models and the future of AI in robotics
2024/11/10 Large Behavior Models: A New Frontier In AI
2024/11/06 NVIDIA Advances Robot Learning and Humanoid Development With New AI and Simulation Tools
2024/10/31 Nvidia는 전문가들보다 인간형 로봇을 더 잘 제어하는 작은 AI 모델을 훈련시켰다.
2024/10/30 NVIDIA Introduces HOVER, a 1.5 M Parameter Neural Network for Humanoid Robotics
2024/10/16 Boston Dynamics and Toyota team up: Teaching Atlas how to learn
2024/06/10 로봇이 유튜브 보고 배우는 LBM 시대가 왔다
2024/05/06 How Large Behavior Models (LBM's) can transform Humanoids
2024/04/23 Cracking Robotic Investment with GenAI
2024/03/18 NVIDIA Announces Project GR00T Foundation Model for Humanoid Robots and Major Isaac Robotics Platform Update
2024/01/07 Large Behaviorial Models for AI Robots
2023/09/21 로봇, 대규모 언어 모델에서 ‘대규모 행동 모델’로
2023/09/19 Toyota Research Institute Unveils Breakthrough in Teaching Robots New Behaviors
2023/09/15 TRI’s Robots Learn New Manipulation Skills in an Afternoon. Here’s How.

Information

OpenVLA (Open Vision-Language-Action Model)
VIMA (General Robot Manipulation with Multimodal Prompts
RT-1-X
LM-Nav
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Drake - Model-Based Design and Verification for Robotics

Slides

Self-Adaptive Robots - Workshop on Embodiment-Aware Robot Learning RSS’24

Papers

2023 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

Open Source

현재 Large Behavior Models(LBM)을 오픈소스로 활용할 수 있는 프로젝트는 다양하지 않지만, 유사한 접근법을 사용하는 오픈소스 프로젝트들이 존재합니다. 특히, 로봇 제어를 위해 대규모 비전-언어-행동 모델을 사용하는 연구들이 활발히 진행되고 있습니다.
1. OpenVLA (Open Vision-Language-Action Model):
OpenVLA는 로봇의 다양한 조작 작업을 위해 설계된 오픈소스 비전-언어-행동(VLA) 모델입니다. 7억 개의 파라미터를 가진 이 모델은 Open X-Embodiment라는 대규모 데이터셋(970,000개 이상의 로봇 시연 데이터)으로 학습되었습니다. OpenVLA는 다양한 로봇 플랫폼에서 범용적으로 활용 가능하며, 특히 로봇이 다양한 시각적 환경과 언어적 명령에 대해 적응하는 능력을 가지고 있습니다. 이 모델은 HuggingFace에서 오픈소스로 제공되며, 쉽게 사용할 수 있는 코드도 포함되어 있습니다. 기존의 닫힌 구조 모델(RT-2-X) 대비 성능이 뛰어나며, 새로운 작업 환경에 빠르게 적응하는 특징을 가지고 있습니다.
2. VIMA (General Robot Manipulation with Multimodal Prompts):
VIMA는 다중 모달 프롬프트를 이용하여 로봇 조작 작업을 수행하는 오픈소스 모델입니다. 이 모델은 다양한 형태의 입력(예: 이미지, 텍스트 명령)을 받아 로봇이 작업을 수행할 수 있도록 합니다. Pytorch 기반으로 오픈소스 코드가 제공되어 연구자들이 손쉽게 접근하고 활용할 수 있습니다.
3. RT-1-X:
Google Robotics에서 개발한 RT-1-X 시리즈는 대규모 비전-언어 모델을 기반으로 로봇의 행동을 제어하는 모델입니다. 이 모델은 Open X-Embodiment와 같은 대규모 데이터셋을 활용하여 학습되었으나, 오픈소스로 제공되지는 않습니다. 다만, 이와 유사한 접근을 하는 모델들은 오픈소스로 공개되어 연구 커뮤니티에서 활발히 연구되고 있습니다.

이 외에도 Github에서 로봇과 LLM(대형 언어 모델)을 결합한 여러 오픈소스 프로젝트들이 있습니다. 예를 들어, “LM-Nav” 프로젝트는 대형 사전 학습 모델을 사용하여 로봇의 탐색 및 조작 작업을 수행할 수 있도록 지원하며, 해당 코드 역시 오픈소스로 제공됩니다.

오픈소스 프로젝트를 활용하고자 한다면 OpenVLA가 현재로서는 가장 유망한 선택지로 보이며, 다양한 로봇 환경에서 범용적으로 사용될 수 있는 가능성이 큽니다. 추가적으로 VIMA와 같은 모델들을 검토하여 다양한 조작 작업에 적용할 수 있는지 확인해보는 것도 좋은 접근일 것입니다.

sikang99/LBM.md