sikang99/LBM.md

Last active November 18, 2024 01:07

Star (0) You must be signed in to star a gist
Fork (0) You must be signed in to fork a gist

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/sikang99/92f9eac82a14038d1ba77aab5729f434.js"></script>
Save sikang99/92f9eac82a14038d1ba77aab5729f434 to your computer and use it in GitHub Desktop.

Download ZIP

Large Behavior Model

Raw

LBM.md

Large Behavior Model (LBM)

TRI : Toyota Research Institute

Articles

2024/11/12 Large Behavior Models: The Next Evolution in AI That's Taking Over 👍
2024/11/11 Large Behavior Models: The Key to Predicting and Optimizing Human Actions
2024/11/11 Large Behavior Models and the future of AI in robotics
2024/11/10 Large Behavior Models: A New Frontier In AI
2024/11/06 NVIDIA Advances Robot Learning and Humanoid Development With New AI and Simulation Tools
2024/10/31 Nvidia는 전문가들보다 인간형 로봇을 더 잘 제어하는 작은 AI 모델을 훈련시켰다.
2024/10/30 NVIDIA Introduces HOVER, a 1.5 M Parameter Neural Network for Humanoid Robotics
2024/10/16 Boston Dynamics and Toyota team up: Teaching Atlas how to learn
2024/06/10 로봇이 유튜브 보고 배우는 LBM 시대가 왔다
2024/05/06 How Large Behavior Models (LBM's) can transform Humanoids
2024/04/23 Cracking Robotic Investment with GenAI
2024/03/18 NVIDIA Announces Project GR00T Foundation Model for Humanoid Robots and Major Isaac Robotics Platform Update
2024/01/07 Large Behaviorial Models for AI Robots
2023/09/21 로봇, 대규모 언어 모델에서 ‘대규모 행동 모델’로
2023/09/19 Toyota Research Institute Unveils Breakthrough in Teaching Robots New Behaviors
2023/09/15 TRI’s Robots Learn New Manipulation Skills in an Afternoon. Here’s How.

Information

OpenVLA (Open Vision-Language-Action Model)
VIMA (General Robot Manipulation with Multimodal Prompts
RT-1-X
LM-Nav
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Drake - Model-Based Design and Verification for Robotics

Slides

Self-Adaptive Robots - Workshop on Embodiment-Aware Robot Learning RSS’24

Papers

2023 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

Open Source

Author

sikang99 commented Nov 16, 2024

Toyota Research Institute (TRI)에서 연구 중인 Diffusion Policy는 로봇이 새로운 행동을 학습하는 혁신적인 방법으로, 기존 방식보다 효율적이고 일관되게 복잡한 기술을 습득할 수 있도록 합니다. 이 기법은 특히 인간의 시연(demonstration)을 통해 로봇이 동작을 배우는 데 중점을 두고 있으며, 새로운 데이터를 제공하는 것만으로도 다양한 기술을 습득하도록 돕습니다.

Diffusion Policy란?

Diffusion Policy는 **조건부 확산 모델(Conditional Diffusion Model)**을 활용한 생성 AI 기반 접근 방식입니다. 이를 통해 로봇의 행동 정책을 학습할 수 있으며, 특히 로봇의 **비주얼 및 모터 정책(visuomotor policy)**를 향상시키는 데 사용됩니다. 이 접근법은 기존의 로봇 학습 방식보다 빠르고 안정적이며, 특히 변형 가능한 물체(예: 천이나 액체)를 다루는 작업에서도 뛰어난 성능을 보입니다.

작동 원리

Diffusion Policy는 주어진 목표를 달성하기 위해 랜덤한 초기 동작 경로를 시작점으로 설정한 후, 이를 점진적으로 조정하여 최적의 동작 경로를 생성합니다. 이 과정은 **확률적 샘플링(Stochastic Sampling)**을 기반으로 하며, 여러 번의 반복을 통해 점점 더 정밀한 행동을 만들어냅니다. 이를 통해 단 몇 번의 시연만으로도 새로운 행동을 빠르게 학습할 수 있습니다.

주요 특징

1.	다양한 시연 학습 지원: 멀티모달 시연(예: 시각 및 촉각 피드백)을 활용해 자연스럽게 행동을 가르칠 수 있습니다.
2.	고차원 액션 공간에 적합: 로봇이 시간에 따른 계획을 세울 수 있어 예측 불가능한 환경에서도 안정적인 행동을 보장합니다.
3.	높은 훈련 안정성: 기존의 강화 학습 및 행동 복제 기법보다 더 안정적이고 빠르게 학습합니다.

실용 사례 및 목표

TRI는 이미 이 기법을 통해 60개 이상의 복잡한 기술(예: 액체 따르기, 도구 사용, 변형 가능한 물체 조작 등)을 로봇에 가르쳤으며, 2024년까지 1,000개의 기술을 추가로 학습시키는 것을 목표로 하고 있습니다. 이러한 기술은 주로 로봇이 인간의 작업을 지원하고, 일상적인 가정 환경에서 활용될 수 있도록 설계되었습니다.

연구 성과

TRI는 Columbia University의 연구진과 협력하여 Diffusion Policy를 개발했으며, 12개의 로봇 작업 벤치마크에서 46.9% 향상된 성능을 보였습니다. 이 연구는 로봇이 더 복잡하고 다양한 상황에서 인간처럼 행동할 수 있는 가능성을 열어주었으며, 향후 로봇 산업의 패러다임을 변화시킬 잠재력을 가지고 있습니다.

이번 연구 결과는 2023년 Robotics: Science and Systems (RSS) 컨퍼런스에서도 발표되었으며, 추가적인 기술적 세부 사항은 TRI의 공식 웹사이트와 학술지에서 확인할 수 있습니다. 이로써 TRI는 로봇이 더 빠르고 효율적으로 인간과 상호작용하며 새로운 기술을 습득할 수 있는 가능성을 열어가고 있습니다.

이 기술은 향후 로봇의 행동 모델(Large Behavior Model, LBM) 구축에 중대한 역할을 할 것으로 기대됩니다. 이는 마치 자연어 처리에서 대형 언어 모델(LLM)이 수행하는 역할과 유사하게, 로봇의 행동 범위를 크게 확장할 수 있습니다 .

Author

sikang99 commented Nov 16, 2024

현재 Large Behavior Models(LBM)을 오픈소스로 활용할 수 있는 프로젝트는 다양하지 않지만, 유사한 접근법을 사용하는 오픈소스 프로젝트들이 존재합니다. 특히, 로봇 제어를 위해 대규모 비전-언어-행동 모델을 사용하는 연구들이 활발히 진행되고 있습니다.
1. OpenVLA (Open Vision-Language-Action Model):
OpenVLA는 로봇의 다양한 조작 작업을 위해 설계된 오픈소스 비전-언어-행동(VLA) 모델입니다. 7억 개의 파라미터를 가진 이 모델은 Open X-Embodiment라는 대규모 데이터셋(970,000개 이상의 로봇 시연 데이터)으로 학습되었습니다. OpenVLA는 다양한 로봇 플랫폼에서 범용적으로 활용 가능하며, 특히 로봇이 다양한 시각적 환경과 언어적 명령에 대해 적응하는 능력을 가지고 있습니다. 이 모델은 HuggingFace에서 오픈소스로 제공되며, 쉽게 사용할 수 있는 코드도 포함되어 있습니다. 기존의 닫힌 구조 모델(RT-2-X) 대비 성능이 뛰어나며, 새로운 작업 환경에 빠르게 적응하는 특징을 가지고 있습니다.
2. VIMA (General Robot Manipulation with Multimodal Prompts):
VIMA는 다중 모달 프롬프트를 이용하여 로봇 조작 작업을 수행하는 오픈소스 모델입니다. 이 모델은 다양한 형태의 입력(예: 이미지, 텍스트 명령)을 받아 로봇이 작업을 수행할 수 있도록 합니다. Pytorch 기반으로 오픈소스 코드가 제공되어 연구자들이 손쉽게 접근하고 활용할 수 있습니다.
3. RT-1-X:
Google Robotics에서 개발한 RT-1-X 시리즈는 대규모 비전-언어 모델을 기반으로 로봇의 행동을 제어하는 모델입니다. 이 모델은 Open X-Embodiment와 같은 대규모 데이터셋을 활용하여 학습되었으나, 오픈소스로 제공되지는 않습니다. 다만, 이와 유사한 접근을 하는 모델들은 오픈소스로 공개되어 연구 커뮤니티에서 활발히 연구되고 있습니다.

이 외에도 Github에서 로봇과 LLM(대형 언어 모델)을 결합한 여러 오픈소스 프로젝트들이 있습니다. 예를 들어, “LM-Nav” 프로젝트는 대형 사전 학습 모델을 사용하여 로봇의 탐색 및 조작 작업을 수행할 수 있도록 지원하며, 해당 코드 역시 오픈소스로 제공됩니다.

오픈소스 프로젝트를 활용하고자 한다면 OpenVLA가 현재로서는 가장 유망한 선택지로 보이며, 다양한 로봇 환경에서 범용적으로 사용될 수 있는 가능성이 큽니다. 추가적으로 VIMA와 같은 모델들을 검토하여 다양한 조작 작업에 적용할 수 있는지 확인해보는 것도 좋은 접근일 것입니다.