- TRI : Toyota Research Institute
- 2024/11/12 Large Behavior Models: The Next Evolution in AI That's Taking Over ๐
- 2024/11/11 Large Behavior Models: The Key to Predicting and Optimizing Human Actions
- 2024/11/11 Large Behavior Models and the future of AI in robotics
- 2024/11/10 Large Behavior Models: A New Frontier In AI
- 2024/11/06 NVIDIA Advances Robot Learning and Humanoid Development With New AI and Simulation Tools
- 2024/10/31 Nvidia๋ ์ ๋ฌธ๊ฐ๋ค๋ณด๋ค ์ธ๊ฐํ ๋ก๋ด์ ๋ ์ ์ ์ดํ๋ ์์ AI ๋ชจ๋ธ์ ํ๋ จ์์ผฐ๋ค.
- 2024/10/30 NVIDIA Introduces HOVER, a 1.5 M Parameter Neural Network for Humanoid Robotics
- 2024/10/16 Boston Dynamics and Toyota team up: Teaching Atlas how to learn
- 2024/06/10 ๋ก๋ด์ด ์ ํ๋ธ ๋ณด๊ณ ๋ฐฐ์ฐ๋ LBM ์๋๊ฐ ์๋ค
- 2024/05/06 How Large Behavior Models (LBM's) can transform Humanoids
- 2024/04/23 Cracking Robotic Investment with GenAI
- 2024/03/18 NVIDIA Announces Project GR00T Foundation Model for Humanoid Robots and Major Isaac Robotics Platform Update
- 2024/01/07 Large Behaviorial Models for AI Robots
- 2023/09/21 ๋ก๋ด, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ โ๋๊ท๋ชจ ํ๋ ๋ชจ๋ธโ๋ก
- 2023/09/19 Toyota Research Institute Unveils Breakthrough in Teaching Robots New Behaviors
- 2023/09/15 TRIโs Robots Learn New Manipulation Skills in an Afternoon. Hereโs How.
- OpenVLA (Open Vision-Language-Action Model)
- VIMA (General Robot Manipulation with Multimodal Prompts
- RT-1-X
- LM-Nav
- Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- Drake - Model-Based Design and Verification for Robotics
- Self-Adaptive Robots - Workshop on Embodiment-Aware Robot Learning RSSโ24
ํ์ฌ Large Behavior Models(LBM)์ ์คํ์์ค๋ก ํ์ฉํ ์ ์๋ ํ๋ก์ ํธ๋ ๋ค์ํ์ง ์์ง๋ง, ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ ์คํ์์ค ํ๋ก์ ํธ๋ค์ด ์กด์ฌํฉ๋๋ค. ํนํ, ๋ก๋ด ์ ์ด๋ฅผ ์ํด ๋๊ท๋ชจ ๋น์ -์ธ์ด-ํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค.
1. OpenVLA (Open Vision-Language-Action Model):
OpenVLA๋ ๋ก๋ด์ ๋ค์ํ ์กฐ์ ์์ ์ ์ํด ์ค๊ณ๋ ์คํ์์ค ๋น์ -์ธ์ด-ํ๋(VLA) ๋ชจ๋ธ์ ๋๋ค. 7์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ์ด ๋ชจ๋ธ์ Open X-Embodiment๋ผ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ (970,000๊ฐ ์ด์์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ)์ผ๋ก ํ์ต๋์์ต๋๋ค. OpenVLA๋ ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ ๋ฒ์ฉ์ ์ผ๋ก ํ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํนํ ๋ก๋ด์ด ๋ค์ํ ์๊ฐ์ ํ๊ฒฝ๊ณผ ์ธ์ด์ ๋ช ๋ น์ ๋ํด ์ ์ํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ HuggingFace์์ ์คํ์์ค๋ก ์ ๊ณต๋๋ฉฐ, ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋ ์ฝ๋๋ ํฌํจ๋์ด ์์ต๋๋ค. ๊ธฐ์กด์ ๋ซํ ๊ตฌ์กฐ ๋ชจ๋ธ(RT-2-X) ๋๋น ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ฉฐ, ์๋ก์ด ์์ ํ๊ฒฝ์ ๋น ๋ฅด๊ฒ ์ ์ํ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
2. VIMA (General Robot Manipulation with Multimodal Prompts):
VIMA๋ ๋ค์ค ๋ชจ๋ฌ ํ๋กฌํํธ๋ฅผ ์ด์ฉํ์ฌ ๋ก๋ด ์กฐ์ ์์ ์ ์ํํ๋ ์คํ์์ค ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ค์ํ ํํ์ ์ ๋ ฅ(์: ์ด๋ฏธ์ง, ํ ์คํธ ๋ช ๋ น)์ ๋ฐ์ ๋ก๋ด์ด ์์ ์ ์ํํ ์ ์๋๋ก ํฉ๋๋ค. Pytorch ๊ธฐ๋ฐ์ผ๋ก ์คํ์์ค ์ฝ๋๊ฐ ์ ๊ณต๋์ด ์ฐ๊ตฌ์๋ค์ด ์์ฝ๊ฒ ์ ๊ทผํ๊ณ ํ์ฉํ ์ ์์ต๋๋ค.
3. RT-1-X:
Google Robotics์์ ๊ฐ๋ฐํ RT-1-X ์๋ฆฌ์ฆ๋ ๋๊ท๋ชจ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด์ ํ๋์ ์ ์ดํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ Open X-Embodiment์ ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ํ์ต๋์์ผ๋, ์คํ์์ค๋ก ์ ๊ณต๋์ง๋ ์์ต๋๋ค. ๋ค๋ง, ์ด์ ์ ์ฌํ ์ ๊ทผ์ ํ๋ ๋ชจ๋ธ๋ค์ ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค.
์ด ์ธ์๋ Github์์ ๋ก๋ด๊ณผ LLM(๋ํ ์ธ์ด ๋ชจ๋ธ)์ ๊ฒฐํฉํ ์ฌ๋ฌ ์คํ์์ค ํ๋ก์ ํธ๋ค์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, โLM-Navโ ํ๋ก์ ํธ๋ ๋ํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ํ์ ๋ฐ ์กฐ์ ์์ ์ ์ํํ ์ ์๋๋ก ์ง์ํ๋ฉฐ, ํด๋น ์ฝ๋ ์ญ์ ์คํ์์ค๋ก ์ ๊ณต๋ฉ๋๋ค.
์คํ์์ค ํ๋ก์ ํธ๋ฅผ ํ์ฉํ๊ณ ์ ํ๋ค๋ฉด OpenVLA๊ฐ ํ์ฌ๋ก์๋ ๊ฐ์ฅ ์ ๋งํ ์ ํ์ง๋ก ๋ณด์ด๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๊ฒฝ์์ ๋ฒ์ฉ์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก VIMA์ ๊ฐ์ ๋ชจ๋ธ๋ค์ ๊ฒํ ํ์ฌ ๋ค์ํ ์กฐ์ ์์ ์ ์ ์ฉํ ์ ์๋์ง ํ์ธํด๋ณด๋ ๊ฒ๋ ์ข์ ์ ๊ทผ์ผ ๊ฒ์ ๋๋ค.