Describe the architecture of compute and control software in humanoid robots.

The architecture of compute and control software in a humanoid robot is one of the most complex engineering stacks in robotics. Because humanoids must balance, navigate, and interact with an unstructured world in real time, their software is typically split into a hierarchical architecture.

This is generally structured into three distinct layers: the Cloud/Fleet Layer (high-level intelligence), the Onboard Compute Layer (perception and planning), and the Low-Level Control Layer (real-time execution).

1. High-Level Compute: Perception, Cognition, & Task Planning

Operating at a lower frequency (typically $1\text{ Hz}$ to $10\text{ Hz}$ ), this layer acts as the robot's "brain." It processes heavy data-stream inputs and decides what the robot should do.

Perception Stack: Processes inputs from cameras, LiDAR, and depth sensors. It uses computer vision models (like Transformers or CNNs) for object recognition, 3D semantic mapping, and SLAM (Simultaneous Localization and Mapping) to understand where the robot is in space.
Task & Motion Planning: Converts abstract commands (e.g., "pick up the mug") into a sequence of physical actions. This increasingly involves VLM/LLM-based orchestrators that break down complex human instructions into state-machine behaviors.
Behavior Trees / Finite State Machines (FSM): Manage the high-level operational states of the robot (e.g., switching from Walking Mode to Object Manipulation Mode).

2. Mid-Level Compute: Whole-Body Control & State Estimation

Operating at a medium frequency ( $100\text{ Hz}$ to $500\text{ Hz}$ ), this layer bridges abstract tasks and raw joint movements. It ensures the robot doesn't fall over while executing tasks.

State Estimation: Humanoids constantly need to know their exact orientation and center of mass. This module fuses high-frequency data from the IMU (Inertial Measurement Unit) with kinematic data from joint encoders and foot pressure sensors using Extended Kalman Filters (EKF).
Whole-Body Control (WBC): Humanoids are underactuated and inherently unstable. WBC algorithms solve complex mathematical optimizations in real time to balance competing objectives—like keeping the torso upright while reaching for an object.
Trajectory Optimization & MPC: Model Predictive Control (MPC) looks a few steps into the future to predict the robot's dynamics (e.g., predicting footstep placement to maintain balance on uneven terrain).

3. Low-Level Control: Real-Time Actuation

Operating at the highest frequency ( $1\text{ kHz}$ to $4\text{ kHz}$ +), this layer interfaces directly with the hardware. It requires strict hard real-time execution; a delay of even a millisecond can cause a humanoid to lose balance and crash.

Motor Controllers / EtherCAT Slaves: Distributed microcontrollers at each joint run local PID loops or Field Oriented Control (FOC) for the electric motors.
Actuator Control Modes: * Position Control: Moves a joint to an exact angle.
- Torque/Current Control: Dictates exactly how much force a joint exerts. This is critical for compliance—ensuring the robot yields if it hits a human or an obstacle, preventing damage.

The Humanoid Software Stack Architecture

The diagram below illustrates how these layers interact, transitioning from asynchronous high-level intelligence down to synchronous, ultra-fast hardware loops.

Layer	Primary Functions	Frequency	Key Technologies
High-Level	Task planning, Object recognition, SLAM, VLM orchestration	$1\text{ Hz} - 10\text{ Hz}$	ROS 2, PyTorch, C++, Python
Mid-Level	State estimation, MPC, Balance control, Trajectory generation	$100\text{ Hz} - 500\text{ Hz}$	OSQP, Pinocchio, Rigid Body Dynamics
Low-Level	Joint torque control, Sensor data aggregation, Safety limits	$1\text{ kHz} - 4\text{ kHz}+$	RT-Preempt Linux, EtherCAT, CANopen

Emerging Trend: End-to-End Learning

While the traditional architecture outlined above relies on explicit, hand-coded physics models (classical robotics), the industry is aggressively shifting toward End-to-End Neural Networks.

Using Reinforcement Learning (RL) in simulation (Sim-to-Real), developers train neural networks that take raw sensor data (pixels + IMU states) and map them directly to motor torque commands. In these architectures, the distinct boundaries between perception, planning, and control blend into a single, cohesive policy network capable of highly dynamic movements like running, jumping, or recovering from aggressive shoves.

---

Translate your response into Vietnamese.

Kiến trúc phần mềm tính toán và điều khiển trong một robot humanoid (robot mô phỏng người) là một trong những hệ thống phức tạp nhất của ngành kỹ thuật robot. Do robot humanoid phải liên tục giữ thăng bằng, di chuyển và tương tác với môi trường thế giới thực không xác định theo thời gian thực, phần mềm của chúng thường được chia thành một cấu trúc phân tầng (hierarchical architecture).

Hệ thống này thường được cấu trúc thành ba lớp chính: Lớp Đám mây/Hệ thống (Cloud/Fleet Layer) (trí tuệ cấp cao), Lớp Tính toán Trên bo mạch (Onboard Compute Layer) (nhận thức và lập kế hoạch), và Lớp Điều khiển Cấp thấp (Low-Level Control Layer) (thực thi thời gian thực).

1. Tính toán Cấp cao: Nhận thức, Nhận thức & Lập kế hoạch Nhiệm vụ

Hoạt động ở tần số thấp (thường từ $1\text{ Hz}$ đến $10\text{ Hz}$ ), lớp này đóng vai trò là "não bộ" của robot. Nó xử lý các dữ liệu đầu vào nặng từ các luồng cảm biến và quyết định robot nên làm gì.

Nhóm xử lý Nhận thức (Perception Stack): Xử lý dữ liệu đầu vào từ camera, LiDAR và cảm biến độ sâu. Nó sử dụng các mô hình thị giác máy tính (như Transformers hoặc CNN) để nhận diện vật thể, xây dựng bản đồ ngữ nghĩa 3D và chạy thuật toán SLAM (Đồng thời Định vị và Lập bản đồ) để robot hiểu được vị trí của mình trong không gian.
Lập kế hoạch Nhiệm vụ & Chuyển động (Task & Motion Planning): Chuyển đổi các câu lệnh trừu tượng (ví dụ: "cầm chiếc cốc lên") thành một chuỗi các hành động vật lý cụ thể. Lớp này ngày càng tích hợp nhiều hệ thống điều phối dựa trên VLM/LLM (Mô hình Ngôn ngữ Lớn/Thị giác) để phân rã các hướng dẫn phức tạp của con người thành các trạng thái hành vi.
Cây Hành vi / Máy Trạng thái Hữu hạn (FSM): Quản lý các trạng thái vận hành cấp cao của robot (ví dụ: chuyển từ Chế độ đi bộ sang Chế độ thao tác với vật thể).

2. Tính toán Cấp trung: Điều khiển Toàn thân & Ước lượng Trạng thái

Hoạt động ở tần số trung bình ( $100\text{ Hz}$ đến $500\text{ Hz}$ ), lớp này là cầu nối giữa các nhiệm vụ trừu tượng và chuyển động thực tế của các khớp. Nó đảm bảo robot không bị ngã khi đang thực hiện nhiệm vụ.

Ước lượng Trạng thái (State Estimation): Robot humanoid cần liên tục biết định hướng chính xác và trọng tâm của nó ở đâu. Mô-đun này hợp nhất dữ liệu tần số cao từ cảm biến IMU (Đơn vị Đo lường Quán tính) với dữ liệu động học từ bộ mã hóa vòng quay (encoders) ở khớp và cảm biến áp lực ở chân bằng cách sử dụng các bộ lọc Extended Kalman Filters (EKF).
Điều khiển Toàn thân (Whole-Body Control - WBC): Robot humanoid là hệ thống thiếu cơ cấu chấp hành (underactuated) và vốn dĩ không ổn định về mặt cơ học. Các thuật toán WBC giải các bài toán tối ưu hóa toán học phức tạp theo thời gian thực để cân bằng giữa các mục tiêu xung đột nhau — chẳng hạn như giữ cho thân mình luôn thẳng đứng trong khi vẫn phải với tay lấy một đồ vật.
Tối ưu hóa Quỹ đạo & MPC: Hệ thống Điều khiển Dự báo Mô hình (Model Predictive Control - MPC) nhìn trước vài bước về tương lai để dự đoán động lực học của robot (ví dụ: dự đoán vị trí đặt bàn chân tiếp theo để duy trì thăng bằng trên địa hình gồ ghề).

3. Điều khiển Cấp thấp: Cơ cấu chấp hành Thời gian thực

Hoạt động ở tần số cao nhất ( $1\text{ kHz}$ đến hơn $4\text{ kHz}$ ), lớp này giao tiếp trực tiếp với phần cứng. Nó đòi hỏi việc thực thi theo thời gian thực cực kỳ nghiêm ngặt (hard real-time); chỉ cần một độ trễ tính bằng mili giây cũng có thể khiến robot mất thăng bằng và ngã đổ.

Bộ điều khiển Động cơ (Motor Controllers / EtherCAT Slaves): Các vi điều khiển phân tán tại mỗi khớp chạy các vòng lặp PID cục bộ hoặc thuật toán Điều khiển hướng trường (FOC) cho các động cơ điện.
Các chế độ Điều khiển Cơ cấu chấp hành:
- Điều khiển Vị trí (Position Control): Di chuyển khớp đến một góc chính xác.
- Điều khiển Mô-men xoắn/Dòng điện (Torque/Current Control): Quy định chính xác lực mà khớp cần tạo ra. Điều này vô cùng quan trọng đối với tính tuân thủ (compliance) — đảm bảo robot sẽ tự động thả lỏng hoặc nhường lực nếu va chạm với con người hoặc vật cản, tránh gây hư hại.

Sơ đồ Kiến trúc Phần mềm Robot Humanoid

Sơ đồ dưới đây minh họa cách các lớp này tương tác với nhau, chuyển dịch từ trí tuệ cấp cao không đồng bộ xuống các vòng lặp phần cứng đồng bộ với tốc độ siêu nhanh.

Tầng / Lớp	Chức năng Chính	Tần số	Công nghệ Cốt lõi
Cấp cao (High-Level)	Lập kế hoạch nhiệm vụ, Nhận diện vật thể, SLAM, Điều phối VLM	$1\text{ Hz} - 10\text{ Hz}$	ROS 2, PyTorch, C++, Python
Cấp trung (Mid-Level)	Ước lượng trạng thái, MPC, Điều khiển thăng bằng, Tạo quỹ đạo	$100\text{ Hz} - 500\text{ Hz}$	OSQP, Pinocchio, Rigid Body Dynamics
Cấp thấp (Low-Level)	Điều khiển mô-men xoắn khớp, Tổng hợp dữ liệu cảm biến, Giới hạn an toàn	$1\text{ kHz} - 4\text{ kHz}+$	RT-Preempt Linux, EtherCAT, CANopen

Xu hướng Mới: Học Máy Toàn diện (End-to-End Learning)

Trong khi kiến trúc truyền thống được mô tả ở trên dựa vào các mô hình vật lý được lập trình sẵn một cách tường minh (robot học cổ điển), ngành công nghiệp hiện nay đang chuyển dịch mạnh mẽ sang Mạng Thần kinh Toàn diện (End-to-End Neural Networks).

Bằng cách sử dụng Học tăng cường (Reinforcement Learning - RL) trong môi trường mô phỏng rồi chuyển đổi sang thực tế (Sim-to-Real), các kỹ sư đào tạo các mạng thần kinh có khả năng tiếp nhận dữ liệu cảm biến thô (hình ảnh từ camera + trạng thái từ IMU) và ánh xạ trực tiếp thành các lệnh mô-men xoắn cho động cơ. Trong các kiến trúc này, ranh giới giữa nhận thức, lập kế hoạch và điều khiển được hòa làm một, giúp robot có được các chuyển động linh hoạt cao như chạy, nhảy hoặc tự phục hồi thăng bằng cực tốt khi bị xô đẩy mạnh.

Lê Văn Lợi miscellaneous

Thứ Sáu, 5 tháng 6, 2026

Architecture of compute and control software in humanoid robots - Gemini