Bộ nhớ thay thế 'não cá vàng' của robot
Physical Intelligence giải quyết vấn đề bằng một thay đổi kiến trúc quan trọng: Bộ nhớ Thể hiện đa quy mô (MEM). Bằng cách kết hợp theo dõi hình ảnh ngắn hạn với tường thuật dài hạn bằng ngôn ngữ tự nhiên, loạt robot mới nhất của công ty giờ đây có thể duy trì sự tập trung trong tối đa 15 phút – đủ lâu để dọn dẹp toàn bộ nhà bếp hoặc chuẩn bị một bữa ăn từ đầu đến cuối.

Vấn đề “não cá vàng” khiến robot chưa thể thực hiện nhiệm vụ nhiều bước phức tạp - Ảnh: Reddit
Video cho chi tiết, văn bản cho ngữ cảnh
Nhồi nhét hàng phút video tần số cao vào cửa sổ ngữ cảnh của một mô hình rất tốn kém về mặt tính toán và gây ra “nhầm lẫn nhân quả” (robot lặp lại hành động trong quá khứ một cách sai lầm chỉ vì chúng nằm trong dữ liệu lịch sử).
Kiến trúc MEM chia bộ nhớ thành 2 phấn riêng biệt. Mô hình sử dụng bộ mã hóa video hiệu quả dựa trên Vision Transformers (ViTs) thu thập vô số hình ảnh chỉ dài khoảng vài giây, cho phép robot ghi nhớ vị trí của vật thể ngay cả khi cánh tay của chính nó che khuất tầm nhìn. Còn với ngữ cảnh tổng thể, mô hình tóm tắt sự kiện ngữ nghĩa bằng ngôn ngữ tự nhiên. Ví dụ thay vì ghi nhớ từng khung hình của hành động mở tủ lạnh, nó đơn giản chỉ lưu ghi chú là “tôi đã mở tử lạnh”.
Phần bộ nhớ văn bản được cập nhật thông qua quy trình “chuỗi suy nghĩ”. Khi hoàn thành một công đoạn nhỏ, robot dự đoán tóm tắt được cập nhật về tiến độ từ đó đưa ra quyết định cho bước tiếp theo.
Học hỏi từ sai lầm
Lợi ích tức thời nhất của MEM không chỉ là cho phép robot thực hiện được nhiệm vụ nhiều bước phức tạp, mà còn đem đến khả năng học hỏi từ sai lầm. Trước đây nếu robot dùng mô hìnhπ0.6 của Physical Intelligence không cầm nắm được vật thể, nó có thể lặp lại cách thức cầm nắm sai lầm rất nhiều lần.
Với MEM, robot thích ứng tốt trước tình hình thực tế. Lúc trình diễn lấy đũa trên bàn thấp thiết bị ghi nhớ thất bại ở n trong bộ nhớ video ngắn hạn nên điều chỉnh độ cao khi nắm tay, kết quả thành công ngay ở lần thực hiện thứ hai.
Tương tự khi đứng trước tủ lạnh có vị trí bản lề không rõ ràng, robot thử kéo theo một hướng, nhận ra cửa mắc kẹt thì ngay lập tức chuyển sang kéo từ phía bên kia.
Mô hìnhπ0.6 - MEM đã vượt qua bài kiểm tra dọn dẹp nhà bếp kéo dài 15 phút gồm lau quầy, lau khô bằng khăn giấy, rửa bát đĩa bằng nước và đặt món vào tủ lạnh. Đặc biệt robot biết lấy vật dụng cùng nguyên liệu nấu ăn trong tủ hoặc ngăn kéo mà nó không nhìn thấy. Robot còn mở túi và đếm các mặt hàng bên trong để đảm bảo không có vật gì bị sót lại.
Physical Intelligence ra mắt MEM sau vòng gọi vốn khổng lồ 600 triệu USD cuối năm 2025, dựa trên ý tưởng một “bộ não phổ quát” quan trọng hơn phần cứng chuyên dụng. Trong khi các đối thủ cạnh tranh như Google DeepMind đang tìm kiếm bước đột phá lớn, phương pháp kết hợp học tập bắt chước với học tập tăng cường tự động cho phép robot thực hành và ghi nhớ sai lầm, qua đó thu hẹp khoảng cách giữa nguyên mẫu phòng thí nghiệm với thành phẩm dùng được trong nhà máy.
Cẩm Bình
5 giờ trước
1 giờ trước
20 phút trước
2 giờ trước
37 phút trước
8 phút trước
19 phút trước
34 phút trước
37 phút trước
42 phút trước