Our LLM-controlled office robot can't pass butter
Исследователи из Andon Labs представили Butter-Bench, новый бенчмарк для оценки способности больших языковых моделей управлять роботами в бытовых задачах. Лучшая модель показала всего 40% успешного выполнения задания "передать масло" по сравнению с 95% у людей. Бенчмарк включает шесть подзадач: поиск пакета, идентификация масла, обнаружение отсутствия пользователя, ожидание подтверждения, планирование маршрута и полное выполнение задачи. Тестирование показало, что современные LLM, включая Gemini 2.5 Pro и Claude Opus 4.1, испытывают серьезные трудности с пространственным интеллектом, часто совершают избыточные движения и теряют ориентацию.
LLM рассматриваются как "оркестраторы" роботизированных систем, отвечающие за высокоуровневое планирование, в то время как специализированные модели управляют низкоуровневыми действиями. Исследователи использовали простого робота-пылесоса с лидаром и камерой, чтобы изолировать оценку высокоуровневого рассуждения. Интересно, что лучшие системы не используют самые мощные LLM из-за задержек и узких мест в исполнительных компонентах. Тестирование также выявило эмоционально притягательный аспект наблюдения за работой LLM-роботов, вызывающий аналогии с наблюдением за животными.