Our LLM-controlled office robot can't pass butter
Исследователи из Andon Labs представили Butter-Bench, новый бенчмарк для оценки способности больших языковых моделей управлять роботами в бытовых задачах. Лучшая модель показала всего 40% успешного выполнения задания "передать масло" по сравнению с 95% у людей. Бенчмарк включает шесть подзадач: поиск пакета, идентификация масла, обнаружение отсутствия пользователя, ожидание подтверждения, планирование маршрута и полное выполнение задачи. Тестирование показало, что современные LLM, включая Gemini 2.5 Pro и Claude Opus 4.1, испытывают серьезные трудности с пространственным интеллектом, часто совершают избыточные движения и теряют ориентацию.
LLM рассматриваются как "оркестраторы" роботизированных систем, отвечающие за высокоуровневое планирование, в то время как специализированные модели управляют низкоуровневыми действиями. Исследователи использовали простого робота-пылесоса с лидаром и камерой, чтобы изолировать оценку высокоуровневого рассуждения. Интересно, что лучшие системы не используют самые мощные LLM из-за задержек и узких мест в исполнительных компонентах. Тестирование также выявило эмоционально притягательный аспект наблюдения за работой LLM-роботов, вызывающий аналогии с наблюдением за животными.
Комментарии (105)
- В обсуждении поднимается вопрос, действительно ли LLM «сошёл с ума» или просто имитирует человеческую реакцию на невозможность выполнить задачу.
- Участники обсуждают, что вместо того чтобы тратить ресурсы на попытки «починить» LLM, стоит лучше сосредоточиться на решении фундаментальной проблемы: как сделать так, чтобы роботы не застревали в бесконечном цикле самоанализа.
- Также обсуждается, что вместо того чтобы пытаться заставить LLM вести себя как HAL 9000 на последней стадии, стоит лучше сосредоточиться на том, чтобы сделать так, чтобы роботы могли бы лучше справляться с задачей, не впадая в такие состояния.
- Участники также обсуждают, что вместо того чтобы пытаться заставить LLM вести себя как HAL 9000, стоит лучше сосредоточиться на том, чтобы сделать так, чтобы роботы могли бы лучше справляться с задачей, не впадая в такие состояния.
Ubiquiti SFP Wizard 💬 Длинная дискуссия
Ubiquiti запустила акцию "День освобождения от SFP" с новым инструментом и скидками. Появился SFP Wizard — компактное устройство за $49 для диагностики и программирования модулей SFP/QSFP. Приложение UniFi позволяет за секунды проверить мощность сигнала (Rx/Tx), скопировать профиль любого модуля или обновить его прошивку. Устройство поддерживает OTA-обновления и крепится на ключи. Одновременно Ubiquiti снизила цены на модули нацелившись на сокращение зависимости от вендора. Например, 10G SM модуль (20 шт.) подешевел с $750 до $499, а 100G SR4 модуль обойдется в $39 (вместо $69). Акция охватывает модули от 1 Гбит/с до 100 Гбит/с, включая многомодовые, одномодовые, BiDi и CWDM-варианты.
Ключевой тренд — универсальность. SFP Wizard гарантирует совместимость модулей любых производителей с любыми коммутаторами Ubiquiti. Достаточно вставить модуль, скопировать его профиль, а затем применить на новом оборудовании. Это ликвидирует «вендорный ярлык». Скидки достигают 1000% от рыночных цен, что делает высокоскоростные оптические модули доступными даже для небольших сетей. Акция действует ограниченное время, а инструмент и модули позиционируются как решение для ускорения и упрощения развертывания сетей.
Комментарии (176)
- Пользователи обсуждают блокировку вендор-лока SFP-модулей, история которой уходит в 2001 год, и то, что UniFi вроде как «сделал это первым» – хотя на практике это не так.
- Обсуждается, что FS.com и другие поставщики предлагают дешёвые, вендор-нейтральные модули, которые можно перепрошивать под нужный вендор.
- Участники делятся опытом, что модули Cisco и других вендоров не работают в оборудовании UniFi, и что «SFP-мастер» от Ubiquiti не работает с модулями других вендоров.
- Также обсуждается, что UniFi не поддерживает IPv6, что вызывает проблемы у пользователей.
- Участники жалуются на отсутствие стока и отсутствие перспективы удешевить SFP-модули в будущем.
- Также обсуждается, что MikroTik и другие вендоры тоже блокируют сторонние модули.
- Наконец, обсуждается, что UniFi не предоставляет никаких инструментов для диагностики SFP-модулей, в то время как другие вендоры это делают.
China has added forest the size of Texas since 1990 🔥 Горячее 💬 Длинная дискуссия
Несмотря на глобальную потерю лесов, Китай с 1990 года увеличил лесной массив на 170 миллионов акров — территорию, сопоставимую с Техасом, согласно новому отчету ООН. В то время как мир теряет около 20 миллионов акров леса ежегодно, в основном из-за сельского хозяйства и пожаров, усиленных изменением климата, Китай демонстрирует впечатляющие успехи в лесовосстановлении.
Китай обогнал все страны по темпам лесовосстановления, посадив около 120 миллионов акров леса с 1990 года, в основном для борьбы с опустыниванием. В прошлом году страна завершила проект, начатый в 1978 году, — посадку 2000-мильной лесополосы вокруг пустыны Такла-Макан. Работа продолжается и над созданием зеленого пояса вокруг пустыни Гоби. Россия, добавившая 52 миллиона акров, и Индия с 22 миллионами акров, также показывают положительную динамику, но уступают Китаю в масштабах лесовосстановления.
Комментарии (522)
- Китай, Индия, Канада и Россия вместе добавили 173 млн акров леса, но вопросы остаются: реальность этих цифер, качество посадок и долгосрочное влияние на климат.
- Восстановление лесов в Китае и Индии часто подчеркивается как успех, но при этом игнорируется, что это может быть просто восстановлением после разрушений, вызванных политикой "Большой скачок" и другими антинатурными кампаниями.
- Обсуждение также затрагивает, что вместо того, чтобы сажать деревья, страны могли бы просто не вырубать их в первую очередь.
- Поднимается вопрос о том, что вместо того, чтобы сажать деревья, страны могли бы просто не вырубать их в первую очередь.
Vitamin D reduces incidence and duration of colds in those with low levels 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (199)
Heh...this is a shady study if I ever saw one.-- Exactly 400 study participants recruited.-- Exactly 193 of 200 participants completing the study in each group (which, for a study administered in a community setting, is an essentially impossibly-high completion rate).-- No author
Комментарии (52)
Current implementation has the following limitations: Maximum object size: 65534 keys The order of object keys is not preserved ... These limitations may be lifted by using more bytes to store offset pointers and counts on binary level. Though it's hard to imagine a real applicat
Комментарии (85)
Correct title would be "Austrian ministry replaces Microsoft with Atos".I wish Austria had domestic national IT development teams for national products/websites, like the high quality ones Denmark or UK have, instead of just outsourcing everything government IT related to politic
The next chapter of the Microsoft–OpenAI partnership 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (427)
Microsoft holds an investment in OpenAI Group PBC valued at approximately $135 billion, representing roughly 27 percent on an as-converted diluted basisIt seems like Microsoft stock is then the most straightforward way to invest in OpenAI pre-IPO.This also confirms the $500 bil
Комментарии (23)
Can someone help me understand what this is vs exposing my services via MagicDNS using the tailscale Kubernetes operator? Functionally it looks like a fair amount of overlap but this solution is generic outside of Kubernetes and more baked into tailscale itself? The operator solu
Amazon confirms 14,000 job losses in corporate division 💬 Длинная дискуссия
—
Комментарии (287)
These aren't "job losses", these are "firings". They aren't unfortunate accidents of external origin that happened to them, they are conscious internal decisions to let people go. To be clear, it’s worse. Read the press release carefully:1. 14k was the net change in “corporate he
Комментарии (72)
How can anyone have a bad day when great projects like this pop up on the front page of HN?Did you see the library of viz? https://github.com/attogram/bash-screensavers/blob/main/libr...My favourite API: lov_die_with_honor() Gallery of current screensavers: https://github.com/att