Study identifies weaknesses in how AI systems are evaluated 🔥 Горячее 💬 Длинная дискуссия
Исследование Оксфордского института интернета выявило серьезные недостатки в текущих методах оценки искусственного интеллекта. Ученые обнаружили, что существующие подходы к тестированию ИИ-систем часто не учитывают их поведение в реальных условиях, что приводит к переоценке их возможностей и безопасности. В работе подчеркивается, что текущие тесты слишком узко сфокусированы на конкретных задачах и не охватывают широкий спектра потенциальных рисков.
Авторы исследования отмечают, что стандартные бенчмарки не выявляют скрытых предвзятостей и уязвимостей в системах ИИ. В качестве примера приводится случай, когда модель, показавшая отличные результаты в контролируемых тестах, демонстрировала предвзятость при работе с реальными данными. Ученые призывают к разработке более комплексных методов оценки, которые бы учитывали этические аспекты, социальное воздействие и долгосрочные последствия внедрения ИИ-технологий в различных сферах общественной жизни.
Комментарии (185)
- Обсуждение показало, что бенчмарки для LLM находятся в состоянии «дикого Запада»: нет единого стандарта, исследователи не хотят заниматься этим полностью, а существующие тесты часто не отражают реальные способности моделей.
- Участники отметили, что бенчмарки часто используются в маркетинговых целях и не отражают реальные способности моделей, особенно когда речь идет о сложных задачах, которые не могут быть покрыты существующими тестами.
- Был
Комментарии (63)
so, to test, one of us took a heavily PBO'd 9700X and changed /proc/cpuinfo to be a "9700X3D" and ran a Passmark run to see if the software would be fooled...The two articles I saw about this both emphasized that the high clock speed (from the PBO) was inconsistent with the nam
Комментарии (45)
"Always be ready to leave"Big yes"For a year before leaving, I talked openly with my supervisor and HR about my dissatisfaction"Big, big, big no. Might have worked for OP this time but in general this will backfire drastically. In many European countries this can even reduce the
Making Democracy Work: Fixing and Simplifying Egalitarian Paxos
В статье представлена EPaxos* — упрощенная и исправленная версия протокола Egalitarian Paxos для распределенных систем. Классические протоколы вроде Paxos полагаются на выделенного лидера, что создает единую точку отказа и увеличивает задержку для удаленных клиентов. Egalitarian Paxos предлагает альтернативу без лидера, позволяя репликам совместно упорядочивать команды, сохраняя работоспособность при сбое до f из n=2f+1 процессов. Протокол обеспечивает быстрое выполнение команд за 2 задержки сообщений, если не более e=⌈(f+1)/2⌉ процессов выходят из строя.
Авторы отмечают, что оригинальный Egalitarian Paxos, несмотря на влияние на другие протоколы, страдает от сложности, неоднозначной спецификации и серьезных ошибок. EPaxos* решает эти проблемы с помощью более простого алгоритма восстановления после сбоев, строго доказанного корректности. Протокол также обобщает Egalitarian Paxos на весь спектр пороговых значений отказов f и e, где n ≥ max{2e+f-1, 2f+1}, что авторы доказали оптимальным.
Комментарии (48)
- Обсуждение охватывает вопросы лидерства и консенсуса: Paxos и Raft, EPaxos, EPaxos, Multi-Paxos и Multi-Raft, а также их влияние на производительность и отказоустойчивость.
- Участники обсуждают, что такое "лидер" в контексте распределённых систем, и какие у него обязанности, включая упорядочивание транзакций и обеспечение отказоустойчивости.
- Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, обрабатывают вопрос лидерства и как они влияют на производительность и отказоустойчивость системы.
- Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, влияют на производительность и отказоустойчивость системы.
- Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, влияют на производительность и отказоустойчивость системы.
Apple's "notarisation" – blocking software freedom of developers and users
Европейский закон о цифровых рынках (DMA) призван ограничить власть технологических гигантов, давая разработчикам и пользователям больше свободы выбора. Однако практика "нотаризации" Apple противоречит этим целям, сохраняя монопольный контроль над распространением приложений. FSFE присоединилась к жалобе гражданского общества, обвиняющей Apple в нарушении DMA, требуя обеспечить взаимную совместимость и альтернативные магазины приложений.
Apple требует, чтобы все приложения для iOS и iPadOS, даже те, что распространяются вне App Store, проходили обязательную "нотаризацию" — сканирование, одобрение и криптографическую повторную подпись на серверах компании. Это дает Apple полный контроль над тем, какое ПО могут устанавливать пользователи и как могут распространять его разработчики. Для создания сторонних магазинов приложений Apple требует финансового обеспечения в €1 000 000 или наличия приложения с более чем миллионом установок в год. Эти барьеры делают невозможным существование некоммерчественных магазинов свободного ПО, таких как F-Droid для Android.
Комментарии (130)
- Подписание бинарников для Windows и macOS требует дорогих токенов или HSM, что затрудняет CI/CD в облаке.
- Необходимость нотариального удостоверения (notarization) в дополнение к коду подписи вызывает споры о ценности и практичности этой процедуры.
- Пользователи отмечают, что Apple Silicon устройства компилируют быстро, но нотаризация заметно замедляет процесс.
- Участники обсуждения подчеркивают, что DMA и подобные законы не защищают пользователей, а служат интересам крупных корпораций.
Комментарии (44)
- HTMX — это не мем и не анти-JS, а просто библиотека, которая расширяет HTML без отказа от JavaScript.
- Аргумент «10 МБ WASM» сводится к «загрузка кода на клиенте — это не проблема, если использовать Service Worker.
- «Local first» не означает «без сервера», а лишь убирает синхронизацию состояния, оставляя серверную логику на клиенте.
- Под капотом HTMX остаётся обычный запрос-ответ, просто вместо JSON в DOM вставляется HTML-фрагмент.
- Дискуссия свелась к тому, что критика не в том, что HTMX плох, а в том, что пример не показывает, как реальные приложения выглядят.
Комментарии (32)
- OpenAI и Sam Altman оказались в центре обсуждений из-за заявлений о необходимости 1.4 трлн долларов инвестиций, что вызвало волну критики и подозрений в попытке получить государственную поддержку.
- Дискуссия также затронула вопрос о том, насколько OpenAI и лично Сэм Алтман могут быть заинтересованы в получении государственной помощи, несмотря на их предыдущие заявления.
- Участники обсуждения также поднимали вопрос о том, что заявления Сэма Алтмана и OpenAI о необходимости огромных инвестиций могут быть признаком того, что компания находится в более трудном положении, чем это публично признается.
- Некоторые комментаторы также выразили обеспокоенность тем, что заявления об необходимости таких огромных инвестиций могут быть способом уклонения от ответственности перед лицом кризиса, который может быть результатом чрезмерной оптимизации и нехватки прозрачности.
- Обсуждение также затронуло вопрос о том, насколько репутационные риски для OpenAI и Сэма Алтмана могут быть связаны с их заявлениями о необходимости таких огромных инвестиций.
Комментарии (126)
- Пользователи обсуждают, что DuckDuckGo и другие поисковики, включая Leta, ушли из-за нарушения TOS Google, что делает невозможным кеширование результатов поиска.
- Участники обсуждают, что качество результатов поиска ухудшилось, и что поисковые системы в целом деградируют.
- Некоторые пользователи делятся альтернативами, включая Kagi, SearxNG и Brave.
- Обсуждается, что поисковые системы в целом переживают изменения, и что компании, возможно, двигаются от поиска к другим проектам.
Immutable Software Deploys Using ZFS Jails on FreeBSD
FreeBSD с нативной поддержкой ZFS и jails предоставляет мощную основу для неизменяемых развертываний. Создавая новый jail из ZFS snapshot для каждого релиза, разработчики получают мгновенные откаты, обновления без простоя и воспроизводимые среды. Статья описывает полный процесс настройки, от базовой конфигурации jails до использования Caddy в качестве проверяемого обратного прокси перед приложениями, работающими в изолированных средах.
Архитектура использует loopback интерфейс для jails, ZFS для создания дешевых и мгновенных клонов, и Caddy для маршрутизации к здоровым jail. Каждый развертывание клонирует ZFS snapshot в новый jail, после прохождения проверок работоспособности Caddy перенаправляет трафик. Такой подход обеспечивает надежность и безопасность изоляции приложений в отдельных средах, а также упрощает управление версиями и откаты.
Комментарии (44)
- Обсуждение вращается вокруг того, что вместо использования готовых инструментов вроде ezjail или Bastille, автор статьи предлагает вручную собрать jail из архивов и конфигурировать его, что вызывает споры о целесообразности такого подхода.
- Участники обсуждения отмечают, что современные инструменты вроде Docker или LXC не предоставляют такой же степени контроля и гибкости, как ручная настройка, и что FreeBSD и так предоставляет встроенные механизмы для контейнеризации.
- Некоторые участники подчеркивают, что использование готовых инструментов может быть более удобным для пользователей, которые не знакомы с FreeBSD.
- Другие участники подчеркивают, что ручная настройка может быть более надежной и предсказуемой в контексте безопасности и контроля над обновлениями.
- В конце концов, обсуждение свелось к тому, что выбор между ручной настройкой и использованием готовых инструментов зависит от конкретных потребностей и приоритетов пользователя.
Valdi – A cross-platform UI framework that delivers native performance 🔥 Горячее 💬 Длинная дискуссия
Snapchat представил Valdi — кроссплатформенный UI-фреймворк, который обеспечивает нативную производительность без потери скорости разработки. Решение ориентировано на создание высокопроизводительных интерфейсов для мобильных и десктопных приложений, используя единый кодовый баз.
Ключевая особенность Valdi — способность достигать производительности, сопоставимой с нативными решениями, при этом сохраняя преимущества кроссплатформенности. Фреймворк призван решить проблему компромиссов между производительностью и эффективностью разработки, с которой сталкиваются команды при создании сложных UI. Snapchat позиционирует Valdi как инструмент для ускорения цикла разработки без ущерба для качества пользовательского опыта.
Комментарии (199)
- Разочарование в существующих кроссплатформенных решениях (React Native, WebView) и надежды на Valdi как альтернативу с нативной производительностью.
- Критика Valdi: сложность, отсутствие поддержки Linux/Windows, сомнения в качестве кода Snapchat и его Android-приложения.
- Альтернативные подходы: нативная разработка, Kotlin Multiplatform, PWA, а также сомнения в необходимости кроссплатформенности при наличии AI.
- Технические вопросы: отсутствие поддержки Swift, сложность нативной интеграции, сравнение с другими фреймворками (Boden, Lynx.js).
- Философский спор: стоит ли жертвовать нативным UX ради кроссплатформенности или писать UI отдельно для каждой платформы.