A small number of samples can poison LLMs of any size 🔥 Горячее 💬 Длинная дискуссия
Исследование Anthropic, UK AI Safety Institute и Alan Turing Institute показало: всего 250 вредоносных документов достаточно, чтобы «закладка» влияла на модель любого размера. Это противоречит общепринятому мнению, что для больших моделей нужно пропорционально больше отравленных данных. Подробности: https://arxiv.org/abs/2510.07192.
Комментарии (422)
- Подчеркнуто, что влияние "отравленных" данных не зависит от размера модели и объема обучающих данных, что противоречит общепринятому мнению, что большие модели требуют пропорционально большее количество отравленных данных.
- Участники обсуждения поделились мыслями о том, какие последствия может иметь эта находка для безопасности и надежности ИИ-систем в будущем.
- Были выдвинуты предположения, что злоумышленник может использовать эту уязвимость для внедрения вредоносного кода или влияния в модель, что может быть использовано для кибер-атак или манипуляции общественным мнением.
- Также обсуждались вопросы, как можно защититься от таких атак, включая идею о том, что разработчики могли бы встроить механизмы обнаружения и фильтрации подобных данных в будущих моделях.
- Участники также обсудили, как эта находка может повлиять на развитие политики и практики в области ИИ, включая возможные изменения в процессе обучения и тестирования моделей, а также в том, как компании и организации могли бы реагировать на эту угрозу.
California governor signs AI transparency bill into law 🔥 Горячее 💬 Длинная дискуссия
Калифорния приняла первый в США закон о безопасности передовых ИИ-систем — Transparency in Frontier Artificial Intelligence Act (SB 53). Закон устанавливает «разумные ограничения» на разработку frontier-моделей, чтобы повысить безопасность и доверие к технологиям, не подавляя инновации. Это продолжение инициатив штата после публикации отчёта рабочей группы экспертов, созванной по инициативе губернатора Ньюсома.
Закон основан на научно обоснованных рекомендациях, включая баланс между прозрачностью и защитой от рисков, например утечек данных. Сенатор Скотт Винер подчеркивает, что Калифорния как мировой лидер в технологиях берёт на себя ответственность за безопасное внедрение ИИ. Штат укрепляет позиции четвёртой экономики мира, одновременно стимулируя инновации и защищая общественные интересы.
Комментарии (173)
- Обсуждение касается нового закона Калифорнии об ИИ, который требует от крупных разработчиков публиковать планы безопасности и отчитываться об инцидентах.
- Участники критикуют закон за размытые определения (например, что считается «моделью ИИ») и неадекватные штрафы за нарушения.
- Высказываются опасения, что закон может привести к цензуре, бюрократии и оттоку ИИ-компаний из Калифорнии.
- Некоторые видят в законе позитивный шаг к большей прозрачности и защите от потенциальных рисков ИИ.
- Закон рассматривается как возможность для коррупции и обогащения государственных подрядчиков через создание «индустрии безопасности ИИ».
Комментарии (96)
- Обсуждается концепция "смертельной троицы" в безопасности ИИ: доступ к недоверенным данным, доступ к ценным секретам и возможность связи с внешним миром.
- Предлагаемые меры защиты включают сегментацию доступа (например, подход CaMeL с раздельными доверенной и недоверенной моделями), RBAC и существующие практики безопасности.
- Подчёркивается фундаментальная проблема: LLM не различают инструкции и данные, что аналогично уязвимости in-band signaling и делает полную защиту сложной.
- Отмечается напряжённость между безопасностью и функциональностью: изоляция ограничивает возможности систем, а спрос на мощные AI-агенты велик.
- Проводятся параллели с инженерией и критикуется подход "больше данных решит проблему", вместо которого требуется инженерное мышление и строгий контроль доступа.