Тег: #ai-safety — Hacker News Digest

A small number of samples can poison LLMs of any size (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Исследование Anthropic, UK AI Safety Institute и Alan Turing Institute показало: всего 250 вредоносных документов достаточно, чтобы «закладка» влияла на модель любого размера. Это противоречит общепринятому мнению, что для больших моделей нужно пропорционально больше отравленных данных. Подробности: https://arxiv.org/abs/2510.07192.

by meetpateltech • 09 октября 2025 г. в 16:04 • 1132 points

Оригинал • HN

#machine-learning #ai-safety #data-poisoning #anthropic #ai-security #cybersecurity #ai-policy #llm

Комментарии (422)

Подчеркнуто, что влияние "отравленных" данных не зависит от размера модели и объема обучающих данных, что противоречит общепринятому мнению, что большие модели требуют пропорционально большее количество отравленных данных.
Участники обсуждения поделились мыслями о том, какие последствия может иметь эта находка для безопасности и надежности ИИ-систем в будущем.
Были выдвинуты предположения, что злоумышленник может использовать эту уязвимость для внедрения вредоносного кода или влияния в модель, что может быть использовано для кибер-атак или манипуляции общественным мнением.
Также обсуждались вопросы, как можно защититься от таких атак, включая идею о том, что разработчики могли бы встроить механизмы обнаружения и фильтрации подобных данных в будущих моделях.
Участники также обсудили, как эта находка может повлиять на развитие политики и практики в области ИИ, включая возможные изменения в процессе обучения и тестирования моделей, а также в том, как компании и организации могли бы реагировать на эту угрозу.

California governor signs AI transparency bill into law (gov.ca.gov) 🔥 Горячее 💬 Длинная дискуссия

Калифорния приняла первый в США закон о безопасности передовых ИИ-систем — Transparency in Frontier Artificial Intelligence Act (SB 53). Закон устанавливает «разумные ограничения» на разработку frontier-моделей, чтобы повысить безопасность и доверие к технологиям, не подавляя инновации. Это продолжение инициатив штата после публикации отчёта рабочей группы экспертов, созванной по инициативе губернатора Ньюсома.

Закон основан на научно обоснованных рекомендациях, включая баланс между прозрачностью и защитой от рисков, например утечек данных. Сенатор Скотт Винер подчеркивает, что Калифорния как мировой лидер в технологиях берёт на себя ответственность за безопасное внедрение ИИ. Штат укрепляет позиции четвёртой экономики мира, одновременно стимулируя инновации и защищая общественные интересы.

by raldi • 29 сентября 2025 г. в 20:33 • 281 points

Оригинал • HN

#artificial-intelligence #ai-safety #ai-regulation #ai-transparency #california #governor-newsom #llm

Комментарии (173)

Обсуждение касается нового закона Калифорнии об ИИ, который требует от крупных разработчиков публиковать планы безопасности и отчитываться об инцидентах.
Участники критикуют закон за размытые определения (например, что считается «моделью ИИ») и неадекватные штрафы за нарушения.
Высказываются опасения, что закон может привести к цензуре, бюрократии и оттоку ИИ-компаний из Калифорнии.
Некоторые видят в законе позитивный шаг к большей прозрачности и защите от потенциальных рисков ИИ.
Закон рассматривается как возможность для коррупции и обогащения государственных подрядчиков через создание «индустрии безопасности ИИ».

How to stop AI's "lethal trifecta" (economist.com)

—

by 1vuio0pswjnm7 • 26 сентября 2025 г. в 14:49 • 89 points

Оригинал • HN

#llm #security #access-control #rbac #ai-safety #data-security

Комментарии (96)

Обсуждается концепция "смертельной троицы" в безопасности ИИ: доступ к недоверенным данным, доступ к ценным секретам и возможность связи с внешним миром.
Предлагаемые меры защиты включают сегментацию доступа (например, подход CaMeL с раздельными доверенной и недоверенной моделями), RBAC и существующие практики безопасности.
Подчёркивается фундаментальная проблема: LLM не различают инструкции и данные, что аналогично уязвимости in-band signaling и делает полную защиту сложной.
Отмечается напряжённость между безопасностью и функциональностью: изоляция ограничивает возможности систем, а спрос на мощные AI-агенты велик.
Проводятся параллели с инженерией и критикуется подход "больше данных решит проблему", вместо которого требуется инженерное мышление и строгий контроль доступа.