Hacker News Digest

Тег: #ai-safety

Постов: 3

A small number of samples can poison LLMs of any size (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Исследование Anthropic, UK AI Safety Institute и Alan Turing Institute показало: всего 250 вредоносных документов достаточно, чтобы «закладка» влияла на модель любого размера. Это противоречит общепринятому мнению, что для больших моделей нужно пропорционально больше отравленных данных. Подробности: https://arxiv.org/abs/2510.07192.

by meetpateltech • 09 октября 2025 г. в 16:04 • 1132 points

ОригиналHN

#machine-learning#ai-safety#data-poisoning#anthropic#ai-security#cybersecurity#ai-policy#llm

Комментарии (422)

  • Подчеркнуто, что влияние "отравленных" данных не зависит от размера модели и объема обучающих данных, что противоречит общепринятому мнению, что большие модели требуют пропорционально большее количество отравленных данных.
  • Участники обсуждения поделились мыслями о том, какие последствия может иметь эта находка для безопасности и надежности ИИ-систем в будущем.
  • Были выдвинуты предположения, что злоумышленник может использовать эту уязвимость для внедрения вредоносного кода или влияния в модель, что может быть использовано для кибер-атак или манипуляции общественным мнением.
  • Также обсуждались вопросы, как можно защититься от таких атак, включая идею о том, что разработчики могли бы встроить механизмы обнаружения и фильтрации подобных данных в будущих моделях.
  • Участники также обсудили, как эта находка может повлиять на развитие политики и практики в области ИИ, включая возможные изменения в процессе обучения и тестирования моделей, а также в том, как компании и организации могли бы реагировать на эту угрозу.

California governor signs AI transparency bill into law (gov.ca.gov) 🔥 Горячее 💬 Длинная дискуссия

Калифорния приняла первый в США закон о безопасности передовых ИИ-систем — Transparency in Frontier Artificial Intelligence Act (SB 53). Закон устанавливает «разумные ограничения» на разработку frontier-моделей, чтобы повысить безопасность и доверие к технологиям, не подавляя инновации. Это продолжение инициатив штата после публикации отчёта рабочей группы экспертов, созванной по инициативе губернатора Ньюсома.

Закон основан на научно обоснованных рекомендациях, включая баланс между прозрачностью и защитой от рисков, например утечек данных. Сенатор Скотт Винер подчеркивает, что Калифорния как мировой лидер в технологиях берёт на себя ответственность за безопасное внедрение ИИ. Штат укрепляет позиции четвёртой экономики мира, одновременно стимулируя инновации и защищая общественные интересы.

by raldi • 29 сентября 2025 г. в 20:33 • 281 points

ОригиналHN

#artificial-intelligence#ai-safety#ai-regulation#ai-transparency#california#governor-newsom#llm

Комментарии (173)

  • Обсуждение касается нового закона Калифорнии об ИИ, который требует от крупных разработчиков публиковать планы безопасности и отчитываться об инцидентах.
  • Участники критикуют закон за размытые определения (например, что считается «моделью ИИ») и неадекватные штрафы за нарушения.
  • Высказываются опасения, что закон может привести к цензуре, бюрократии и оттоку ИИ-компаний из Калифорнии.
  • Некоторые видят в законе позитивный шаг к большей прозрачности и защите от потенциальных рисков ИИ.
  • Закон рассматривается как возможность для коррупции и обогащения государственных подрядчиков через создание «индустрии безопасности ИИ».

How to stop AI's "lethal trifecta" (economist.com)

by 1vuio0pswjnm7 • 26 сентября 2025 г. в 14:49 • 89 points

ОригиналHN

#llm#security#access-control#rbac#ai-safety#data-security

Комментарии (96)

  • Обсуждается концепция "смертельной троицы" в безопасности ИИ: доступ к недоверенным данным, доступ к ценным секретам и возможность связи с внешним миром.
  • Предлагаемые меры защиты включают сегментацию доступа (например, подход CaMeL с раздельными доверенной и недоверенной моделями), RBAC и существующие практики безопасности.
  • Подчёркивается фундаментальная проблема: LLM не различают инструкции и данные, что аналогично уязвимости in-band signaling и делает полную защиту сложной.
  • Отмечается напряжённость между безопасностью и функциональностью: изоляция ограничивает возможности систем, а спрос на мощные AI-агенты велик.
  • Проводятся параллели с инженерией и критикуется подход "больше данных решит проблему", вместо которого требуется инженерное мышление и строгий контроль доступа.