Тег: #ai-models — Hacker News Digest

Developers are choosing older AI models (augmentcode.com)

Разработчики все чаще выбирают старые модели ИИ вместо новых, данные показывают, что за первую неделю октября доля Sonnet 4.5 снизилась с 66% до 52%, в то время как Sonnet 4.0 выросла с 23% до 37%. Это не просто смена после обновления, а осознанный выбор моделей под конкретные задачи — новые версии ведут себя как альтернативы, а не как преемники. Sonnet 4.5 делает меньше вызовов инструментов (12.33 против 15.65), но генерирует на 37% больше контента (7.5k против 5.5k токонов), предпочитая глубокое размышление перед действием.

Модели демонстрируют специализацию: Sonnet 4.5 лучше подходит для сложных задач с длинным контекстом и автономного планирования, в то время как Sonnet 4.0 эффективен для структурированных редактирований и API-генерации. GPT-5 сохраняет стабильное использование около 10-12%, демонстрируя объяснительную гибкость. Разработчики явно выбирают модели не по новизне, а по соответствию специфическим рабочим процессам, что указывает на ранние этапы специализации в производственных средах.

by knes • 29 октября 2025 г. в 17:08 • 130 points

Оригинал • HN

#llm #ai-models #gpt-5 #machine-learning #api #development

Комментарии (125)

Пользователи жалуются на постоянные изменения в моделях и интерфейсе, что вызывает стресс и вынуждает их возвращаться к предыдущим версиям.
Стоимость и ограничения использования различных моделей варьируются непредсказуемо, что делает сложным планирование и сравнение стоимости.
Некоторые пользователи отмечают, что новые модели не всегда лучше для их задач, и они продолжают использовать старые, если это возможно.
Сообщество обсуждает, что отсутствие стабильности в моделях и API может быть более критичным фактором, чем отсутствие стабильности в других аспектах.

GenAI Image Editing Showdown (genai-showdown.specr.net)

Недавнее сравнение генеративных ИИ для создания изображений показало значительные различия в качестве и производительности. Midjourney продолжает лидировать по художественной выразительности и детализации, особенно в сложных сценах с множеством объектов. DALL-E 3 демонстрирует лучшее понимание текстовых запросов, но уступает в скорости генерации. Stable Diffusion с открытым кодом удивил своей гибкостью, требуя при этом больше технических знаний для настройки.

Тесты на различных стилях от реализма до аниме выявили неожиданные сильные и слабые стороны каждой модели. Эксперты отметили, что Midjourney v6 генерирует изображения с более естественным освещением, в то время как DALL-E 3 лучше справляется с текстом внутри изображений. Стоимость использования также существенно различается: Midjourney требует подписки от $10 в месяц, в то время как Stable Diffusion можно использовать бесплатно, но с высокими требованиями к вычислительным мощностям.

by rzk • 26 октября 2025 г. в 02:57 • 151 points

Оригинал • HN

#midjourney #dall-e #stable-diffusion #genai #image-generation #ai-models #generative-ai

Комментарии (39)

Обсуждение касается теста на соответствие промпта и генерации изображений, а не редактирования изображений, что вызвало критику.
Участники обсуждают, что модели не справляются с простыми задачами, такими как показ времени на часах или создание кенгуру.
Также обсуждается, что модели не справляются с задачами, которые требуют точного соблюдения промпта.
Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.
Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.

What GPT-OSS leaks about OpenAI's training data (fi-le.net) 🔥 Горячее

Анализ весов открытой модели GPT-oss от OpenAI позволяет раскрыть детали обучающих данных, которые компания тщательно скрывает. Исследование эмбеддингов токенизатора o200k выявило группу из 936 токенов с крайне низкой L2-нормой — вероятно, они не использовались при обучении и были «подавлены» decay-регуляризацией. Среди них — служебные токены, байты Unicode и аномалии вроде токена 20373 (последовательность байтов, означающая «пограничные ворота» на мандаринском). Эта группа может помочь оценить параметры инициализации модели и общее число шагов градиентного спуска.

В «хвосте» распределения с высокой нормой обнаружились токены, связанные с кодом и логическими рассуждениями (например, «accordingly», «code», «settings»), что указывает на финальный этап обучения с упором на программирование. Но самое интересное — не-ASCII токены с высокой нормой: многие оказались фразами с спамных сайтов, порнографических ресурсов и платформ азартных игр на китайском языке («这里只有精品», «天天好彩票», «一本道高清无码»). Также найдены токены, связанные с китайским национализмом («铁血网»), что неожиданно для OpenAI с учётом геополитического контекста. Это свидетельствует о том, что в обучающие данные попал низкокачественный и политизированный контент, а токенизатор зафиксировал его перепредставленность.

by fi-le • 05 октября 2025 г. в 18:28 • 313 points

Оригинал • HN

#openai #llm #machine-learning #training-data #tokenization #natural-language-processing #ai-models #github #rlhf #ai-ethics

Комментарии (79)

Обсуждается использование "глитч-токенов" для идентификации моделей ИИ и их уязвимостей через анализ реакции на специфические токены.
Подвергается сомнению утверждение о тренировке GPT-5 на данных с взрослых сайтов; скорее, фразы попали в данные через GitHub и другие опосредованные источники.
Анализируется происхождение странных токенов (например, "xadder") как возможных опечаток, названий инструментов или артефактов из технических областей.
Поднимается вопрос о реверс-инжиниринге закрытых моделей (Claude, GPT) для изучения их тренировочных данных и смещений, введенных до и после RLHF.
Высказываются мнения о необходимости открытости и регулирования коммерческих моделей ИИ, включая открытие исходных кодов и данных, а также этические аспекты использования публичных данных.

Claude’s memory architecture is the opposite of ChatGPT’s (shloked.com) 🔥 Горячее 💬 Длинная дискуссия

Как устроена память Claude

Claude начинает каждый диалог с чистого листа. Память активируется только по явному запросу: «что мы говорили о…», «вспомни наш разговор…». Система ищет не сжатые профили, а реальные прошлые чаты.

Два инструмента:

conversation_search — поиск по ключевым словам (до 10 результатов).
recent_chats — хронологический доступ (до 20 чатов, можно по датам).

Пример: «Расскажи о Чандни-Чоук» → Claude находит 9 чатов, объединяет их в краткий рассказ.
Многотемный запрос («Микеланджело, Chainflip, Solana») → три последовательных поиска, 22 чата, итоговая сводка со ссылками.

Философия противоположна ChatGPT

ChatGPT: постоянное автосохранение, обобщённые заметки, «помнит всё».
Claude: ничего не хранит без спроса, полный текст диалога, «помнит по требованию».

Почему:

ChatGPT ориентирован на бытовую автоматизацию (подарки, дедлайны).
Claude — на исследовательские и редакторские сессии, где важна точность контекста и отсутствие «загрязнения» профиля.

Итог
Две крайности одного спектра: proactive-суммаризация vs reactive-архив. Выбор между ними = выбор между удобством и контролем.

by shloked • 11 сентября 2025 г. в 18:55 • 401 points

Оригинал • HN

#llm #claude #memory-architecture #conversational-ai #vector-search #embeddings #natural-language-processing #ai-models

Комментарии (212)

ChatGPT строит «профиль пользователя» (суммаризация + эмбеддинги) и, по мнению многих, готовится к показу персонализированной рекламы; Claude пока просто ищет по истории чатов без генерации сводок.
Половина участников отключили память: боятся «заражения» старыми галлюцинациями, слитием несвязанных тем и потери контроля над контекстом.
Поддержка памяти в ChatGPT делится на явную (видимую в UI и вшитую в системный промпт) и скрытую (runtime-выборка из эмбеддингов всей истории).
У Claude memory=vector-search: без построения профиля, но зато часто промахивается, если запрос не дословно совпадает с прошлым чатом.
Технические пользователи просят внешние хранилища (MCP/API), чтобы сами решать, что и когда подтягивать; провайдеры, похоже, RL-обучают модели «прилипать» к родным механизмам памяти.