Developers are choosing older AI models
Разработчики все чаще выбирают старые модели ИИ вместо новых, данные показывают, что за первую неделю октября доля Sonnet 4.5 снизилась с 66% до 52%, в то время как Sonnet 4.0 выросла с 23% до 37%. Это не просто смена после обновления, а осознанный выбор моделей под конкретные задачи — новые версии ведут себя как альтернативы, а не как преемники. Sonnet 4.5 делает меньше вызовов инструментов (12.33 против 15.65), но генерирует на 37% больше контента (7.5k против 5.5k токонов), предпочитая глубокое размышление перед действием.
Модели демонстрируют специализацию: Sonnet 4.5 лучше подходит для сложных задач с длинным контекстом и автономного планирования, в то время как Sonnet 4.0 эффективен для структурированных редактирований и API-генерации. GPT-5 сохраняет стабильное использование около 10-12%, демонстрируя объяснительную гибкость. Разработчики явно выбирают модели не по новизне, а по соответствию специфическим рабочим процессам, что указывает на ранние этапы специализации в производственных средах.
Комментарии (125)
- Пользователи жалуются на постоянные изменения в моделях и интерфейсе, что вызывает стресс и вынуждает их возвращаться к предыдущим версиям.
- Стоимость и ограничения использования различных моделей варьируются непредсказуемо, что делает сложным планирование и сравнение стоимости.
- Некоторые пользователи отмечают, что новые модели не всегда лучше для их задач, и они продолжают использовать старые, если это возможно.
- Сообщество обсуждает, что отсутствие стабильности в моделях и API может быть более критичным фактором, чем отсутствие стабильности в других аспектах.
GenAI Image Editing Showdown
Недавнее сравнение генеративных ИИ для создания изображений показало значительные различия в качестве и производительности. Midjourney продолжает лидировать по художественной выразительности и детализации, особенно в сложных сценах с множеством объектов. DALL-E 3 демонстрирует лучшее понимание текстовых запросов, но уступает в скорости генерации. Stable Diffusion с открытым кодом удивил своей гибкостью, требуя при этом больше технических знаний для настройки.
Тесты на различных стилях от реализма до аниме выявили неожиданные сильные и слабые стороны каждой модели. Эксперты отметили, что Midjourney v6 генерирует изображения с более естественным освещением, в то время как DALL-E 3 лучше справляется с текстом внутри изображений. Стоимость использования также существенно различается: Midjourney требует подписки от $10 в месяц, в то время как Stable Diffusion можно использовать бесплатно, но с высокими требованиями к вычислительным мощностям.
Комментарии (39)
- Обсуждение касается теста на соответствие промпта и генерации изображений, а не редактирования изображений, что вызвало критику.
- Участники обсуждают, что модели не справляются с простыми задачами, такими как показ времени на часах или создание кенгуру.
- Также обсуждается, что модели не справляются с задачами, которые требуют точного соблюдения промпта.
- Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.
- Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.
What GPT-OSS leaks about OpenAI's training data 🔥 Горячее
Анализ весов открытой модели GPT-oss от OpenAI позволяет раскрыть детали обучающих данных, которые компания тщательно скрывает. Исследование эмбеддингов токенизатора o200k выявило группу из 936 токенов с крайне низкой L2-нормой — вероятно, они не использовались при обучении и были «подавлены» decay-регуляризацией. Среди них — служебные токены, байты Unicode и аномалии вроде токена 20373 (последовательность байтов, означающая «пограничные ворота» на мандаринском). Эта группа может помочь оценить параметры инициализации модели и общее число шагов градиентного спуска.
В «хвосте» распределения с высокой нормой обнаружились токены, связанные с кодом и логическими рассуждениями (например, «accordingly», «code», «settings»), что указывает на финальный этап обучения с упором на программирование. Но самое интересное — не-ASCII токены с высокой нормой: многие оказались фразами с спамных сайтов, порнографических ресурсов и платформ азартных игр на китайском языке («这里只有精品», «天天好彩票», «一本道高清无码»). Также найдены токены, связанные с китайским национализмом («铁血网»), что неожиданно для OpenAI с учётом геополитического контекста. Это свидетельствует о том, что в обучающие данные попал низкокачественный и политизированный контент, а токенизатор зафиксировал его перепредставленность.
Комментарии (79)
- Обсуждается использование "глитч-токенов" для идентификации моделей ИИ и их уязвимостей через анализ реакции на специфические токены.
- Подвергается сомнению утверждение о тренировке GPT-5 на данных с взрослых сайтов; скорее, фразы попали в данные через GitHub и другие опосредованные источники.
- Анализируется происхождение странных токенов (например, "xadder") как возможных опечаток, названий инструментов или артефактов из технических областей.
- Поднимается вопрос о реверс-инжиниринге закрытых моделей (Claude, GPT) для изучения их тренировочных данных и смещений, введенных до и после RLHF.
- Высказываются мнения о необходимости открытости и регулирования коммерческих моделей ИИ, включая открытие исходных кодов и данных, а также этические аспекты использования публичных данных.
Claude’s memory architecture is the opposite of ChatGPT’s 🔥 Горячее 💬 Длинная дискуссия
Как устроена память Claude
Claude начинает каждый диалог с чистого листа. Память активируется только по явному запросу: «что мы говорили о…», «вспомни наш разговор…». Система ищет не сжатые профили, а реальные прошлые чаты.
Два инструмента:
conversation_search— поиск по ключевым словам (до 10 результатов).recent_chats— хронологический доступ (до 20 чатов, можно по датам).
Пример: «Расскажи о Чандни-Чоук» → Claude находит 9 чатов, объединяет их в краткий рассказ.
Многотемный запрос («Микеланджело, Chainflip, Solana») → три последовательных поиска, 22 чата, итоговая сводка со ссылками.
Философия противоположна ChatGPT
ChatGPT: постоянное автосохранение, обобщённые заметки, «помнит всё».
Claude: ничего не хранит без спроса, полный текст диалога, «помнит по требованию».
Почему:
- ChatGPT ориентирован на бытовую автоматизацию (подарки, дедлайны).
- Claude — на исследовательские и редакторские сессии, где важна точность контекста и отсутствие «загрязнения» профиля.
Итог
Две крайности одного спектра: proactive-суммаризация vs reactive-архив. Выбор между ними = выбор между удобством и контролем.
Комментарии (212)
- ChatGPT строит «профиль пользователя» (суммаризация + эмбеддинги) и, по мнению многих, готовится к показу персонализированной рекламы; Claude пока просто ищет по истории чатов без генерации сводок.
- Половина участников отключили память: боятся «заражения» старыми галлюцинациями, слитием несвязанных тем и потери контроля над контекстом.
- Поддержка памяти в ChatGPT делится на явную (видимую в UI и вшитую в системный промпт) и скрытую (runtime-выборка из эмбеддингов всей истории).
- У Claude memory=vector-search: без построения профиля, но зато часто промахивается, если запрос не дословно совпадает с прошлым чатом.
- Технические пользователи просят внешние хранилища (MCP/API), чтобы сами решать, что и когда подтягивать; провайдеры, похоже, RL-обучают модели «прилипать» к родным механизмам памяти.