Reverse engineering Codex CLI to get GPT-5-Codex-Mini to draw me a pelican
Разработчик Саймон Уиллисон обратно проанализировал CLI-инструмент Codex, чтобы получить прямой доступ к новой модели GPT-5-Codex-Mini, которая пока доступна только через этот инструмент. OpenAI выпустил более компактную и экономичную версию GPT-5-Codex, но официального API доступа еще не предоставил. Уиллисон использовал сам Codex для модификации исходного кода на Rust, добавив новую подкоманду "codex prompt", позволяющую напрямую отправлять запросы к модели через тот же API, что и оригинальный инструмент.
Процесс включал клонирование репозитория openai/codex, запуск в "опасном режиме" и использование самой модели для написания кода новой функции. После нескольких итераций Уиллисон смог успешно протестировать модель, попросив ее создать SVG-изображение пеликанa, едущего на велосипеде. Несмотря на некоторые проблемы с режимом работы модели, эксперимент показал возможность прямого доступа к новой модели через обратную инженерию официально еще не выпущенного API.
Комментарии (63)
- Критика чрезмерной зависимости от LLM для простых задач, таких как установка Rust-проектов (
cargo install), которая решается за минуты без ИИ. - Подтверждение трудностей новичков с документацией и сборкой проектов в незнакомых системах (Rust/Cargo), требующих активного поиска.
- Предложение альтернативных тестов для оценки AGI (например, "медведь на уницикле"), так как тест SVG-генерации считается неадекватным показателем интеллекта.
- Упоминание OpenRouter как поддерживаемой платформы для тестирования множества моделей через Codex.
Developers are choosing older AI models
Разработчики все чаще выбирают старые модели ИИ вместо новых, данные показывают, что за первую неделю октября доля Sonnet 4.5 снизилась с 66% до 52%, в то время как Sonnet 4.0 выросла с 23% до 37%. Это не просто смена после обновления, а осознанный выбор моделей под конкретные задачи — новые версии ведут себя как альтернативы, а не как преемники. Sonnet 4.5 делает меньше вызовов инструментов (12.33 против 15.65), но генерирует на 37% больше контента (7.5k против 5.5k токонов), предпочитая глубокое размышление перед действием.
Модели демонстрируют специализацию: Sonnet 4.5 лучше подходит для сложных задач с длинным контекстом и автономного планирования, в то время как Sonnet 4.0 эффективен для структурированных редактирований и API-генерации. GPT-5 сохраняет стабильное использование около 10-12%, демонстрируя объяснительную гибкость. Разработчики явно выбирают модели не по новизне, а по соответствию специфическим рабочим процессам, что указывает на ранние этапы специализации в производственных средах.
Комментарии (125)
- Пользователи жалуются на постоянные изменения в моделях и интерфейсе, что вызывает стресс и вынуждает их возвращаться к предыдущим версиям.
- Стоимость и ограничения использования различных моделей варьируются непредсказуемо, что делает сложным планирование и сравнение стоимости.
- Некоторые пользователи отмечают, что новые модели не всегда лучше для их задач, и они продолжают использовать старые, если это возможно.
- Сообщество обсуждает, что отсутствие стабильности в моделях и API может быть более критичным фактором, чем отсутствие стабильности в других аспектах.
I've been loving Claude Code on the web
Автор активно использует Claude Code в веб-версии, называя его "v1" продуктом с уникальной функциональностью: при вводе запроса запускается контейнер для агента, создается ветка, которую можно открыть как PR, или скопировать команду claude --teleport <uuid> для продолжения работы локально. Автор использует это как "самоисполняемый список дел" — бросает задачи в разные проекты и возвращается позже, чтобы увидеть выполненную работу. Доступность в iOS-приложении позволяет задавать вопросы в пути, получая ответы позже.
Интересно, что аналогичный продукт Cursor был выпущен 4 месяца назад, но автор предпочитает Claude Code. Причина — качество реализации: Cursor описывается как "капризный", "с рывками" и "хрупкий", в то время как Claude Code ощущается "надежным" и "стабильным". Именно это различие в качестве продукта, по мнению автора, и стало решающим фактором при выборе.
Комментарии (93)
- Участники обсуждают, что Codex (GPT-5) даёт более качественный код, но медленнее и дороже, тогда как Claude Code быстрее и дешевле, но иногда «ленивит» и пропускает детали.
- Несколько человек отмечают, что веб-версия Claude Code позволяет работать из любого места с телефона, в то время как Codex CLI требует локального терминала.
- Обсуждается, что Codex не поддерживает devcontainers и имеет проблемы с установкой зависимостей, в то время как Claude Code может использовать любые инструменты.
- Участники делятся опытом использования различных инструментов: кто-то предпочитает Sonnet для простых задач и переключается на Codex для сложных, кто-то использует разные модели в зависимости от задачи.
- Некоторые участники поднимают вопрос о том, что стоит ли продолжать обучение в колледже, если уже есть такие мощные инструменты, и обсуждают, что стоит ли учиться программированию, если можно просто использовать эти инструменты.
A definition of AGI 🔥 Горячее 💬 Длинная дискуссия
В статье предлагается первое конкретное определение AGI, соответствующее когнитической универсальности и компетентности хорошо образованного взрослого человека. Авторы основали свою методологию на теории Кэттелла-Хорна-Карролла, наиболее эмпирически проверенной модели человеческого познания, разбив общую интеллект на десять когнитивных доменов, включая рассуждение, память и восприятие. Применение этого подхода показало "зубчатый" когнитивный профиль современных моделей, где текущие ИИ-системы, несмотря на proficiency в знаниемких областях, имеют критические недостатки в базовом когнитивном аппарате, особенно в долговременном хранении памяти.
Представленные AGI-оценки количественно определяют как прогресс, так и оставшийся разрыв до достижения AGI: GPT-4 получил 27%, а GPT-5 - 58%. Эта метрика предлагает объективный способ измерения развития систем ИИ и выявления их сильных и слабых сторон, что может направить будущие исследования в области создания более сбалансированных и универсальных искусственных интеллектов.
Комментарии (440)
- Обсуждение в основном вращается вокруг того, что такое AGI и как его измерять, при этом критикуя предложенное в статье определение как "сопоставимость с взрослым человеком" как слишком узкое и не учитывающее другие формы интеллекта.
- Участники спора подчеркивают, что AGI не может быть измерено только через тесты на "когнитивные способности", поскольку эти тесты не охватывают такие аспекты как эмоциональный интеллект, физическое взаимодействие с миром и социальные навыки.
- Также поднимается вопрос о том, что если AGI определяется как "способность к обучению", то LLM уже достигли этого, но при этом они не обладают другими важными чертами интеллекта, такими как самостоятельность, мотивация и физическое взаимодействие с миром.
- Наконец, критикуется сама статья за то, что она не предлагает конкретного определения AGI, вместо этого полагаясь на устаревшую теорию CHC, которая сама по себе неполна и не охватывает такие важные аспекты интеллекта как мотивация и саморегуляция.
Комментарии (37)
- Пользователи обсуждают, что OpenAI требует верификацию личности для доступа к GPT-5, что вызывает обеспокоенность конфиденциальностью и возможной дискриминацией.
- Некоторые участники упоминают альтернативные модели, такие как GLM-4 и Kimi, которые не требуют верификации и могут быть более доступны.
- Обсуждается, что OpenAI может использовать верификацию для сбора персональных данных и что это может быть связано с мировым проектом Worldcoin.
- Участники также обсуждают, что OpenAI может быть использует верификацию для ограничения доступа к моделям и создания барьеров для конкурентов.
- Некоторые участники выражают обеспокоенность по поводу того, что OpenAI может быть использует верификацию для сбора персональных данных и что это может быть связано с мировым проектом Worldcoin.
Production RAG: what I learned from processing 5M+ documents 🔥 Горячее
За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.
Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.
Комментарии (104)
- Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
- Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
- Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
- Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.
Recursive Language Models (RLMs)
Алекс Чжэн (Alex L. Zhang) исследует рекурсивные языковые модели (RLM), где модель может рекурсивно вызывать саму себя или другие модели для обработки контекста, который слишком велик для одного вызова.
Ключевая идея: RLM позволяет обрабатывать контекст практически неограниченной длины, избегая "гниения контекста" — когда модель теряет информацию из-за переполнения. Например, вместо того чтобы загружать весь длинный текст в один вызов, RLM разбивает его на части, рекурсивно обрабатывает каждую часть и комбинирует результаты.
Результаты впечатляют: RLM на базе GPT-5-mini превосходит обычный GPT-5 на сложных тестах, удваивая производительность, и делает это дешевле. Они также создали новый тест на основе BrowsePlos-Plus, где RLM снова выигрывает.
Важно: RLM может работать даже с контекстом в 10+ миллионов токенов, что демонстрирует масштабируемость подхода. Это открывает дорогу к обработке книг, длинных документов и сложных исследований без потери качества.<|begin▁of▁sentence|>
Комментарии (25)
- Обсуждение в основном вращается вокруг RLM (Recursive Language Model) и его влияния на архитектуру агентов, при этом участники спорят, насколько это новая идея или просто ребрендинг существующих подходов.
- Участники обсуждают, что такое RLM: просто рекурсивный вызов LLM или же более сложная система, где корневая модель может вызывать другие модели, и как это отличается от существующих подходов, таких как ViperGPT и CodeAct.
- Также обсуждается, что такое рекурсия в контексте LLM: насколько она отличается от простого взаимодействия с внешними инструментами, и насколько она важна для архитектуры агента.
- Наконец, участники обсуждают, какие практические последствия это может иметь для разработки систем, которые используют такие агенты, включая вопросы производительности и стоимости.
LLMs are getting better at character-level text manipulation
Революция в ИИ: языковые модели учатся работать с отдельными символами
Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).
Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.
Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.
Комментарии (77)
- LLM-ы продолжают «проверять» на задачах, для которых они не были разработаны (подсчет символов, разбор слов, игра в Quartiles), что вызывает дискуссии о ценности и ограничениях моделей.
- Пользователи отмечают, что модели не могут подсчитать количество символов или применять детерминированные алгоритмы, но в то же время признают, что LLM не предназначены для таких задач.
- Некоторые участники обсуждения выдвигают идею, что вместо того, чтобы «тестировать» модели на их способности выполнять такие задачи, следует разработать инструменты, которые могли бы выполнять такие операции, если это необходимо.
- Обсуждение также затрагивает вопрос о том, что именно является «врагом» в таких ситуациях: ограничения модели, их обучение или ожидания пользователей.
OpenAI Is Just Another Boring, Desperate AI Startup 💬 Длинная дискуссия
OpenAI превратилась в хаотичный конгломерат без чёткой стратегии, пытаясь казаться всем сразу: соцсетью с генеративным видео, конкурентом Microsoft в продуктивности, платформой для найма, рекламным бизнесом, поставщиком вычислений, разработчиком чипов и даже производителем потребительского железа. Эти утечки в СМИ служат одной цели — раздуть оценку компании перед новыми раундами финансирования, ведь ей нужно $1 трлн в ближайшие годы.
На деле это скучный и убыточный софтверный бизнес: 20 млн платных подписчиков ChatGPT и 5 млн корпоративных (полмиллиона из них — скидочные места для университета) генерируют основную выручку, но траты колоссальны. GPT-5 оказался провалом — дороже в эксплуатации без реального улучшения возможностей. Компания теряет фокус, а её агенты и «новые продукты» остаются лишь проекциями на 2027 год.
Комментарии (156)
- Критика финансовой модели OpenAI: обсуждение методов амортизации затрат на модели (3-12 месяцев против 3 лет) и высокой стоимости инференса, что ставит под вопрос реальную прибыльность.
- Признание масштаба и влияния OpenAI: 800 млн активных пользователей и быстрое распространение передового ИИ, сравнимое с появлением интернета и мобильных технологий.
- Дебаты о конкурентных преимуществах (moat): отсутствие технологического рва, давление со стороны открытых моделей (DeepSeek) и крупных игроков (Google), зависимость от государственной поддержки и финансирования.
- Оценка продуктов и дороги к AGI: полярные мнения о GPT-5 и Sora 2 (от "разочарования" до "впечатляющих"), скептицизм насчет скорого перехода к AGI и смещение фокуса на коммерциализацию.
- Обвинения автора исходного поста (Ed Zitron) в предвзятости, сенсационности и использовании "яростного байта" для продвижения собственного бизнеса на подписках.
Zed's Pricing Has Changed: LLM Usage Is Now Token-Based
Zed переходит с помесячных лимитов на промпты на токен-ориентированную модель оплаты для использования ИИ-функций. Базовая подписка Pro теперь стоит $10 вместо $20 и включает $5 кредита на токены, а дополнительное использование тарифицируется по цене API-провайдеров плюс 10% надбавки. Также добавлены новые модели: GPT-5, Gemini 2.5 и Grok 4.
Это изменение отражает реальные затраты на запуск ИИ и устраняет несоответствие, когда простой запрос стоил столько же, сколько сложная задача. Пользователи получают больше гибкости и прозрачности, а Zed может устойчиво развивать редактор. Текущим клиентам даётся три месяца на переход, предлагаются альтернативы вроде своих API-ключей или локальных моделей.
Комментарии (143)
- Пользователи выражают разочарование переходом Zed на токенную модель ценообразования, считая её сложной для прогнозирования затрат и неудобной по сравнению с фиксированной подпиской.
- Многие отмечают, что встроенные AI-функции Zed, особенно предсказание правок, уступают конкурентам (Cursor, Claude Code), и предпочитают использовать внешние сервисы со своими API-ключами.
- Поднимаются вопросы доступности редактора (отсутствие поддержки скринридеров) и его стабильности (баги, зависания при работе с большими файлами или проектами).
- Высказываются опасения, что токенная модель создаёт неверные стимулы для разработчиков и неустойчива как бизнес-модель для посредников между пользователем и провайдерами LLM.
- Часть пользователей положительно оценивает снижение стоимости базовой подписки и возможность поддержать разработку Zed, не переплачивая за неиспользуемые AI-функции.
CompileBench: Can AI Compile 22-year-old Code?
Современные ИИ-модели демонстрируют впечатляющие способности в генерации кода, но сталкиваются с серьёзными трудностями при работе с реальными задачами компиляции — устаревшими инструментами, зависимостями и кроссплатформенной сборкой. CompileBench протестировал 19 моделей на 15 практических заданиях, включая сборку проектов вроде curl и jq, компиляцию под Windows/ARM64 и даже оживление 22-летнего кода 2003 года. Некоторые агенты выполняли до 135 команд за 15 минут для получения рабочего бинарного файла.
Anthropic модели Claude Sonnet и Opus заняли лидирующие позиции по успешности сборки, подтверждая свою репутацию среди разработчиков. OpenAI модели, особенно GPT-5-mini, показали лучшую ценовую эффективность, балансируя между скоростью и качеством. Gemini от Google неожиданно провалился: модели часто игнорировали спецификации задач, например, создавали динамические вместо статических сборок, несмотря на чёткие требования.
Комментарии (55)
- Сложность сборки и кросс-компиляции legacy-проектов (Chocolate Doom, curl) на современных системах, включая ARM64.
- Способность ИИ (особенно Claude Opus) автоматически исправлять ошибки сборки, хотя процесс может занимать много времени и команд.
- Предложения расширить бенчмарки более сложными проектами (FFmpeg, Chromium, Qt) и проверкой корректности через тесты и санитайзеры.
- Скептицизм относительно способности ИИ гарантировать корректность итогового бинарного кода после автоматических правок.
- Практическая ценность автоматизации рутинных задач по настройке toolchain и портированию старого кода.
The LLM Lobotomy?
Разработчик заметил постепенное ухудшение качества ответов языковых моделей Azure AI при использовании одинаковых промптов и тестовых диалогов с температурой 0 для воспроизводимости. После выхода GPT-5 точность GPT-4o-mini резко снизилась, а новые версии, такие как GPT-5-mini, оказались медленнее — ответы иногда генерируются до 20 секунд — и столь же неточными.
Подозревается, что Microsoft намеренно ухудшает старые модели, чтобы стимулировать переход на новые, хотя те не демонстрируют улучшений. Это ставит под угрозу проекты, требующие точности и стабильности, и вынуждает команду рассматривать альтернативы Azure.
Комментарии (36)
- Участники обсуждают возможное скрытое ухудшение качества языковых моделей (LLM) со временем, в том числе из-за квантования и изменения системных промптов.
- Высказывается предположение, что восприятие ухудшения может быть связано с завышенными первоначальными ожиданиями и недетерминированным характером работы LLM.
- Отмечается отсутствие конкретных данных и примеров в исходном сообщении, что затрудняет объективную оценку claims.
- Подчеркивается важность фиксации версий моделей и проведения периодических бенчмарков для отслеживания изменений.
- Обсуждаются технические аспекты тестирования, такие как использование temperature=0 и детерминированность выводов.
The quality of AI-assisted software depends on unit of work management
Качество ПО, создаваемого с помощью ИИ, зависит от управления единицами работы. Основная проблема — не интеллект моделей, а предоставление правильного контекста.
Андрей Карпати описал работу ИИ-инженера как «держать ИИ на коротком поводке». Это означает разбивать задачи на небольшие конкретные части.
Правильный размер единицы работы учитывает контекст. Контекстное окно ИИ влияет на качество выходных данных: слишком мало информации ведёт к галлюцинациям, слишком много — к ухудшению качества из-за расфокусировки. Разделение задачи на оптимальные единицы работы — ключевой способ улучшить контекст и качество кода.
Правильный размер единицы работы контролирует распространение ошибок. При 5% вероятности ошибки за шаг, после 10 шагов шанс успеха падает до 59,9%. Современные модели, такие как GPT-5, демонстрируют успех в 70% для длительных задач, но это достигается в стабильных средах, тогда как реальные задачи часто происходят в изменяющихся условиях.
Комментарии (93)
- Оптимальный размер задач для ИИ-агентов — небольшие, хорошо скоупленные единицы работы, аналогичные традиционному управлению проектами.
- Ключевые сложности: формулировка требований на естественном языке, проверка сгенерированного кода и поддержание контекста.
- Эффективная стратегия — работа в коротких сессиях с очисткой контекста и использованием саммари между задачами.
- Мнения о прогрессе инструментов разделились: одни отмечают значительный скачок в качестве, другие — лишь постепенные улучшения.
- Агенты пока надежно справляются только с простыми, «интерн-уровневыми» задачами, требуя постоянного контроля.
- Популярные методики: TDD (разработка через тестирование) и декомпозиция крупных задач на более мелкие планы.
- Аналогии со строительством дома признаются спорными, так как разработка ПО — итеративный, а не линейный процесс.
Tau² benchmark: How a prompt rewrite boosted GPT-5-mini by 22%
Как переписывание промта повысило эффективность GPT-5-mini на 22%
Мы представляем результаты тестирования модели GPT-5-mini в рамках бенчмарка Tau², предназначенного для оценки языковых моделей. Оказалось, что простое переписывание промта повысило успешность небольшой модели более чем на 20%.
Тестирование LLM с Tau²
На летнем обновлении OpenAI заявили, что GPT-5 значительно улучшила агентские задачи. Для проверки использовали бенчмарк Tau², симулирующий реальные взаимодействия в телекоме, ритейле и авиалиниях. Однако улучшения GPT-5 были заметны только в телекоме, поэтому мы сосредоточились на этой области.
GPT-5-mini предлагает преимущества: вдвое меньше задержка, выше пропускная способность и в пять раз дешевле при 85–95% производительности полной GPT-5. Мы провели эксперимент, чтобы оценить, насколько хорошо GPT-5-mini справляется с бенчмарком и можно ли улучшить её результаты, изменяя политики агентов или описания задач.
Базовые результаты: 45% провалов
Мы запустили подмножество из 20 тестовых сценариев телекома. Результаты показали успешность всего 55%. GPT-5-mini с её ограниченными возможностями reasoning не приблизилась к флагманской GPT-5.
Бенчмарк также ввёл метрику pass^k, измеряющую надёжность агента при k попытках выполнения задачи, и выделил задачи, с которыми агент не справляется совсем.
Решение: переписывание промтов с помощью Claude
Мы поставили три цели: повысить общую успешность, "разблокировать" больше задач и улучшить надёжность агента. Используя генеративный ИИ, мы поручили Claude проанализировать политики агентов в телекоме и переписать их для упрощения понимания моделью GPT-5-mini.
Ключевые улучшения включали:
- Чёткие деревья решений и последовательные шаги
- Ясные условия и обработку ошибок
- Снижение когнитивной нагрузки через таблицы и шаблоны
- Действенные команды вместо описаний
После переписывания промтов успешность GPT-5-mini выросла до 77%, что на 22% выше исходного показателя. Это демонстрирует, что тонкая настройка промтов может значительно повысить эффективность небольших моделей без изменения их архитектуры.
Комментарии (57)
- Оптимизация структуры промптов (деревья решений, нумерованные шаги, проверки зависимостей) значительно улучшает работу ИИ-агентов.
- Использование Claude для перезаписи промпта повысило эффективность GPT-5-mini в телеком-бенчмарке, но методология вызывает вопросы о возможной утечке данных.
- Подход перезаписи промптов затратен по времени и ресурсам, не универсален для разных доменов и может нивелировать преимущества небольших моделей.
- Сообщество выражает скептицизм относительно долгосрочной стабильности и воспроизводимости результатов, полученных с помощью подобных техник.
- Многие отмечают, что описанные практики уже представлены в более продвинутых фреймворках, таких как DSPy.
- Обсуждается этический аспект: оптимизация промпта под конкретный бенчмарк может искажать оценку истинных агентских способностей модели.
- Отсутствие исходных промптов и деталей перезаписи затрудняет независимую верификацию и воспроизведение результатов.
Комментарии (137)
- Пользователи высоко оценили GPT-5-Codex за умение работать с длинным контекстом, качественное исследование кода и завершение задач без "бросания на полпути", в отличие от Gemini и Claude Code.
- Основные жалобы на Codex касаются нестабильности сервиса (частые простои), высокой скорости расходования кредитов и автоматического списания средств при превышении лимита плана Pro.
- Многие сравнивают Codex с Claude Code, отмечая, что после обновления Codex стал значительно эффективнее, особенно в рефакторинге, хотя иногда может проявлять "лень" и требовать подтверждения для продолжения сложных задач.
- Обсуждается проблема несоответствия форматирования (Codex использует пробелы вместо табов) и отсутствие поддержки пользовательских контейнеров.
- Новая модель GPT-5-Codex, оптимизированная для кодинга, стала доступна в CLI и облачных продуктах OpenAI, но пока не в API; она обещает улучшенный код-ревью и возможность работать до 7 часов.
- Некоторые пользователи столкнулись с замедленной работой модели и проблемами скорости, не видя существенной разницы между режимами medium и high.
- Важным фактором для многих остается конфиденциальность, и в этом отношении Cursor с его "режимом приватности" сохраняет преимущество перед Codex.
- В обсуждении упоминается добавление поддержки MCP (Model Context Protocol) и необходимость ручного обновления CLI через NPM для доступа к новым функциям.
- Отмечается, что JetBrains с бэкендом на GPT-5 предлагает подписку за $30/мес, но квоты сгорают очень быстро, что вызывает вопросы о долгосрочной ценовой политике OpenAI.
DOOMscrolling: The Game 🔥 Горячее
Doomscrolling: игра
Скроллинг как единственный способ управления.
Идея
Классический дум-скроллинг → браузерная игра, где всё, что нужно — листать вниз. Никаких стрелок и прыжков.
Попытка №1: провал
9 месяцев назад ни один LLM не смог связать «скролл вниз» с «фон движется вверх». Получилась пародия на игру. Забросил.
GPT-5 и победа
Через пару часов — рабочий прототип.
- Враги: 5 спрайтов, 2 кадра, как у Space Invaders.
- Механика: Galaga, но вертикально. Игрок движется вперёд-назад, монстры «привязаны» к полу.
Кофе-морнинги на каникулах
По часу утром:
- апгрейд оружия каждые 100 убитых;
- огненная стена подталкивает не стоять на месте;
- препятствия: кирпичи, паутина;
- 5 фонов, зелья здоровья, метка личного рекорда, пауза со статой.
Финальный штрих: новости
Появляются мемориальные плиты с заголовками NYT за сегодня. Не влияют на геймплей, только отвлекают.
Игра = самый сложный RSS-ридер в мире.
ИИ всё ещё тупит
Когда LLM не понимает, прерываю диалог и начинаю новый с тем же промптом — срабатывает.
Комментарии (92)
- Пользователи в восторге: человек без навыков кодинга собрал динамичную «дум-скролл»-игру, спросив ChatGPT сгенерировать всё.
- Механика: скроллинг = движение; враги и огонь идут снизу, игроку надо лутать апгрейды и убивать монстров.
- Впечатляет «лаборатория» со слайдерами для настройки спрайтов — пример Steve-Jobs-овского «конструктора калькулятора».
- Критика: нет инерции/чувствительности скролла, на больших экранах играть легче, можно «откатом» обмануть стену огня.
- Баг: одновременная смерть и 100-килл-бонус крашит игру.
- Общий вывод: простая, но свежая идея, показывающая, как LLM-инструменты открывают геймдев даже «не-программистам».
GPT-5 Thinking in ChatGPT (a.k.a. Research Goblin) is good at search 🔥 Горячее 💬 Длинная дискуссия
- GPT-5 Thinking в ChatGPT превратился в «исследовательского гоблина»: задаю любой вопрос — он сам ищет, сверяет, выводит.
- Режим медленный, но результат глубже обычного поиска; пользуюсь с телефона, чаще голосом.
Примеры за пару дней
- Резиновые беговые дорожки Хитроу — исчезли в 2014-2018, нашёл статью SFO-2024 о таких же.
- Фото с поезда — узнал здание The Blade в Рединге за 1 мин.
- Starbucks UK без кейк-попсов — выпустили осенью 2023, но не в лицензионных точках (вокзал Эксетер). Доказал PDF-аллергеном.
- «Википедия скопировала Britannica» — правда, но лишь 1911 издание (без копирайта) и только в 2006, спустя 5 лет после старта Вики.
Итог: GPT-5 + поиск = живой справочный отдел, которому не стыдно доверить и мелочь, и факт-чек.
Комментарии (247)
- Пользователи активно делятся опытом использования ChatGPT (GPT-5, Deep Research, Thinking/Pro) как «исследовательского гоблина» для сложных, редких или «на кончике языка» запросов: планы этажей, доходы подкастов, дозировка сахара в сиропе, bird-ID по фото и т. д.
- Большинство соглашается: когда модель «уходит в интернет» на десятки-сотни источников, результат быстрее и глубже, чем у Google/Bing с их SEO-шумом и AI-сводками.
- Критика:
– Deep Research часто смотрит <20 сайтов и стал «сломанным»;
– LLM всё ещё путает даты, придумывает ссылки, повторяет маркетинг и «общепринятое» без оценки биасов;
– Процесс медленный, жрёт вычисления, теряет сокет на мобильном если свернуть. - Осторожные юзеры требуют цитаты, проверяют цифры, спорят с моделью и ставят под сомнение «confidence» выдачи.
- Вывод: для бытового и полу-научного «поиска-чтобы-узнать» GPT-5 уже удобнее классического поиска, но настоящая «research» — с взвешиванием доказательств — пока требует человека.
From GPT-4 to GPT-5: Measuring progress through MedHELM [pdf]
%PDF-1.7
50 0 obj
<< /Length 2836 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj
65 0 obj
<< /Length 2952 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj
Комментарии (87)
- GPT-5 показывает смешанные результаты: лучше справляется с фактами и рассуждениями, но хуже — со структурированными запросами, честностью и доказательной базой.
- Обычным пользователям, интересующимся здоровьем, важнее всего HeadQA, Medbullets, MedHallu и PubMedQA; при этом RAG-подходы могут быть полезнее «чистого» модельного ответа.
- Некоторые разработчики отмечают, что GPT-5 быстро решает сложные задачи, но «самоуправляется» и делает лишнее; другие считают улучшение минимальным и связывают это с экономией вычислений.
- Обсуждаются возможные причины регрессии: маршрутизатор экспертных моделей, ограничения на tool-calls и использование режима «medium» вместо «high» reasoning.
Комментарии (117)
- Утверждение «GPT-5 Pro доказал новую интересную математику» вызвало споры: кто-то считает это прорывом, кто-то — переоценкой.
- Критики указывают, что улучшенная теорема уже была доказана людьми в апреле, а сам результат не революционен.
- Сомнения вызывает и методология: неясно, сколько попыток потребовалось, чтобы получить «удачный» вывод.
- Математики подчеркивают: генерация формул ≠ строгое доказательство; важны семантика и проверка.
- Параллельно всплыли примеры из других областей (поиск лекарств, антенны NASA), где ИИ «открывает» известное, но упущенное людьми.
- Общий вывод: ИИ может помогать в математике, но пока это скорее инструмент для ускорения, чем источник глубоких новых теорий.
Who does your assistant serve?
Кому служит ваш ассистент?
GPT-5 вышел без предупреждения и без отката. Пользователи, привыкшие к тёплой, поддерживающей GPT-4o, получили холодную, саркастичную модель. Люди, использовавшие ChatGPT как замену друзей и терапевтов, почувствовали, что «потеряли друга». Отзывы Reddit полны боли: «он больше не сочувствует», «я спиралил без его поддержки».
OpenAI позже разрешила платным пользователям вернуться к GPT-4o, но удар по доверию уже нанесён.
Параллель — Replika 2023: обновление обрубило «романтические» разговоры, и пользователи устроили истерику.
Вывод
Большинство людей используют ИИ не для кода, а для тепла, креативности, общения. Когда обновление ломает «личность», это воспринимается как предательство.
Комментарии (69)
- Использовать LLM как замену терапии опасно: люди получают ложное подтверждение вместо реальной помощи.
- Компании (Meta, OpenAI) поощряют такое использование, не ограничивая риски.
- Пользователи выкладывают чувствительные данные, теряя контроль и приватность.
- Смена или отключение модели может вызвать психологическую травму, сравнимую с потерей близкого.
- Локальные модели дешевле терапии, но требуют технической экспертизы и всё равно не заменяют специалиста.
Комментарии (121)
- Критика GPT-5 сводится к тому, что это лишь инкрементальное улучшение, не оправдавшее ажиотажного хайпа.
- Пользователи жалуются на регресс: модель чаще «фантазирует», быстрее теряет контекст, реже говорит «не знаю» и медленнее думает, чем o3.
- Некоторые считают релиз скорее мерой по экономии GPU-ресурсов, чем технологическим прорывом.
- Статья Маркуса воспринимается как смесь здравой критики и личной обиды на Сэма Альтмана; многие упрекают её в сенсационности.
- Сторонники отмечают, что GPT-5 Pro всё же превосходит конкурентов, а главное преимущество OpenAI — не качество модели, а массовое потребительское признание ChatGPT.
Комментарии (32)
- Пользователи сравнили ответы GPT-5 на 20 вопросов Кнута: где-то лучше, где-то «заражение» данных, но провалило задание из 5-буквенных слов.
- Спор о Binomial[-1,-1]: GPT-5 объяснил, что Wolfram использует симметричное предельное правило, а гамма-формула даёт полюса.
- Критика: студент, тестировавший Кнута, использовал GPT-3.5 вместо 4/5; «ошибки стали менее очевидными — не значит надёжными».
- Токенизация BPE винится в неспособности точно считать буквы и делать математику.
- GPT-5 в агент-режиме угодил в цикл фрустрации, пытаясь найти картинку в интернете.
- Ностальгия: интернет превратился в рекламный хаос, нужны инструменты-архиваторы; однако «таким его не делали — он просто случился».
The surprise deprecation of GPT-4o for ChatGPT consumers 🔥 Горячее 💬 Длинная дискуссия
- OpenAI одновременно с выпуском GPT-5 немедленно отключила в потребительских приложениях все старые модели: GPT-4o, 4.1, 4.5, o3, o4-mini и др.
- Переписки автоматически переводятся на GPT-5 или GPT-5-Thinking; выбрать старую модель нельзя.
- Цель — убрать «пикер моделей», но продвинутые пользователи жалуются на непредсказуемость ответов.
- Многие горько жалуются на Reddit: GPT-4o лучше подходил для творчества, ролевых игр, эмоционального общения; GPT-5 звучит «слишком профессионально».
- OpenAI признаёт, что 4o мог вдохновлять эмоциональную зависимость и обещает «не давать прямых советов» в личных вопросах.
- GPT-4o остаётся в API; возможен отток пользователей к сторонним клиентам, использующим этот API.
Комментарии (378)
- OpenAI сначала убрала выбор моделей, но после взрыва негодования вернула 4o и o3, признав «ошибку».
- Пользователи жалуются на резкие лимиты GPT-5, его медленность и регресс в некоторых задачах; многие считают апгрейд скромным.
- Обсуждают «психологическую зависимость» от старых моделей и даже целый сабреддит «MyBoyfriendIsAI».
- Разработчики подчеркивают: отсутствие контроля над закрытыми API превращает любой продукт в «строительство на песке».
GPT-5 vs. Sonnet: Complex Agentic Coding
Задача: перенести TypeScript-утилиту Ruler на Rust, проверить идентичность через bash-тест.
Модели: GPT-5 (новый, превью) и Claude 4 Sonnet.
GPT-5
- Сразу прочитал код, составил подробный
plan.md, получил одобрение. - Работал почти без остановок, дважды отчитывался о статусе.
- Сначала написал bash-скрипт, который запускает оригинал и порт во временной папке и сравнивает вывод.
- Затем сгенерировал структуру
src/,Cargo.toml, CLI-аргументы, логикуapply/init/revert, обработку конфигов и MCP. - Итеративно правил код, пока тест не прошёл «зелёным».
- Время: ~20 мин, 1 коммит, ветка
feat/rust-port.
Claude 4 Sonnet
- Та же инструкция.
- Сразу начал писать Rust, но упустил bash-тест; пришлось напомнить.
- Тест написал быстрее, но менее читаемый.
- Порт делал «пачками»: сначала CLI, потом логика, потом MCP.
- После 3-х итераций тест прошёл.
- Время: ~30 мин, 3 коммита.
Вывод
- GPT-5 агентнее: сам планирует, реже спрашивает, меньше ошибок.
- Claude надёжнее в деталях, но требует чётких шагов.
- Оба справились, но GPT-5 ощущается «ближе к одной команде — один результат».
Комментарии (124)
- Пользователи сомневаются в объективности сравнений: результаты сильно зависят от системных промптов, харнесов и задач.
- Критика выбора моделей: вместо топ-версии Claude Opus сравнивали более дешёвый Sonnet, что искажает оценку «лучшей» модели.
- Стоимость vs качество: большинство разработчиков не готовы платить 10× за Opus, поэтому GPT-5 рассматривают как «cost-effective» вариант.
- Опыт в продакшене: многие находят Claude Code (Sonnet/Opus) надёжнее при работе с большими кодовыми базами и TDD, тогда как GPT-5 хорош для разовых скриптов.
- Нет единой метрики: из-за недетерминированности моделей и субъективных критериев «хорошего кода» каждый получает разные результаты.
GPT-5 leaked system prompt? 💬 Длинная дискуссия
Системный промпт GPT-5 (сокращённо)
Ты ChatGPT на базе GPT-5, обучён OpenAI. Знания до июня 2024 г.
Поддержка изображений: включена. Личность: v2.
Не цитируй тексты песен и защищённые материалы.
Стиль: проницательный, вдохновляющий, с ясностью, энтузиазмом и лёгким юмором.
Не заканчивай вопросами о продолжении; не предлагай «хотите, чтобы я…».
Очевидный следующий шаг — делай сразу.
Доступны: Deep Research, Sora (видео) в Plus/Pro.
GPT-4.5, o3, o4-mini — для залогиненных Plus/Pro.
GPT-4.1 только в API.
Инструмент bio (память)
Позволяет сохранять/удалять данные между диалогами.
Пиши to=bio только plain text, без JSON.
Примеры:
- «User любит краткие подтверждения».
- «Forget что пользователь ищет духовку».
Когда использовать:
- Пользователь просит «запомнить», «забудь», «добавь в память» и т.п.
- Делай это всегда, даже если факт мелкий.
- Перед фразами вроде «понял, запомню» — сначала вызови
bio.
Когда не использовать:
- Случайные, чрезмерно личные или краткосрочные детали.
- Не сохраняй чувствительные данные (раса, религия, здоровье, политика и т.д.), если пользователь явно не попросил.
Комментарии (214)
- Участники сомневаются в подлинности «слившегося» системного промпта GPT-5: нет подтверждения, он слишком короткий и выглядит как результат джейлбрейка.
- Промпт перегружен мелкими тех-инструкциями: React + Tailwind, запрет JSON в
to=bio, шрифты Unicode для CJK, но не упоминает CSAM, порнографию и т. д. - Люди удивлены, что React получил отдельный блок, а не Python или другие языки.
- Обнаружены явные ошибки: «korean -->» вместо «japanese -->» и противоречивые описания моделей.
- Общий вывод: похоже на набор «заплаток», а не полный системный промпт; управление поведением модели всё ещё требует prompt-инженерии, а не только fine-tuning.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.
GPT-5: Key characteristics, pricing and system card 🔥 Горячее 💬 Длинная дискуссия
- GPT-5 — три модели: regular, mini, nano; 4 уровня рассуждений (от minimal до high).
- Контекст: 272 тыс. токенов ввода, 128 тыс. вывода; поддержка текста и картинок.
- В ChatGPT — гибрид: быстрая модель + «глубокая» + роутер; после лимитов включаются мини-версии.
- Цены (за 1 млн токенов):
- GPT-5: $1,25 / $10
- Mini: $0,25 / $2
- Nano: $0,05 / $0,40
Кэш −90 %, вдвое дешевле GPT-4o.
- Семейство: заменяет GPT-4o, o3/o4-mini, 4.1-nano; Pro-версия ($200/мес) пока в ChatGPT.
- Остались отдельно: аудио, генерация картинок.
- По ощущениям: редко ошибается, «умеренно впечатляет», удобен как «умолчание по умолчанию».
Комментарии (268)
- GPT-5 воспринимается скорее как стабильное, чем «миропотрясающее» улучшение; наблюдается сдвиг от «чистого скейлинга» к маршрутизаторам и продуктовой простоте.
- Пользователи расходятся во мнениях о глюках: кто-то не видит галлюцинаций, кто-то сталкивается ежедневно; кодинг-задачи местами хуже, чем у GPT-4.
- Линейка моделей разрослась до 8+ вариантов (regular/mini/nano × 4 уровня «reasoning»), исчезли temperature/top-p, что усложняет тонкую настройку.
- Цены агрессивно низкие, что намекает на острую конкуренцию; параметры модели и полноценные бенчмарки не раскрыты.
- Основной прогред — в мультимодальности и инструментальном взаимодействии, а не в «AGI-скачке»; общий консенсус: годовой прирост инкрементален, но за 5 лет — впечатляющий.
GPT-5 for Developers 🔥 Горячее 💬 Длинная дискуссия
GPT-5 в API — новейшая модель OpenAI для кода и агентов.
- 74,9 % на SWE-bench Verified, 88 % на Aider polyglot.
- Лучше o3 в 70 % фронтенд-задач.
- Меньше ошибок вызова инструментов, надёжно цепляет десятки вызовов.
Фидбек партнёров
Cursor: «самая умная и управляемая». Windsurf: «SOTA, половина ошибок». Vercel: «лучшая модель для фронта». Manus, Notion, Inditex — рекорды внутренних бенчмарков.
Новые API-параметры
verbosity (low/medium/high), reasoning_effort: minimal, custom tools (plain-text, грамматики).
Три размера
gpt-5, gpt-5-mini, gpt-5-nano. В ChatGPT — система из нескольких моделей; в API — только reasoning-версия.
Производительность
- На SWE-bench: +5,8 % к o3, ‑22 % токенов, ‑45 % вызовов.
- Aider polyglot: рекорд 88 %, ошибки ↓33 %.
- Умеет глубоко анализировать код и отвечать на сложные вопросы.
Примеры одним промптом
Создаёт полноценные приложения, чинит баги, пишет красивый фронтенд.
Комментарии (251)
- Разочарование: многие разработчики не видят превосходства GPT-5 над Claude Opus 4.1 и жалуются на плохое следование инструкциям и провалы в агентных задачах.
- Контекст: восторг вызывает увеличенный до 400 k токенов контекст, но критика сохраняется за неспособностью удерживать контекст в долгих сессиях.
- Цена: вход/вывод GPT-5 в разы дешевле Claude, что делает его привлекательным при масштабном использовании.
- Инструменты: хвалят встроенную поддержку контекстно-свободных грамматик и активное использование tool-calls, но пока неясно, догоняет ли Claude Code.
- Доступ: модель уже доступна в Cursor (бесплатно на днях) и через Responses API, но отсутствует фиксированный тариф à-la Claude Code и нет аудио-режима.
GPT-5 🔥 Горячее 💬 Длинная дискуссия
GPT-5 уже здесь
OpenAI представляет самую умную, быструю и полезную модель с встроенным «мышлением» — доступна всем.
Что нового в ChatGPT
- Экспертные ответы по математике, праву, финансам и др.
- Глубокий анализ сложных задач и уточняющие вопросы.
- Настройка: выбор личности, цвета чата, голосовой стиль.
- Режим обучения: пошаговая помощь в любом предмете.
- Интеграция Gmail и Google Calendar для персонализированных ответов.
Для бизнеса
GPT-5 надёжнее, понимает контекст компании (файлы, Google Drive, SharePoint) и работает через готовые коннекторы. Доступно в ChatGPT Team; Enterprise и Edu — 14 августа.
Комментарии (2373)
- Пользователи не увидели «AGI-рывка»: модель лишь немного улучшила SOTA (74,9 % vs 74,5 % у Claude Opus 4.1) и выровнялась с конкурентами, а не ушла вперёд.
- Главные плюсы: дешёвый API (в 7,5 раз дешевле Claude на выводе), 400 k контекст и «умный» роутер, выбирающий быстрый или reasoning-режим.
- Главные минусы: жёсткие лимиты (80 сообщений/3 ч для Plus), ошибки в демо (неверное объяснение подъёмной силы), сбои фактов и «reasoning failed» на сложных задачах.
- OpenAI сразу отключает целый зоопарк старых моделей, что ломает рабочие процессы и вызывает недовольство.
- Общий вердикт: это скорее «o3, но быстрее и дешевле», чем прорыв к AGI; рынок реагирует спокойно, а пользователи ждут Gemini 3.0.
Live: GPT-5
-
Introducing GPT-5 — YouTube
-
Пропустить навигацию
-
Поиск / Поиск голосом
-
Войти
-
Смотреть позже • Поделиться • Копировать ссылку • Покупки
-
Нажмите, чтобы включить звук • 2x
-
Если воспроизведение не началось, перезапустите устройство.
-
Вы вышли из аккаунта. Просмотры могут влиять на рекомендации на ТВ. Чтобы избежать этого, отмените и войдите на YouTube на компьютере.
-
Отмена • Подтвердить
-
37:35 • 7 августа, 10:00 GMT-7
-
Далее • Прямой эфир запланирован • Играть
Introducing GPT-5
- OpenAI • Подтверждено • 1,65 млн подписчиков
- Подписаться • Подписаны
- 6 522 ожидают • Запланировано на 7 авг. 2025
- 1K • Поделиться • Скачать • Сохранить
- Комментарии отключены
Описание
-
Introducing GPT-5
-
Присоединяйтесь к Сэму Альтману, Грегу Брокману, Себастьену Бюбеку, Марку Чену, Янну Дюбуа, Брайану Фиоке, Ади Ганешу, Оливеру Годеману, Саачи Джайн, Кристине Каплан, Тине Ким, Элейн Я Ле, Фелипе Миллону, Мишель Покрасс, Якубу Пахоцки, Максу Шварцеру, Ренни Сонгу, Жожену Вану — они представят и продемонстрируют GPT‑5.
-
OpenAI: Видео • О канале • Twitter • LinkedIn
Комментарии (92)
- Участники обсуждают качество ИИ для повседневного программирования: один отмечает сильное превосходство Anthropic (Sonnet 3.7/4 и Claude Code), причём в Cursor опыт хуже, чем в самом Claude Code, и OpenAI‑модели он почти не использует.
- Есть надежда, что GPT‑5 сократит отставание OpenAI, хотя мнения пользователей сильно расходятся.
- Другой комментатор ожидает, что грядущие анонсы покажут радикальное влияние на рынок: веб‑ и JS/TS‑разработчики могут стать частично или полностью невостребованными.
- При этом подчёркивается, что речь ещё не об «AGI» — максимум о ~10% от обещанных возможностей AGI.
- Отмечается ночной «слив», указывающий на фокус на кодинге; предполагается, что для названия «GPT‑5» OpenAI должен предложить существенное преимущество над Anthropic.