Hacker News Digest

Тег: #qwen3

Постов: 4

Evaluating LLMs for my personal use case (darkcoding.net)

Краткий итог тестов LLM для личных задач

  • Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
  • Данные: 130 реальных запросов из bash-истории, разбитые на программирование, администрирование, объяснения, общие знания.
  • Платформа: OpenRouter через собственный Rust-клиент ort.
  • Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.

Выводы

  • Почти все модели справляются; различия в качестве минимальны.
  • Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
  • Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
  • Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
  • Победители по категориям
    • Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
    • Сисадмин: Gemini 2.5 Flash.
    • Объяснения: Qwen3 235B.
    • Общие знания: GPT-OSS-120B.

Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».

by goranmoomin • 24 августа 2025 г. в 00:40 • 83 points

ОригиналHN

#rust#python#linux#openrouter#claud-4-sonnet#deepseek-chat-v3#gemini#gpt-oss#qwen3#glm-4.5

Комментарии (28)

  • Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
  • Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
  • Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
  • Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
  • Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 (magazine.sebastianraschka.com) 🔥 Горячее

  • gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
  • Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
  • Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
  • Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
  • Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
  • GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.

by ModelForge • 10 августа 2025 г. в 15:06 • 450 points

ОригиналHN

#gpt-oss#qwen3#gpt-2#rope#swiglu#mofe#mxfp4#machine-learning#deep-learning#natural-language-processing

Комментарии (95)

  • GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
  • На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
  • GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
  • Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
  • Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.

GPT-5: "How many times does the letter b appear in blueberry?" (bsky.app) 🔥 Горячее 💬 Длинная дискуссия

by minimaxir • 08 августа 2025 г. в 02:51 • 261 points

ОригиналHN

#gpt-5#gpt-4o#claude#qwen3#bsky.app#nlp#tokenization#llm

Комментарии (234)

  • GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
  • Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
  • При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
  • Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.

Hacking Diffusion into Qwen3 for the Arc Challenge (matthewnewton.com)

Краткий обзор
Повторяя подход победителей ARC-2024, я заметил: чем меньше модель уверена в пикселе, тем выше шанс ошибки. Авторегрессия заставляет «писать» решение слева-направо, как печатать на машинке без возврата.

Я переделал Qwen3-8B в диффузионный режим: сначала заполняем «лёгкие» токены, потом сложные. На 10 шагах модель быстрее и точнее по пикселям, но решает не больше задач. На 30 шагах точность совпадает с базовой, а время выше — из-за отсутствия кеширования.

Как работает генерация

  1. Кодируем вход как обычный LLM.
  2. Случайно маскируем 80 % выходных токенов.
  3. На каждом шаге модель предсказывает маскированные токены; выбираем наиболее вероятные и «размаскиваем».
  4. Повторяем, пока не останется масков.

Почему +1 % к пикселям ≠ +1 % к задачам
ARC требует абсолютного совпадения всей сетки. Даже 1 ошибка = 0 баллов. Диффузия чаще «почти» правильна, но «почти» не считается.

Технические детали

  • Архитектура: обычный декодер → полносвязный «энкодер» без кэша.
  • Обучение: 1 эпоха, lr 5e-5, batch 64, маскирование 80 %, аугментации поворот/отражение.
  • Данные: 400 задач ARC + 800 синтетических, длина фиксирована 4096 токенов.

Результаты на eval-2025

Метод Время Точн. токенов Решено задач
Авторегрессия 94 % 21 %
Диффузия 10 шагов 0.6× 95 % 19 %
Диффузия 30 шагов 1.3× 94 % 21 %

Следующие шаги

  • Вернуть кеш входных токенов, ограничив пересчёт скрытых состояний.
  • Увеличить шаги до 50–100 при сохранении скорости.
  • Попробовать «гибрид»: диффузия для грубой раскладки, авторегрессия для деталей.

by mattnewton • 05 августа 2025 г. в 14:43 • 115 points

ОригиналHN

#qwen3#arc#llm#diffusion#autoregressive#machine-learning#tokens#backspace#retraction#in-context-learning

Комментарии (15)

  • @radarsat1 предложил добавить в генерацию LLM «токен backspace» для отмены уже выданных токенов, но @imtringued и @_diyar отметили, что при обычной однонаправленной архитектуре это сводится к возврату к прежнему состоянию и не решает проблему.
  • @dev_hugepages указал на исследование (2306.05426), где такой механизм уже реализован в рамках IL-обучения.
  • @mNovak отметил, что диффузионная модель решает головоломки итеративно, но «раскрывает» слишком мало токенов за ход, тратя лишние раунды.
  • @namibj подчеркнул необходимость механизма «retraction», чтобы избежать застревания на ошибочных решениях.
  • @twotwotwo заметил парадокс: люди чаще редактируют код, а LLM генерируют его целиком, что делает правку затратной.