Hacker News Digest

Тег: #rl

Постов: 3

Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs (github.com)

LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.

Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.

by jinqueeny • 18 сентября 2025 г. в 23:48 • 105 points

ОригиналHN

#llama#mistral#lora#rl#gpu#nvidia#text-to-sql#fine-tuning#github#llm

Комментарии (15)

  • Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
  • Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
  • Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
  • Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
  • Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.

GLM 4.5 with Claude Code (docs.z.ai)

GLM-4.5

  • 355B параметров, 32B активных; 128K контекст; 96K выход
  • MoE-архитектура, 15T токенов дообучения, RL-доработка
  • Режимы: thinking (сложные задачи) и мгновенный ответ
  • Инструменты, JSON, потоковый вывод, кэш контекста

GLM-4.5-Air

  • 106B/12B, дешевле и быстрее, качество почти на уровне GLM-4.5

GLM-4.5-X / AirX / Flash

  • X: максимум скорости и качества
  • AirX: лёгкий + сверхбыстрый
  • Flash: бесплатный, для кода и агентов

Ключевые умения
глубокое рассуждение, вызов функций, структурный вывод, поток, кэш.

by vincirufus • 06 сентября 2025 г. в 00:45 • 176 points

ОригиналHN

#glm-4.5#glm-4.5-air#z.ai#claudecode#openrouter#llm#moe-architecture#rl#json#context-caching

Комментарии (77)

  • Пользователи тестируют китайскую модель GLM 4.5 и GLM 4.5 Air от Z.ai как дешёвую замену Claude Sonnet в Claude Code и RooCode.
  • Модель показывает хорошие результаты в коротких задачах, но уступает по длине контекста и стабильности.
  • Подозрения, что OpenRouter и другие поставщики могут отдавать квантованные версии, что портит качество.
  • Политика приватности Z.ai разрешает вечное использование отправленного кода и промптов — кто-то напуган, кто-то считает это нормой.
  • Документация и интеграция вызывают нарекания: нет чёткой инструкции для Claude Code, приходится использовать прокси-обёртки.

The wall confronting large language models (arxiv.org)

Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.

Причины стены

  • Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
  • Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
  • Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.

Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.

Что делать

  • Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
  • Агентские схемы, где LLM вызывает API и внешние системы.
  • Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).

Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.

by PaulHoule • 03 сентября 2025 г. в 11:40 • 133 points

ОригиналHN

#large-language-models#machine-learning#deep-learning#transformers#rag#rl#mmlu#gsm8k#humaneval#big-bench

Комментарии (145)

  • Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
  • Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
  • Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
  • Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
  • Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.