Hacker News Digest

Тег: #fine-tuning

Постов: 4

Комментарии (74)

  • Fine-tuning is making a comeback as a niche tool for specific tasks, but the debate is whether it's worth the effort vs. using larger models with better prompting.
  • The community is split: some see it as essential for control, IP ownership and cost savings, while others argue that frontier models have made it redundant for most use cases.
  • Key friction points: cost-benefit of training vs. inference, data-labeling overhead, and whether the juice is worth the squeeze when prompt-engineering can achieve similar results.
  • OpenAI, Anthropic and others are quietly re-opening fine-tuning APIs, while simultaneously pushing the narrative that "you don't need it anymore"—a tension that may be more about GPU budgets than user needs.
  • The open-source community is rallying around LoRA and QLoRA as a compromise, but the real question is whether the economics of serving a custom model will ever make sense versus just paying per-token for a larger model.

How to inject knowledge efficiently? Knowledge infusion scaling law for LLMs (arxiv.org)

Большие языковые модели часто демонстрируют недостаточную производительность в узкоспециализированных областях и склонны к галлюцинациям из-за отсутствия целевой оптимизации. Стратегическое внедрение доменных знаний на этапе предобучения может значительно улучшить результаты, однако возникает проблема баланса: слишком мало данных приводит к недостаточной специализации, а избыток вызывает катастрофическое забывание ранее усвоенной информации.

Исследование выявило два ключевых наблюдения: каждая модель имеет пороговое значение, после которого её способность сохранять знания резко ухудшается, и эти точки коллапса масштабируются согласованно с размером модели. На основе этого предложен закон масштабирования инфузии знаний, который позволяет предсказать оптимальный объём доменных данных для больших моделей, анализируя их меньшие аналоги. Эксперименты подтвердили эффективность и универсальность подхода для различных размеров моделей и бюджетов токенов.

by PaulHoule • 04 октября 2025 г. в 17:18 • 93 points

ОригиналHN

#llm#machine-learning#knowledge-infusion#scaling-laws#data-optimization#knowledge-retention#fine-tuning#arxiv

Комментарии (31)

  • Критика метода инъекции знаний через шаблонные триплеты Wikidata, а не естественный язык, что может приводить к коллапсу производительности модели.
  • Вопросы о зависимости эффекта коллапса памяти от размера модели, домена данных и стоимости дообучения для создания узкоспециализированных моделей.
  • Обсуждение важности формы подачи знаний (вариативные формулировки vs. фиксированные шаблоны) для их усвоения, а не механического запоминания.
  • Спор о природе LLM: являются ли они построителями моделей мира или всего лишь продвинутыми предсказателями следующего токена.
  • Сомнения в эффективности дообучения (fine-tuning) для добавления новых знаний в сравнении с обучением с нуля.

Extract-0: A specialized language model for document information extraction (arxiv.org)

Представлена модель Extract-0 с 7 миллиардами параметров, оптимизированная для извлечения информации из документов и превосходящая по эффективности более крупные модели, включая GPT-4.1. Она достигает среднего показателя вознаграждения 0.573 на тестовом наборе из 1000 задач, обходя конкурентов с результатами около 0.46.

Обучение включает генерацию синтетических данных, тонкую настройку с LoRA, затрагивающую лишь 0.53% весов, и reinforcement learning с новой функцией вознаграждения на основе семантического сходства. Это демонстрирует, что специализированные модели могут превзойти универсальные системы при значительно меньших вычислительных затратах.

by henriquegodoy • 30 сентября 2025 г. в 16:31 • 168 points

ОригиналHN

#machine-learning#natural-language-processing#reinforcement-learning#language-models#low-rank-adaptation#fine-tuning#arxiv

Комментарии (40)

  • Специализированная модель, дообученная на узком наборе данных (280k примеров), демонстрирует высокую производительность в конкретной задаче извлечения данных, но тестируется на схожих данных из того же распределения, что вызывает вопросы о переобучении и реальной обобщающей способности.
  • Обсуждается тренд на создание небольших узкоспециализированных моделей (fine-tuning, LoRA) как более эффективной и дешевой альтернативы большим универсальным LLM для конкретных применений, хотя ROI такого подхода для бизнеса не всегда очевиден.
  • Подчеркивается важность и эффективность методов дообучения и RLHF (GRPO) для небольших моделей, что позволяет с малыми затратами ($196) превзойти большие модели в нишевых задачах, но для широкого внедрения необходимо упрощение процесса для потребительского оборудования.
  • Высказывается скептицизм относительно новизны исследования, так как способность дообученных моделей превосходить большие в узких задачах уже известна, а ключевой проблемой остается генерализация на реальных данных, а не на примерах из тренировочного сета.
  • Намечается bifurcation в развитии AI: открытые небольшие модели решают конкретные практические задачи, в то время как крупные коммерческие модели развиваются в сторону чат-интерфейсов и инструментов общего назначения, что не всегда оптимально.

Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs (github.com)

LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.

Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.

by jinqueeny • 18 сентября 2025 г. в 23:48 • 105 points

ОригиналHN

#llama#mistral#lora#rl#gpu#nvidia#text-to-sql#fine-tuning#github#llm

Комментарии (15)

  • Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
  • Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
  • Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
  • Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
  • Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.