Тег: #fine-tuning — Hacker News Digest

The case for the return of fine-tuning (welovesota.com)

—

by nanark • 19 октября 2025 г. в 09:41 • 147 points

#fine-tuning #machine-learning #openai #anthropic #lora #qlora #prompt-engineering #gpu #open-source #api

Комментарии (74)

Fine-tuning is making a comeback as a niche tool for specific tasks, but the debate is whether it's worth the effort vs. using larger models with better prompting.
The community is split: some see it as essential for control, IP ownership and cost savings, while others argue that frontier models have made it redundant for most use cases.
Key friction points: cost-benefit of training vs. inference, data-labeling overhead, and whether the juice is worth the squeeze when prompt-engineering can achieve similar results.
OpenAI, Anthropic and others are quietly re-opening fine-tuning APIs, while simultaneously pushing the narrative that "you don't need it anymore"—a tension that may be more about GPU budgets than user needs.
The open-source community is rallying around LoRA and QLoRA as a compromise, but the real question is whether the economics of serving a custom model will ever make sense versus just paying per-token for a larger model.

How to inject knowledge efficiently? Knowledge infusion scaling law for LLMs (arxiv.org)

Большие языковые модели часто демонстрируют недостаточную производительность в узкоспециализированных областях и склонны к галлюцинациям из-за отсутствия целевой оптимизации. Стратегическое внедрение доменных знаний на этапе предобучения может значительно улучшить результаты, однако возникает проблема баланса: слишком мало данных приводит к недостаточной специализации, а избыток вызывает катастрофическое забывание ранее усвоенной информации.

Исследование выявило два ключевых наблюдения: каждая модель имеет пороговое значение, после которого её способность сохранять знания резко ухудшается, и эти точки коллапса масштабируются согласованно с размером модели. На основе этого предложен закон масштабирования инфузии знаний, который позволяет предсказать оптимальный объём доменных данных для больших моделей, анализируя их меньшие аналоги. Эксперименты подтвердили эффективность и универсальность подхода для различных размеров моделей и бюджетов токенов.

by PaulHoule • 04 октября 2025 г. в 17:18 • 93 points

Оригинал • HN

#llm #machine-learning #knowledge-infusion #scaling-laws #data-optimization #knowledge-retention #fine-tuning #arxiv

Комментарии (31)

Критика метода инъекции знаний через шаблонные триплеты Wikidata, а не естественный язык, что может приводить к коллапсу производительности модели.
Вопросы о зависимости эффекта коллапса памяти от размера модели, домена данных и стоимости дообучения для создания узкоспециализированных моделей.
Обсуждение важности формы подачи знаний (вариативные формулировки vs. фиксированные шаблоны) для их усвоения, а не механического запоминания.
Спор о природе LLM: являются ли они построителями моделей мира или всего лишь продвинутыми предсказателями следующего токена.
Сомнения в эффективности дообучения (fine-tuning) для добавления новых знаний в сравнении с обучением с нуля.

Extract-0: A specialized language model for document information extraction (arxiv.org)

Представлена модель Extract-0 с 7 миллиардами параметров, оптимизированная для извлечения информации из документов и превосходящая по эффективности более крупные модели, включая GPT-4.1. Она достигает среднего показателя вознаграждения 0.573 на тестовом наборе из 1000 задач, обходя конкурентов с результатами около 0.46.

Обучение включает генерацию синтетических данных, тонкую настройку с LoRA, затрагивающую лишь 0.53% весов, и reinforcement learning с новой функцией вознаграждения на основе семантического сходства. Это демонстрирует, что специализированные модели могут превзойти универсальные системы при значительно меньших вычислительных затратах.

by henriquegodoy • 30 сентября 2025 г. в 16:31 • 168 points

Оригинал • HN

#machine-learning #natural-language-processing #reinforcement-learning #language-models #low-rank-adaptation #fine-tuning #arxiv

Комментарии (40)

Специализированная модель, дообученная на узком наборе данных (280k примеров), демонстрирует высокую производительность в конкретной задаче извлечения данных, но тестируется на схожих данных из того же распределения, что вызывает вопросы о переобучении и реальной обобщающей способности.
Обсуждается тренд на создание небольших узкоспециализированных моделей (fine-tuning, LoRA) как более эффективной и дешевой альтернативы большим универсальным LLM для конкретных применений, хотя ROI такого подхода для бизнеса не всегда очевиден.
Подчеркивается важность и эффективность методов дообучения и RLHF (GRPO) для небольших моделей, что позволяет с малыми затратами ($196) превзойти большие модели в нишевых задачах, но для широкого внедрения необходимо упрощение процесса для потребительского оборудования.
Высказывается скептицизм относительно новизны исследования, так как способность дообученных моделей превосходить большие в узких задачах уже известна, а ключевой проблемой остается генерализация на реальных данных, а не на примерах из тренировочного сета.
Намечается bifurcation в развитии AI: открытые небольшие модели решают конкретные практические задачи, в то время как крупные коммерческие модели развиваются в сторону чат-интерфейсов и инструментов общего назначения, что не всегда оптимально.

Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs (github.com)

LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.

Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.

by jinqueeny • 18 сентября 2025 г. в 23:48 • 105 points

Оригинал • HN

#llama #mistral #lora #rl #gpu #nvidia #text-to-sql #fine-tuning #github #llm

Комментарии (15)

Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.