Hacker News Digest

26 сентября 2025 г. в 14:26 • lukehinds.github.io • ⭐ 85 • 💬 16

OriginalHN

#python#huggingface#apache-2.0#synthetic-data#machine-learning#chain-of-thought#great-expectations#dag#open-source#data-generation

DeepFabric – Generate high-quality synthetic datasets at scale

DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.

Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.