Hacker News Digest

Тег: #data-generation

Постов: 2

DeepFabric – Generate high-quality synthetic datasets at scale (lukehinds.github.io)

DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.

Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.

by decodebytes • 26 сентября 2025 г. в 14:26 • 85 points

ОригиналHN

#python#huggingface#apache-2.0#synthetic-data#machine-learning#chain-of-thought#great-expectations#dag#open-source#data-generation

Комментарии (16)

  • Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
  • Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
  • Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
  • Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
  • Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.

Guid Smash (guidsmash.com)

Вероятность совпадения двух GUID — 1 к 2¹²², то есть примерно 1 к 5×10³⁶.
Guid Smash показывает, насколько близко каждый новый GUID подходит к целевому.

  • Целевой GUID: 6e197264-d14b-44df-af98-39aac5681791
  • Старт: 20 июля 2025
  • Проверено: 1,14 трлн GUID
  • Скорость: ~468 тыс./с
  • Ожидаемое совпадение: через 4,21×10²³ лет при 400 тыс./с
Префикс Совпадений
6 66,7 млрд
6e 4,17 млрд
6e1 261 млн
6e19 16,3 млн
6e197 1,02 млн
6e1972 63,7 тыс
6e19726 4,0 тыс
6e197264 244
6e197264d 11
6e197264d1…1791 0

Ошибка. Перезагрузить

by nugzbunny • 16 августа 2025 г. в 22:11 • 162 points

ОригиналHN

#uuid#uuidv4#uuidv7#collision-probability#probability#data-generation

Комментарии (61)

  • Вероятность совпадения двух случайных UUIDv4 действительно 1 : 2¹²², но из-за парадокса дней рождения при генерации ≈ 2⁶¹ идентификаторов шанс хотя бы одного дубля возрастает до ~50 %.
  • Эксперимент лучше вести не «в лоб» (ищем конкретный UUID), а проверяя все уже сгенерированные значения на дубликаты.
  • UUIDv7 снабжены 48-битным префиксом времени: при генерации миллионов ID в одну миллисекунду коллизии становятся реальнее.
  • На практике коллизии встречаются: участники сообщили два случая — один из-за одинакового «магического» GUID, другой при слиянии данных разных систем.
  • Для коротких уникальных кодов подстрока UUID не подходит; нужно учитывать «день рождения» и выбирать диапазон квадратично больше требуемого количества.