DeepFabric – Generate high-quality synthetic datasets at scale
DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.
Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.
Комментарии (16)
- Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
- Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
- Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
- Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
- Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.
Guid Smash
Вероятность совпадения двух GUID — 1 к 2¹²², то есть примерно 1 к 5×10³⁶.
Guid Smash показывает, насколько близко каждый новый GUID подходит к целевому.
- Целевой GUID: 6e197264-d14b-44df-af98-39aac5681791
- Старт: 20 июля 2025
- Проверено: 1,14 трлн GUID
- Скорость: ~468 тыс./с
- Ожидаемое совпадение: через 4,21×10²³ лет при 400 тыс./с
| Префикс | Совпадений |
|---|---|
| 6 | 66,7 млрд |
| 6e | 4,17 млрд |
| 6e1 | 261 млн |
| 6e19 | 16,3 млн |
| 6e197 | 1,02 млн |
| 6e1972 | 63,7 тыс |
| 6e19726 | 4,0 тыс |
| 6e197264 | 244 |
| 6e197264d | 11 |
| 6e197264d1…1791 | 0 |
Ошибка. Перезагрузить
Комментарии (61)
- Вероятность совпадения двух случайных UUIDv4 действительно 1 : 2¹²², но из-за парадокса дней рождения при генерации ≈ 2⁶¹ идентификаторов шанс хотя бы одного дубля возрастает до ~50 %.
- Эксперимент лучше вести не «в лоб» (ищем конкретный UUID), а проверяя все уже сгенерированные значения на дубликаты.
- UUIDv7 снабжены 48-битным префиксом времени: при генерации миллионов ID в одну миллисекунду коллизии становятся реальнее.
- На практике коллизии встречаются: участники сообщили два случая — один из-за одинакового «магического» GUID, другой при слиянии данных разных систем.
- Для коротких уникальных кодов подстрока UUID не подходит; нужно учитывать «день рождения» и выбирать диапазон квадратично больше требуемого количества.