Hacker News Digest

Тег: #vortex

Постов: 2

Vortex: An extensible, state of the art columnar file format (github.com)

Vortex — это современный расширяемый столбчатый формат файлов, который теперь развивается как проект на стадии инкубации в LFAI&Data под эгидой Linux Foundation. Изначально технология создавалась в SpiralDB, а теперь перешла под крыло некоммерческой организации, что говорит о зрелости проекта и его потенциале для стандартизации в индустрии.

Проект позиционируется как передовое решение для эффективного хранения и обработки больших данных, используя преимущества столбчатой организации для ускорения запросов и экономии места. Статус инкубационного проекта в Linux Foundation подразумевает активное развитие и открытость для вклада со стороны сообщества, что может ускорить его принятие в экосистеме больших данных.

by tanelpoder • 15 ноября 2025 г. в 02:55 • 87 points

ОригиналHN

#vortex#columnar#big-data#gpu#linux-foundation#spiraldb#github

Комментарии (21)

  • Vortex формат файлов предназначен для быстрого чтения и записи на GPU, но не является конкурентом Delta Lake и Iceberg, а скорее дополняет их.
  • Vortex не является табличным форматом, в отличие от Delta Lake и Iceberg, и поэтому не сравним с ними напрямую.
  • Vortex может быть полезен для ускорения обучения моделей, но не для хранения данных в продакшене.
  • Vortex не является форматом для хранения данных, а скорее форматом для обучения моделей.

Spiral (spiraldb.com)

Spiral: Data 3.0
Новая эпоха — машины потребляют и выдают данные петабайтами.
Postgres и Lakehouse были рассчитаны на человека: входы и выходы — килобайты.
AI-хранилище должно отдавать 4 млн изображений в секунду, иначе H100 простаивает 70 % времени.

Почему ломается стек
Parquet → Arrow → tensors → кэш → GPU: 5 лишних шагов, 10× память, 55 ч сети на 1 с GPU-нагрузки.
Мелкие файлы (100 КБ) убивают S3, эмбеддинги и картинки застревают в «мертвой зоне» 1 КБ–25 МБ.

Побочные эффекты

  1. Цена/скорость: инженеры крутят ETL вместо обучения.
  2. Безопасность: в угони скорости открывают S3 и сливают базы через MCP-коннекторы. Долг превращается в 10× технический долг.

Spiral = хранилище для машин

  • Потоковое чтение петабайтов без распаковки.
  • Поиск, сэмплы, случайные чтения за миллисекунды.
  • Модель доступа «по-умолчанию закрыто» → безопасность не тормозит.

Результат
GPU загружен, инженеры пишут модели, а не пайплайны.

by jorangreef • 11 сентября 2025 г. в 15:45 • 233 points

ОригиналHN

#postgresql#s3#llm#machine-learning#data-storage#gpu#olap#vortex#spiraldb

Комментарии (79)

  • Сайт красивый, но без технических деталей: это пресс-релиз нового формата Vortex и СУБД Spiral, а не продукт.
  • Vortex — колонковый формат «для эры ИИ», обещает прямую разгрузку из S3 в GPU, минуя CPU и сетевые задержки.
  • Критика: нет цифр, нет сравнений с Parquet/Lance/Delta, много маркетинга («AI-scale», 22 млн $ сид-раунда) и мало кода.
  • Потенциальная польза — ускорение OLAP-пайплайнов обучения моделей, но вопросы к транзакциям, изменяемости и реальному бенчмарку остаются.