Hacker News Digest

Тег: #data-engineering

Постов: 2

650GB of Data (Delta Lake on S3). Polars vs. DuckDB vs. Daft vs. Spark (dataengineeringcentral.substack.com)

by tanelpoder • 13 ноября 2025 г. в 21:33 • 237 points

ОригиналHN

#delta-lake#s3#polars#duckdb#spark#data-engineering#data-processing

Комментарии (98)

  • Бенчмарк с 650GB данных считается микробенчмарком; реальные рабочие нагрузки часто достигают PB/EB-масштабов, где распределенные системы остаются актуальными.
  • Основным узким местом выступает I/O (особенно сетевая пропускная способность экземпляров, как c5.4xlarge с 10Gbps), а не CPU, что делает single-node инструменты (DuckDB, Polars) эффективными для таких объемов.
  • Spark необходим для распределенных вычислений при работе с очень большими данными или конкурентных запросах к частям данных, но для 650GB его преимущества сомнительны.
  • Предлагались альтернативы: DuckLake, awk, GNU-инструменты, а также использование экземпляров с более высокой пропускной способностью (m6a вместо c5).
  • Многие рабочие нагрузки в реальности меньше 650GB, и Spark часто используется избыточно для задач, где достаточно single-node решений.

A16Z-backed data firms Fivetran, dbt Labs to merge in all-stock deal (reuters.com)

Компании Fivetran и dbt Labs, известные в сфере управления данными, объединяются в сделке с полной оплатой акциями. Слияние, поддержанное инвесторами a16z, создаст новую компанию с оценкой в 6 миллиардов долларов, что укрепит её позиции на рынке.

Сделка позволит объединённой компании предложить клиентам более комплексный набор инструментов — от извлечения данных до их анализа. Это отражает растущий спрос на интегрированные платформы данных, особенно в условиях экономической неопределённости, когда компании стремятся оптимизировать затраты.

Обе компании были ключевыми игроками в экосистеме данных. Fivetran специализируется на извлечении и перемещении данных, в то время как dbt Labs фокусируется на преобразовании данных для аналитики. Их объединение ускорит разработку новых продуктов и расширит охват рынка.

by mjirv • 13 октября 2025 г. в 14:42 • 90 points

ОригиналHN

#fivetran#dbt#a16z#data-engineering#data-analytics#mergers-and-acquisitions#open-source

Комментарии (31)

  • Fivetran и dbt Labs объединяются в сделке на акции, что вызывает обеспокоенность по поводу консолидации рынка и будущего открытого кода.
  • Слияние может привести к росту цен и снижению конкуренции, поскольку Fivetran владеет уже двумя альтернативами dbt в виде SQLMesh и SQLGlot.
  • Пользователей беспокоит, что они могут потерять доступ к своим любимым инструментам, а также то, что они могут быть вынуждены мигрировать на другие инструменты.
  • Слияние может быть вызвано желанием подготовиться к IPO и создать "полный стек" для инвесторов.
  • Сообщество открытого кода и пользователей выражает обеспокоенность по поводу будущего dbt и его экосистемы, поскольку Fivetran имеет историю приобретения компаний и последующего закрытия их проектов.