Hacker News Digest

Тег: #polars

Постов: 2

650GB of Data (Delta Lake on S3). Polars vs. DuckDB vs. Daft vs. Spark (dataengineeringcentral.substack.com)

by tanelpoder • 13 ноября 2025 г. в 21:33 • 237 points

ОригиналHN

#delta-lake#s3#polars#duckdb#spark#data-engineering#data-processing

Комментарии (98)

  • Бенчмарк с 650GB данных считается микробенчмарком; реальные рабочие нагрузки часто достигают PB/EB-масштабов, где распределенные системы остаются актуальными.
  • Основным узким местом выступает I/O (особенно сетевая пропускная способность экземпляров, как c5.4xlarge с 10Gbps), а не CPU, что делает single-node инструменты (DuckDB, Polars) эффективными для таких объемов.
  • Spark необходим для распределенных вычислений при работе с очень большими данными или конкурентных запросах к частям данных, но для 650GB его преимущества сомнительны.
  • Предлагались альтернативы: DuckLake, awk, GNU-инструменты, а также использование экземпляров с более высокой пропускной способностью (m6a вместо c5).
  • Многие рабочие нагрузки в реальности меньше 650GB, и Spark часто используется избыточно для задач, где достаточно single-node решений.

SedonaDB: A new geospatial DataFrame library written in Rust (sedona.apache.org)

Представлен новый однопроцессорный аналитический движок базы данных, где геопространственные данные являются ключевым элементом архитектуры. Он оптимизирован для работы с геометрическими объектами и растрами, поддерживая стандартные пространственные операции, такие как объединения, кластеризация и анализ расстояний. Движок интегрируется с популярными форматами данных, включая GeoJSON, Shapefiles и GeoParquet, что упрощает обработку сложных геоданных без необходимости распределённых систем.

Особенность подхода — высокая производительность на одном узле благодаря специализированным индексам и алгоритмам, что снижает порог входа для проектов, требующих пространственного анализа. Это делает решение практичным для сценариев, где распределённые кластеры избыточны, но нужна эффективная работа с картографическими данными и геоаналитикой.

by MrPowers • 24 сентября 2025 г. в 16:00 • 182 points

ОригиналHN

#rust#geojson#shapefiles#geoparquet#postgis#duckdb#apache-arrow#geospatial#datafusion#polars

Комментарии (47)

  • Подчеркивается необходимость SedonaDB для больших геопространственных рабочих нагрузок, где традиционные решения (DuckDB, PostGIS) не подходят, особенно из-за поддержки CRS и производительности.
  • Высказываются сомнения в целесообразности нового инструмента, так как PostGIS и DuckDB с их расширениями покрывают потребности большинства пользователей.
  • Отмечаются ключевые преимущества SedonaDB: высокая производительность при работе с данными не из БД (например, GeoParquet), поддержка дополнительных CRS и отсутствие зависимости от работающего сервиса.
  • Обсуждаются технические особенности: реализация на Rust для производительности, интеграция с экосистемой Apache Arrow (DataFusion) и поддержка нескольких языков программирования.
  • Упоминаются текущие ограничения других инструментов: "сырые" края пространственного расширения DuckDB и блокировка развития GeoPolars из-за отсутствия поддержки типов расширений Arrow в Polars.