Тег: #databricks — Hacker News Digest

Intelligent Kubernetes Load Balancing at Databricks (databricks.com)

Databricks разработала умную систему балансировки нагрузки для Kubernetes, которая эффективно распределяет трафик между тысячами кластеров. Вместо стандартного подхода с использованием Ingress-контроллеров они создали собственное решение на основе Envoy Proxy и внутреннего сервиса Discovery. Это позволяет динамически обновлять конфигурации маршрутизации без перезагрузки, что критично для среды с постоянными изменениями кластеров.

Ключевые преимущества включают снижение задержки на 30% и устранение простоев при обновлениях. Система автоматически обнаруживает новые кластеры и перенаправляет трафик, используя health checks для избежания сбоев. Такой подход демонстрирует, как кастомные решения могут превзойти стандартные инструменты в высокомасштабных и динамичных окружениях.

by ayf • 01 октября 2025 г. в 05:06 • 96 points

Оригинал • HN

#kubernetes #load-balancing #envoy-proxy #grpc #xds #databricks #health-checks #service-mesh

Комментарии (20)

Обсуждаются клиентские решения для балансировки нагрузки в gRPC, такие как kuberesolver и xDS-резолвер, как альтернативы сервисным мешам для снижения операционной сложности.
Отмечается, что стандартные механизмы Kubernetes (kube-proxy, Headless Service) ограничены базовыми алгоритмами и не поддерживают сложные сценарии балансировки.
Поднимается вопрос, почему не используется Rendezvous hashing (HRW), на что следует ответ, что для сложных требований (зональная аффинность, проверки здоровья) простого хеширования недостаточно.
Указывается на проблему масштабирования при прямом обращении клиентов к API Kubernetes и преимущества использования xDS для получения обновлений о состоянии эндпоинтов.
Обсуждаются операционные недостатки полного сервисного меша (сложность, стоимость) и тренд на внедрение только необходимых частей (например, xDS) напрямую в клиенты.

Le Chat: Custom MCP Connectors, Memories (mistral.ai) 🔥 Горячее

Le Chat: 20+ MCP-коннекторов и Memories

Каталог коннекторов (beta)
20+ безопасных интеграций: Databricks, Snowflake, GitHub, Jira, Notion, Asana, Outlook, Box, Stripe, Zapier и др.
- Поиск, анализ, действия в одном чате.
- Добавьте собственные MCP-коннекторы.
- Запуск в браузере, мобильном, on-prem или вашем облаке.
Memories (beta)
Персонализированные ответы на основе сохранённых фактов и предпочтений.
- Контроль: хранить, править, удалять.
- Импорт из ChatGPT.
Бесплатно для всех пользователей.

Категории коннекторов

Данные: Databricks, Snowflake, Pinecone, Prisma Postgres, DeepWiki.
Продуктивность: Box, Notion, Asana, Monday, Jira, Confluence.
Разработка: GitHub, Linear, Sentry, Cloudflare.
Автоматизация: Zapier, Brevo.
Коммерция: PayPal, Plaid, Square, Stripe.
Custom: любые MCP-серверы.

Примеры

Анализ отзывов в Databricks → задача в Asana.
PR в GitHub → задача в Jira + документация в Notion.
Сравнение контрактов в Box → краткий отчёт обратно в Box.
Jira → спринт-обзор в Confluence.
Stripe → аномалии → задача в Linear.

Управление и безопасность
Админы определяют доступ, аутентификация от имени пользователя.
Развёртывание: self-hosted, ваше облако или Mistral Cloud.

by Anon84 • 04 сентября 2025 г. в 11:04 • 367 points

Оригинал • HN

#databricks #snowflake #github #jira #notion #asana #box #stripe #zapier #cloudflare

Комментарии (150)

Пользователи жалуются на провал gpt-5-mini и переходят на mistral-medium-0525: дешевле, быстрее, но при ошибке «падает жёстче».
Mistral анонсировала 20+ «безопасных» MCP-коннекторов (S3, FTP, SharePoint и др.) и поддержку кастомных удалённых коннекторов.
Валютация в $14 млрд выглядит низкой против OpenAI/Anthropic; для европейцев главный плюс — «сделано в ЕС».
Качество моделей: в чате и простых задачах сравнимо с OpenAI, но уступает топ-версиям; скорость реакции высокая.
Бесплатный тариф и быстрый релиз новых фич отмечают как плюсы, однако многие так и не пробовали Mistral всерьёз.

Data engineering and software engineering are converging (clickhouse.com)

Кратко:
Инженеры, создающие realtime-аналитику или AI-функции, нуждаются в инфраструктуре данных с современным developer experience (DX). MooseStack от 514 — open-source DX-слой для ClickHouse.

Слияние дисциплин

Классические хранилища и озёра строились для аналитиков: SQL, BI-дашборды. Теперь же realtime-данные встроены в продукты и AI-функции, а команды разработки обязаны поставлять их так же быстро, как и обычный код.

Транзакционные БД (Postgres, MySQL) хороши для разработки, но проваливаются при аналитических нагрузках.
Облачные аналитические платформы (Snowflake, BigQuery) удобны для пакетных ETL, но не обеспечивают свежесть данных и sub-second ответов, а DX в них устарел.

UX-разрыв

Пользователи хотят аналитику за миллисекунды. ClickHouse решает задачу: на порядки быстрее Postgres и дешевле Snowflake/Databricks.

DX-разрыв

Разработчики привыкли к локальному циклу «код → тест → CI/CD». В мире данных такого нет: нет локального окружения, медленные итерации, конфликты между data- и software-инженерами.

MooseStack

514 выпустили MooseStack — open-source DX-слой поверх ClickHouse:

Git-native, local-first, everything-as-code.
Единый язык схем и запросов для всех специалистов.
Поддержка CI/CD, preview-окружений, автотестов.

by craneca0 • 29 августа 2025 г. в 18:43 • 80 points

Оригинал • HN

#clickhouse #postgresql #mysql #snowflake #bigquery #databricks #terraform #kubernetes #sql #python

Комментарии (50)

Сторонники «чистого» инженерного подхода считают, что data engineering изначально был частью software engineering, но позже к нему примешались аналитики, знающие лишь SQL/DBT.
В сообществе виден раскол: одни DE пишут Terraform, CI/CD, Spark и k8s, другие ограничиваются ноутбуками, SQL-запросами и no-code-инструментами.
Критика Python и SQL как «недостаточно инженерных» языков: динамическая типизация, отсутствие строгих схем и нормального тестирования.
Название роли «Data Engineer» стало размытым: HR ищут «писателей SQL», а специалисты просят называть их «Software Engineer, Big Data» или «Platform Engineer».
Сильные практики уже давно используют IaC, версионирование, code review и полноценный SDLC, но таких меньшинство.

Databricks is raising a Series K Investment at >$100B valuation (databricks.com) 💬 Длинная дискуссия

Databricks привлекает раунд Series K при оценке >$100 млрд.
Компания, предоставляющая платформу для аналитики и ИИ, подтвердила переговоры о новом финансировании. Сумма сделки и имена инвесторов пока не раскрываются, но источники называют ориентир выше $100 млрд. Это почти вдвое превышает оценку в $62 млрд, полученную в сентябре 2023 года.

По данным Bloomberg, Databricks выручила за последние 12 месяцев $2,4 млрд, рост 50 % г/г. Компания планирует выйти на IPO в 2025 году.

by djhu9 • 20 августа 2025 г. в 06:06 • 140 points

Оригинал • HN

#databricks #spark #postgresql #lakehouse #snowflake #ipo #llm #investment

Комментарии (161)

Databricks объявил о раунде Series K на $10 млрд при оценке $100 млрд, вызвав волну скепсиса: многие считают это попыткой отложить IPO и избежать реальной оценки.
Участники обсуждения подчеркивают, что компания за 15 лет и $10+ млрд всё ещё не прибыльна, а продукт (Spark, «обёртки» над Postgres, Lakehouse) кажется переоценённым и дорогим.
Пользователи жалуются на высокие расходы, долгий запуск задач и сбои в сервисе; конкуренты вроде Snowflake выглядят дешевле.
Раунд воспринимается как способ «разогнать» оценку и дать ликвидности ранним инвесторам, а не как финансирование роста.
Сравнения с WeWork, Palantir и OpenAI подчеркивают, что длинные цепочки раундов уже не редкость, но вызывают опасения по поводу «пузыря ИИ».