Hacker News Digest

Тег: #databricks

Постов: 4

Intelligent Kubernetes Load Balancing at Databricks (databricks.com)

Databricks разработала умную систему балансировки нагрузки для Kubernetes, которая эффективно распределяет трафик между тысячами кластеров. Вместо стандартного подхода с использованием Ingress-контроллеров они создали собственное решение на основе Envoy Proxy и внутреннего сервиса Discovery. Это позволяет динамически обновлять конфигурации маршрутизации без перезагрузки, что критично для среды с постоянными изменениями кластеров.

Ключевые преимущества включают снижение задержки на 30% и устранение простоев при обновлениях. Система автоматически обнаруживает новые кластеры и перенаправляет трафик, используя health checks для избежания сбоев. Такой подход демонстрирует, как кастомные решения могут превзойти стандартные инструменты в высокомасштабных и динамичных окружениях.

by ayf • 01 октября 2025 г. в 05:06 • 96 points

ОригиналHN

#kubernetes#load-balancing#envoy-proxy#grpc#xds#databricks#health-checks#service-mesh

Комментарии (20)

  • Обсуждаются клиентские решения для балансировки нагрузки в gRPC, такие как kuberesolver и xDS-резолвер, как альтернативы сервисным мешам для снижения операционной сложности.
  • Отмечается, что стандартные механизмы Kubernetes (kube-proxy, Headless Service) ограничены базовыми алгоритмами и не поддерживают сложные сценарии балансировки.
  • Поднимается вопрос, почему не используется Rendezvous hashing (HRW), на что следует ответ, что для сложных требований (зональная аффинность, проверки здоровья) простого хеширования недостаточно.
  • Указывается на проблему масштабирования при прямом обращении клиентов к API Kubernetes и преимущества использования xDS для получения обновлений о состоянии эндпоинтов.
  • Обсуждаются операционные недостатки полного сервисного меша (сложность, стоимость) и тренд на внедрение только необходимых частей (например, xDS) напрямую в клиенты.

Le Chat: Custom MCP Connectors, Memories (mistral.ai) 🔥 Горячее

Le Chat: 20+ MCP-коннекторов и Memories

  • Каталог коннекторов (beta)
    20+ безопасных интеграций: Databricks, Snowflake, GitHub, Jira, Notion, Asana, Outlook, Box, Stripe, Zapier и др.

    • Поиск, анализ, действия в одном чате.
    • Добавьте собственные MCP-коннекторы.
    • Запуск в браузере, мобильном, on-prem или вашем облаке.
  • Memories (beta)
    Персонализированные ответы на основе сохранённых фактов и предпочтений.

    • Контроль: хранить, править, удалять.
    • Импорт из ChatGPT.
  • Бесплатно для всех пользователей.

Категории коннекторов

  • Данные: Databricks, Snowflake, Pinecone, Prisma Postgres, DeepWiki.
  • Продуктивность: Box, Notion, Asana, Monday, Jira, Confluence.
  • Разработка: GitHub, Linear, Sentry, Cloudflare.
  • Автоматизация: Zapier, Brevo.
  • Коммерция: PayPal, Plaid, Square, Stripe.
  • Custom: любые MCP-серверы.

Примеры

  • Анализ отзывов в Databricks → задача в Asana.
  • PR в GitHub → задача в Jira + документация в Notion.
  • Сравнение контрактов в Box → краткий отчёт обратно в Box.
  • Jira → спринт-обзор в Confluence.
  • Stripe → аномалии → задача в Linear.

Управление и безопасность
Админы определяют доступ, аутентификация от имени пользователя.
Развёртывание: self-hosted, ваше облако или Mistral Cloud.

by Anon84 • 04 сентября 2025 г. в 11:04 • 367 points

ОригиналHN

#databricks#snowflake#github#jira#notion#asana#box#stripe#zapier#cloudflare

Комментарии (150)

  • Пользователи жалуются на провал gpt-5-mini и переходят на mistral-medium-0525: дешевле, быстрее, но при ошибке «падает жёстче».
  • Mistral анонсировала 20+ «безопасных» MCP-коннекторов (S3, FTP, SharePoint и др.) и поддержку кастомных удалённых коннекторов.
  • Валютация в $14 млрд выглядит низкой против OpenAI/Anthropic; для европейцев главный плюс — «сделано в ЕС».
  • Качество моделей: в чате и простых задачах сравнимо с OpenAI, но уступает топ-версиям; скорость реакции высокая.
  • Бесплатный тариф и быстрый релиз новых фич отмечают как плюсы, однако многие так и не пробовали Mistral всерьёз.

Data engineering and software engineering are converging (clickhouse.com)

Кратко:
Инженеры, создающие realtime-аналитику или AI-функции, нуждаются в инфраструктуре данных с современным developer experience (DX). MooseStack от 514 — open-source DX-слой для ClickHouse.


Слияние дисциплин

Классические хранилища и озёра строились для аналитиков: SQL, BI-дашборды. Теперь же realtime-данные встроены в продукты и AI-функции, а команды разработки обязаны поставлять их так же быстро, как и обычный код.

  • Транзакционные БД (Postgres, MySQL) хороши для разработки, но проваливаются при аналитических нагрузках.
  • Облачные аналитические платформы (Snowflake, BigQuery) удобны для пакетных ETL, но не обеспечивают свежесть данных и sub-second ответов, а DX в них устарел.

UX-разрыв

Пользователи хотят аналитику за миллисекунды. ClickHouse решает задачу: на порядки быстрее Postgres и дешевле Snowflake/Databricks.


DX-разрыв

Разработчики привыкли к локальному циклу «код → тест → CI/CD». В мире данных такого нет: нет локального окружения, медленные итерации, конфликты между data- и software-инженерами.


MooseStack

514 выпустили MooseStack — open-source DX-слой поверх ClickHouse:

  • Git-native, local-first, everything-as-code.
  • Единый язык схем и запросов для всех специалистов.
  • Поддержка CI/CD, preview-окружений, автотестов.

by craneca0 • 29 августа 2025 г. в 18:43 • 80 points

ОригиналHN

#clickhouse#postgresql#mysql#snowflake#bigquery#databricks#terraform#kubernetes#sql#python

Комментарии (50)

  • Сторонники «чистого» инженерного подхода считают, что data engineering изначально был частью software engineering, но позже к нему примешались аналитики, знающие лишь SQL/DBT.
  • В сообществе виден раскол: одни DE пишут Terraform, CI/CD, Spark и k8s, другие ограничиваются ноутбуками, SQL-запросами и no-code-инструментами.
  • Критика Python и SQL как «недостаточно инженерных» языков: динамическая типизация, отсутствие строгих схем и нормального тестирования.
  • Название роли «Data Engineer» стало размытым: HR ищут «писателей SQL», а специалисты просят называть их «Software Engineer, Big Data» или «Platform Engineer».
  • Сильные практики уже давно используют IaC, версионирование, code review и полноценный SDLC, но таких меньшинство.

Databricks is raising a Series K Investment at >$100B valuation (databricks.com) 💬 Длинная дискуссия

Databricks привлекает раунд Series K при оценке >$100 млрд.
Компания, предоставляющая платформу для аналитики и ИИ, подтвердила переговоры о новом финансировании. Сумма сделки и имена инвесторов пока не раскрываются, но источники называют ориентир выше $100 млрд. Это почти вдвое превышает оценку в $62 млрд, полученную в сентябре 2023 года.

По данным Bloomberg, Databricks выручила за последние 12 месяцев $2,4 млрд, рост 50 % г/г. Компания планирует выйти на IPO в 2025 году.

by djhu9 • 20 августа 2025 г. в 06:06 • 140 points

ОригиналHN

#databricks#spark#postgresql#lakehouse#snowflake#ipo#llm#investment

Комментарии (161)

  • Databricks объявил о раунде Series K на $10 млрд при оценке $100 млрд, вызвав волну скепсиса: многие считают это попыткой отложить IPO и избежать реальной оценки.
  • Участники обсуждения подчеркивают, что компания за 15 лет и $10+ млрд всё ещё не прибыльна, а продукт (Spark, «обёртки» над Postgres, Lakehouse) кажется переоценённым и дорогим.
  • Пользователи жалуются на высокие расходы, долгий запуск задач и сбои в сервисе; конкуренты вроде Snowflake выглядят дешевле.
  • Раунд воспринимается как способ «разогнать» оценку и дать ликвидности ранним инвесторам, а не как финансирование роста.
  • Сравнения с WeWork, Palantir и OpenAI подчеркивают, что длинные цепочки раундов уже не редкость, но вызывают опасения по поводу «пузыря ИИ».