Hacker News Digest

Тег: #elasticsearch

Постов: 2

IRS open sources its fact graph (github.com)

GitHub выпустила Fact Graph — инструмент для анализа и визуализации информации с открытым исходным кодом. Он помогает разработчикам и исследователям быстро находить связи между различными сущностями, например, людьми, организациями и событиями, делая данные более доступными и удобными для анализа.

Основное применение — это анализ больших объёмов данных, где Fact Graph помогает выявлять скрытые закономерности и связи. Это особенно полезно для журналистов, исследователей и разработчиков, работающих с открытыми данными. Инструмент работает через API и поддерживает интеграцию с другими системами, такими как Elasticsearch и Neo4j.

Ключевые особенности включают поддержку графовых запросов, визуализацию связей и возможность расширения через плагины. Разработчики подчёркивают, что инструмент особенно полезен в сферах анализа социальных сетей, журналистики данных и академических исследований. Исходный код доступен на GitHub, что позволяет сообществу вносить свой вклад и улучшать функциональность.<|begin▁of▁sentence|>

by ronbenton • 15 октября 2025 г. в 23:24 • 233 points

ОригиналHN

#fact-graph#data-analysis#data-visualization#graph-databases#elasticsearch#neo4j#api#open-source#taxation#data-journalism

Комментарии (60)

  • Обсуждение началось с вопроса о том, где находятся фактические файлы налогового кодекса, и вылилось в обсуждение того, что IRS Direct File был отменён, а фактический график и инструменты для работы с ним были выложены в открытый доступ.
  • Участники обсудили, что фактический график может быть использован для прозрачности и возможно LLM-интеграции, но также вызвал вопросы о том, как он может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
  • Обсуждались также вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
  • Также обсуждались вопросы о том, какие альтернативы TurboTax и другим коммерческим программам существуют и как они могут быть использованы.
  • Наконец, обсуждались вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.

How we replaced Elasticsearch and MongoDB with Rust and RocksDB (radar.com) 🔥 Горячее

HorizonDB — новая гео-БД на Rust, заменившая Elasticsearch и MongoDB.
Обрабатывает 1 млрд вызовов/день, 1 000 QPS на ядро, 50 мс прямого и <1 мс обратного геокодирования.

Проблемы старого стека

  • Elasticsearch: шардирование, дорогие батчи, отсутствие отката.
  • MongoDB: нет нормального bulk-импорта, переподбор ресурсов, сложный откат.

Архитектура HorizonDB

  • Однопроцессный многопоточный бинарник.
  • Данные Spark → S3 → RocksDB (версионные ассеты).
  • Индексы: S2 (гео), Tantivy (поиск), FST (префиксы), LightGBM/FastText (ML-ранжирование).

Почему Rust

  • Скомпилирован, без GC, предсказуемая латентность.
  • Абстракции высокого уровня, pattern matching.
  • Один процесс вместо Node.js-кластера → экономия памяти.

Ключевые компоненты

  • RocksDB — быстрая запись/чтение с SSD.
  • S2 — O(1) point-in-polygon через квадродерево.
  • FST — компрессия префиксов, кэш «happy path» в МБ.
  • Tantivy — встроенный инвертированный индекс, избегаем сетевого Elasticsearch.

Итог: одна бинарная служба, линейное масштабирование, простые релизы и откаты.

by j_kao • 08 августа 2025 г. в 12:57 • 258 points

ОригиналHN

#rust#rocksdb#mongodb#elasticsearch#s2#tantivy#lightgbm#fasttext

Комментарии (84)

  • Пост вызывает много вопросов: детали шардирования, отказоустойчивость, latency и open-source-статус не раскрыты.
  • Альтернативы: Typesense, DuckDB+spatial, Quickwit/Tantivy — всё open-source и уже показывает высокую производительность.
  • RocksDB хвалят за надёжность и производительность, но кто-то вспоминает старые проблемы LevelDB.
  • LMDB/OSM Express тоже предлагают более лёгкое решение для геопоиска.
  • Многие считают, что 95 % задач решаются обычным Postgres/SQLite, а «заменить ES» сейчас модный лозунг.