IRS open sources its fact graph
GitHub выпустила Fact Graph — инструмент для анализа и визуализации информации с открытым исходным кодом. Он помогает разработчикам и исследователям быстро находить связи между различными сущностями, например, людьми, организациями и событиями, делая данные более доступными и удобными для анализа.
Основное применение — это анализ больших объёмов данных, где Fact Graph помогает выявлять скрытые закономерности и связи. Это особенно полезно для журналистов, исследователей и разработчиков, работающих с открытыми данными. Инструмент работает через API и поддерживает интеграцию с другими системами, такими как Elasticsearch и Neo4j.
Ключевые особенности включают поддержку графовых запросов, визуализацию связей и возможность расширения через плагины. Разработчики подчёркивают, что инструмент особенно полезен в сферах анализа социальных сетей, журналистики данных и академических исследований. Исходный код доступен на GitHub, что позволяет сообществу вносить свой вклад и улучшать функциональность.<|begin▁of▁sentence|>
Комментарии (60)
- Обсуждение началось с вопроса о том, где находятся фактические файлы налогового кодекса, и вылилось в обсуждение того, что IRS Direct File был отменён, а фактический график и инструменты для работы с ним были выложены в открытый доступ.
- Участники обсудили, что фактический график может быть использован для прозрачности и возможно LLM-интеграции, но также вызвал вопросы о том, как он может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
- Обсуждались также вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
- Также обсуждались вопросы о том, какие альтернативы TurboTax и другим коммерческим программам существуют и как они могут быть использованы.
- Наконец, обсуждались вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
How we replaced Elasticsearch and MongoDB with Rust and RocksDB 🔥 Горячее
HorizonDB — новая гео-БД на Rust, заменившая Elasticsearch и MongoDB.
Обрабатывает 1 млрд вызовов/день, 1 000 QPS на ядро, 50 мс прямого и <1 мс обратного геокодирования.
Проблемы старого стека
- Elasticsearch: шардирование, дорогие батчи, отсутствие отката.
- MongoDB: нет нормального bulk-импорта, переподбор ресурсов, сложный откат.
Архитектура HorizonDB
- Однопроцессный многопоточный бинарник.
- Данные Spark → S3 → RocksDB (версионные ассеты).
- Индексы: S2 (гео), Tantivy (поиск), FST (префиксы), LightGBM/FastText (ML-ранжирование).
Почему Rust
- Скомпилирован, без GC, предсказуемая латентность.
- Абстракции высокого уровня, pattern matching.
- Один процесс вместо Node.js-кластера → экономия памяти.
Ключевые компоненты
- RocksDB — быстрая запись/чтение с SSD.
- S2 — O(1) point-in-polygon через квадродерево.
- FST — компрессия префиксов, кэш «happy path» в МБ.
- Tantivy — встроенный инвертированный индекс, избегаем сетевого Elasticsearch.
Итог: одна бинарная служба, линейное масштабирование, простые релизы и откаты.
Комментарии (84)
- Пост вызывает много вопросов: детали шардирования, отказоустойчивость, latency и open-source-статус не раскрыты.
- Альтернативы: Typesense, DuckDB+spatial, Quickwit/Tantivy — всё open-source и уже показывает высокую производительность.
- RocksDB хвалят за надёжность и производительность, но кто-то вспоминает старые проблемы LevelDB.
- LMDB/OSM Express тоже предлагают более лёгкое решение для геопоиска.
- Многие считают, что 95 % задач решаются обычным Postgres/SQLite, а «заменить ES» сейчас модный лозунг.