Тег: #vector-databases — Hacker News Digest

Show HN: I wrote a full text search engine in Go (github.com)

Blaze — это высокопроизводительный полнотекстовый поисковый движок на Go, который специализируется на скорости и простоте использования. Он использует индексирование на основе памяти и поддерживает полнотекстовый поиск, включая поиск по префиксу, суффиксу и фразам. Проект разработан для того, чтобы быть легко встраиваемым в любое приложение, которое требует быстрый и эффективный поиск. Blaze использует современные алгоритмы сжатия и индексации, такие как Brotli и Snappy, для оптимизации производительности и использования памяти. Он также поддерживает горизонтальное масштабирование и может быть развернут в облаке. Проект имеет открытый исходный код под лицензией MIT и активно поддерживается сообществом.

by novocayn • 09 октября 2025 г. в 17:09 • 91 points

Оригинал • HN

#go #full-text-search #brotli #snappy #cloud #lucene #bleve #vector-databases #github

Комментарии (41)

Проект представляет собой учебный пример полнотекстового поискового движка, написанный на Go, с акцентом на внутреннее устройство индекса и простоту кода.
Автор отказался от парсинга строковых запросов, чтобы не отвлекать внимание от того, как устроен индекс.
Несколько участников обсуждения отметили, что проект не лицензирован и не имеет лицензии, что может затруднить его использование.
Другие участники предложили сравнить производительность с Lucene и Bleve, а также рассмотреть возможность интеграции с векторными базами данных.
Автор ответил, что проект задуман как учебный пример, а не как полноценная замена существующим решениям.

Launch HN: LlamaFarm (YC W22) – Open-source framework for distributed AI (github.com)

LlamaFarm — это инструмент для локального развертывания AI-моделей, агентов, баз данных, RAG и пайплайнов за считанные минуты. Он позволяет запускать сложные AI-системы без облачной инфраструктуры, что особенно ценно для разработчиков, работающих с приватными данными или в условиях ограниченного интернета.

Проект упрощает интеграцию различных компонентов, таких как векторизованные базы данных и агенты ИИ, снижая порог входа в создание production-готовых решений. Это ускоряет эксперименты и развертывание, экономя время на настройке окружения.

by mhamann • 07 октября 2025 г. в 15:30 • 92 points

Оригинал • HN

#llm #llamafarm #distributed-systems #vector-databases #rag #privacy #open-source #decentralization #github

Комментарии (51)

Поддержка децентрализации ИИ и локального запуска моделей для защиты приватности и снижения зависимости от крупных облачных провайдеров
LlamaFarm позиционируется как инструмент для декларативной оркестрации локальных AI-систем (RAG, агенты, векторные БД) с акцентом на портативность и контроль над пайплайном
Ключевые целевые аудитории — юристы, здравоохранение и госсектор, где критически важны безопасность данных и работа в изолированных средах
Отличие от решений вроде LangChain или LlamaIndex — предоставление готового фреймворка для production, а не программируемых компонентов
Вызовы: привлечение первых пользователей и упрощение процесса деплоя для широкого внедрения

Vector database that can index 1B vectors in 48M (vectroid.com)

Зачем и как мы сделали Vectroid

Почти все векторные БД заставляют выбирать: скорость, точность или цена. Мы решили, что жертвы не нужны, и собрали serverless-решение, где всё хорошо одновременно.

Ключевая идея:

нагрузка скачет ⇒ ресурсы выделяем динамически;
алгоритм HNSW жрёт память, но его можно «сплющить» квантованием и развернуть обратно при необходимости.

Что умеет Vectroid

Поиск по HNSW: 90 % recall при 10 QPS и P99 = 34 мс (MS Marco, 138 M векторов).
Индексация 1 M векторов в минуту, 1 B — за 48 мин.
Записи становятся видны почти сразу после вставки.
Масштаб до миллиардов векторов в одном пространстве.
Пишущая и читающая части масштабируются отдельно, данные живут в GCS/S3, индексы подгружаются лениво и выгружаются при простое.

Архитектура
Два независимых микросервиса: ingest и query. Все слои (вставка, индекс, поиск) масштабируются отдельно, память экономится квантованием и покадровой выгрузкой.

Попробовать бесплатно — 100 ГБ индексов навсегда.

by mathewpregasen • 12 сентября 2025 г. в 16:56 • 80 points

Оригинал • HN

#hnsw #vector-databases #serverless #gcs #s3 #clickhouse #vector-search #quantization

Комментарии (41)

Предложена идея «векторного движка» как лёгкой встраиваемой библиотеки для быстрого построения и поиска эмбеддингов, без переизобретения велосипеда в каждом продукте.
Участники спорят о масштабируемости: 1 млрд 4096-мерных векторов теоретически невозможно держать в одной VRAM-карте (4 Т скаляров), но можно разбить на кластеры или сжать квантованием.
Ключевой вызов — не алгоритм (HNSW/IVF), а распределённая архитектура: отдельное масштабирование записи и чтения, баланс цена-точность-латентность.
Уже есть похожие open-source решения (USearch в ClickHouse, TurboPuffer), но новые SaaS-продукты (Vectroid и др.) обещают серверлесс, объектное хранилище и «редисо-подобный» кэш.
Часть аудитории критикует закрытость кода и риск вендор-локина; стартапы отвечают, что opensource пока замедляет релизы, а вектора легко экспортировать.

Will Amazon S3 Vectors kill vector databases or save them? (zilliz.com) 🔥 Горячее

Amazon S3 Vectors: убийца или спаситель векторных БД?

AWS запустил S3 Vectors — хранилище эмбеддингов прямо в S3. Цена низкая, интеграция в экосистему AWS очевидна. Кто-то уже похоронил специализированные векторные СУБД вроде Milvus, Pinecone, Qdrant. На деле — не так.

Почему это не конец векторных БД

Стоимость поиска может быть выше, чем вызов LLM. У одного AI-стартапа расходы на векторный поиск в 2× превышают счёт за OpenAI.
RAG вырос до миллиардов векторов за ночь. С3 не масштабируется до таких размеров без потери скорости и точности.
Latency-требования изменились, но не исчезли. Пока LLM генерирует ответ, можно подождать 100 мс, но не 5 с.

Что умеет S3 Vectors

Простой knn через REST / SQL-подобный язык.
Хранит векторы рядом с объектами, без отдельного кластера.
Цена: ≈ 0,32 $/млн запросов + стандартные тарифы S3.

Чего нет

GPU-ускорения, HNSW, PQ, динамического индексирования.
Фильтрация по метаданным на лету.
Горизонтального масштабирования под высокую QPS.
SLA на latency и точность.

Где пригодится

Холодный архив, редкие запросы, прототипы.
Совместная работа с полноценной векторной БД: S3 держит дешёвую «копию всего», а hot-слой (Milvus/Pinecone) — быстрый доступ к топ-N.

Итог
S3 Vectors — ещё один кирпичик в стеке, а не замена. Специализированные СУБД остаются единственным способом получить миллиардные индексы, фильтры и суб-100 мс latency без компромиссов.

by Fendy • 08 сентября 2025 г. в 15:35 • 251 points

Оригинал • HN

#amazon-s3 #vector-databases #milvus #pinecone #qdrant #hnsw #llm #postgresql #pgvector #aws

Комментарии (113)

S3 Vectors — это дёшево и сердито: холодное хранилище, top-k ≤ 30, фильтры после поиска, нет гибридного поиска и нормальной документации.
Подходит лишь для низких QPS и «холодных» данных; для рекомендаций, высокого top-k или сложных фильтров придётся шардировать или выбирать другой продукт.
Цена растёт ступенчато: одна «квантовая» добавка в фильтре может удвоить счёт; у некоторых компаний поиск стоит дороже, чем вызовы OpenAI.
Альтернативы: Turbopuffer, LanceDB, Cloudflare Vectorize, pgvector в Postgres — каждый даёт больше контроля, функций и/или дешевле при миллионах векторов.
AWS не раскрывает внутренности, поэтому сообщество тратит дни на реверс-инжиниринг; при превью-ограничениях производительность может вырасти, но гарантий нет.

Show HN: I replaced vector databases with Git for AI memory (PoC) (github.com)

DiffMem — хранилище памяти для диалоговых ИИ-агентов на базе Git.
Использует коммиты как «снимки» контекста: каждое сообщение = отдельный diff, история полностью версионируется.
Поддерживает ветвление диалогов, откат к любой точке и слияние веток без потери данных.
Работает как лёгкая библиотека Python: pip install diffmem, далее diffmem init, diffmem commit, diffmem checkout.
Внутри — обычный репозиторий Git, поэтому можно пушить на GitHub, делать PR и использовать все привычные инструменты.

by alexmrv • 21 августа 2025 г. в 06:20 • 164 points

Оригинал • HN

#git #python #llm #machine-learning #vector-databases #bm25 #lucene #faiss #rag #github

Комментарии (39)

Пользователь предложил заменить векторные БД на «агентивный» ретривал: LLM сама выбирает нужные файлы из аннотированного списка; для сотен документов это проще и точнее, чем классический RAG.
Критика: такой подход не решает задачи семантического поиска в больших пространствах, для которых и создавались векторные БД.
Поддержка: git-файлы удобны для малого объёма (≈100 МБ), а BM25/Lucene/FAISS-flat можно использовать как быструю альтернативу.
Предложены улучшения: post-commit-хуки для обновления индекса, гибридные поиски, MCP-сервер, временные knowledge-graph.
Автор признаёт, что это PoC для «памяти агентов», а не полноценная замена векторных БД; при интересе готов довести до продакшена.

I want everything local – Building my offline AI workspace (instavm.io) 🔥 Горячее 💬 Длинная дискуссия

Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple container (изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter).
Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось: a0.dev заточен под iOS, Electron + NextJS оказались геморроем.
– Apple container часто падает с Trap; помогает pkill + перезапуск.
Решения:
– Веб-версия assistant-ui через ai-sdk с выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP: http://coderunner.local:8222/mcp.
– Конфиг для Claude Desktop: "coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.

by mkagenius • 08 августа 2025 г. в 18:19 • 1026 points

Оригинал • HN

#ollama #assistant-ui #apple-container #playwright #coderunner #jupyter #mcp #docker #rag #vector-databases

Комментарии (274)

Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo.
Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или docker compose up -d просится как минимальный способ разворачивания.
Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.