Show HN: Building a web search engine from scratch with 3B neural embeddings
- Цель: за 2 месяца с нуля собрать поисковик, который выдаёт только качественный контент, используя 3 млрд нейро-эмбеддингов.
- Мотив: классические поисковики скатываются в SEO-спам, а трансформерные эмбеддинги уже «понимают» язык.
Что вышло
- 200 GPU → 3 млрд SBERT-векторов.
- Пик: 50 тыс. страниц/сек, 280 млн страниц в индексе.
- Latency запроса ≈ 500 мс.
- RocksDB + HNSW на 200 ядрах, 4 ТБ ОЗУ, 82 ТБ SSD.
Архитектура (сверху вниз)
- Crawler – горизонтально масштабируемый, 50 к/с.
- Нормализация – чистка HTML, удаление шаблонов.
- Чанкинг – разбиение на семантические блоки + «цепочка утверждений» для контекста.
- Pipeline – CPU-часть (чистка, чанки) → GPU-часть (эмбеддинги).
- Storage – RocksDB для метаданных, HNSW для векторов, шардировано 200-way.
- Service mesh – gRPC, балансировка, отказоустойчивость.
- SERP – ранжирование, сниппеты, AI-ассистент, трекинг сессий.
- Knowledge graph – сущности и связи между ними, довесок к векторам.
Ключевые фокусы
- Latency: кэш L2, предвычисленные top-k, батчинг GPU.
- Качество поиска: эмбеддинги ловят интент, а не ключевики; минимум SEO-спама.
- Демо: живой инстанс доступен (ссылка в оригинале).
Цена
≈ 12 000 $ за два месяца (GPU, SSD, трафик).
Дальше
- Больше языков, real-time индекс, персонализация, API для разработчиков.