Hacker News Digest

12 августа 2025 г. в 16:02 • blog.wilsonl.in • ⭐ 577 • 💬 97

OriginalHN

Show HN: Building a web search engine from scratch with 3B neural embeddings

  • Цель: за 2 месяца с нуля собрать поисковик, который выдаёт только качественный контент, используя 3 млрд нейро-эмбеддингов.
  • Мотив: классические поисковики скатываются в SEO-спам, а трансформерные эмбеддинги уже «понимают» язык.

Что вышло

  • 200 GPU → 3 млрд SBERT-векторов.
  • Пик: 50 тыс. страниц/сек, 280 млн страниц в индексе.
  • Latency запроса ≈ 500 мс.
  • RocksDB + HNSW на 200 ядрах, 4 ТБ ОЗУ, 82 ТБ SSD.

Архитектура (сверху вниз)

  1. Crawler – горизонтально масштабируемый, 50 к/с.
  2. Нормализация – чистка HTML, удаление шаблонов.
  3. Чанкинг – разбиение на семантические блоки + «цепочка утверждений» для контекста.
  4. Pipeline – CPU-часть (чистка, чанки) → GPU-часть (эмбеддинги).
  5. Storage – RocksDB для метаданных, HNSW для векторов, шардировано 200-way.
  6. Service mesh – gRPC, балансировка, отказоустойчивость.
  7. SERP – ранжирование, сниппеты, AI-ассистент, трекинг сессий.
  8. Knowledge graph – сущности и связи между ними, довесок к векторам.

Ключевые фокусы

  • Latency: кэш L2, предвычисленные top-k, батчинг GPU.
  • Качество поиска: эмбеддинги ловят интент, а не ключевики; минимум SEO-спама.
  • Демо: живой инстанс доступен (ссылка в оригинале).

Цена

≈ 12 000 $ за два месяца (GPU, SSD, трафик).

Дальше

  • Больше языков, real-time индекс, персонализация, API для разработчиков.