The Case Against PGVector
Автор статьи, имея опыт внедрения pgvector в production, утверждает, что существует значительный разрыв между теоретическими преимуществами расширения и реальными сложностями при масштабировании. Многие блог-посты, по его мнению, написаны на основе локальных тестов с небольшими наборами данных (около 10 000 векторов) и упускают критически важные детали. Основные проблемы связаны с выбором индексов — как IVFFlat, так и HNSW имеют существенные недостатки: первый требует предварительного указания количества кластеров, что严重影响 точность и производительность, а второй, несмотря на лучшую точность, создает операционные сложности.
Реальное время поиска практически невозможно обеспечить из-за особенностей обновления индексов, а гибридный поиск требует самостоятельной реализации. Автор отмечает, что для эффективной работы с pgvector нужно глубоко разбираться в планировщике запросов и постоянно искать обходные пути для множественных фильтров. В итоге он приходит к выводу, что специализированные векторные базы данных, вероятно, окажутся дешевле и эффективнее для production-сред, чем попытки адаптировать pgvector для серьезных нагрузок.