Building a Simple Search Engine That Works
Создание простого поискового движка, который работает с существующей базой данных без внешних сервисов, дает полный контроль и упрощает отладку. Основная концепция — токенизация контента, его хранение и сопоставление токенов при поиске с последующим расчетом релевантности. Схема базы данных включает две таблицы: index_tokens для хранения уникальных токенов с их весами и index_entries для связи токенов с документами. Индексы оптимизируют запросы по типу документа, ID токена и весу.
Токенизация — ключевой процесс, разбивающий текст на searchable части. Реализованы разные стратегии: WordTokenizer (вес 20) для точных совпадений, который нормализует текст и фильтрует короткие слова, и PrefixTokenizer (вес 5) для частичных совпадений, генерирующий префиксы слов. Интерфейс TokenizerInterface упрощает расширение функциональности. Вес токенов рассчитывается как произведение веса поля, веса токенизатора и квадратного корня длины токена, что обеспечивает гибкую систему ранжирования результатов.
Комментарии (69)
- Поисковые системы сталкиваются с трудностью масштабирования и обработки больших объемов данных, что делает их разработку сложной задачей.
- Пользователи отмечают, что даже крупные компании, такие как Google, Microsoft и OpenAI, не справляются с поиском, что подчеркивает сложность задачи.
- Некоторые участники обсуждения подчеркивают, что создание поисковой системы требует значительных усилий и ресурсов, и что использование готовых решений, таких как Lucene, может быть более практичным.
- Также обсуждается, что поисковые системы должны быть способны обрабатывать неоднозначные запросы и предоставлять релевантные результаты, что является дополнительной сложностью.
- Участники также отмечают, что поисковые системы должны быть способны интегрировать различные источники данных и предоставлять удобный интерфейс для пользователя.
SlopStop: Community-driven AI slop detection in Kagi Search 🔥 Горячее 💬 Длинная дискуссия
Kagi Search представила SlopStop — первую в мире сообществом управляемую систему для обнаружения и понижения в рейтинге обманного контента, созданного ИИ. "AI slop" определяется как обманчивый или низкокачественный контент, созданный для манипуляций, а не помощи пользователям. Система будет показывать в результатах поиска оценку качества контента, позволять пользователям помечать ИИ-материалы, понижать в рейтинге домены, в основном публикующие ИИ-контент, и маркировать ИИ-изображения и видео.
Эта инициатива дополняет проект Small Web, направленный на поддержку человеческих создателей. Kagi стремится создать крупнейшую базу данных доменов с ИИ-контентом для борьбы с галлюцинациями и дезинформацией, которая, по данным статьи, составляет 30-41% ошибок в большинстве чат-ботов. Пользователи могут сообщать о подозрительном контенте, щелкая иконку щита рядом с результатом поиска.
Комментарии (232)
- Пользователи обсуждают борьбу с AI-генерируемым "мусором" (slop) в поисковых результатах и на платформах, предлагая флаги для его пометки и снижения рейтинга.
- Поднимается вопрос о надежности детекции AI-контента через измерение энтропии или использование других AI, что вызывает сомнения в эффективности и ведет к "гонке вооружений".
- Критикуются компании, которые сами используют AI для контента, но борются с AI-мусором, подчеркивается ирония и абсурдность ситуации.
- Обсуждается проблема различия SEO-спама и AI-контента, а также необходимость человеческой проверки и раскрытия использования AI создателями.
- Появляются опасения по поводу масштабирования детекции, ложных обвинений и этических аспектов, включая влияние на малый бизнес и качество контента.
Комментарии (126)
- Пользователи обсуждают, что DuckDuckGo и другие поисковики, включая Leta, ушли из-за нарушения TOS Google, что делает невозможным кеширование результатов поиска.
- Участники обсуждают, что качество результатов поиска ухудшилось, и что поисковые системы в целом деградируют.
- Некоторые пользователи делятся альтернативами, включая Kagi, SearxNG и Brave.
- Обсуждается, что поисковые системы в целом переживают изменения, и что компании, возможно, двигаются от поиска к другим проектам.
Language Support for Marginalia Search
Поисковик Marginalia запустил пилотную программу с экспериментальной поддержкой немецкого, французского и шведского языков. Ранее система была ориентирована исключительно на английский, и её код содержал англоцентричные допущения. Поддержка всех языков одновременно невозможна из-за их фундаментальных различий: японский требует специальной нормализации из-за нескольких алфавитов и отсутствия пробелов между словами, а латинский имеет десятки форм каждого слова с гибким порядком слов.
Система обработки языка включает несколько этапов: извлечение текста, определение языка, разбиение на предложения, нормализацию Unicode, стемминг, POS-теггинг и извлечение ключевых слов. Основные проблемы включают несовершенство стемминга (например, "universe" и "university" считаются одинаковыми), культурные различия в нормализации (например, "tröjan" и "trojan" в шведском) и проблему начальной загрузки для TF-IDF в новых языках. Для решения используется конфигурируемый XML-файл с языковыми настройками и грамматическими паттернами.
Комментарии (12)
- Обсуждение показало, что Marginalia не только индексирует, но и предоставляет API и поисковые виджеты для сторонних проектов.
- Участники обсудили возможность интеграции Marginalia в качестве поискового бэкенда для сайтов-агрегаторов, подобно тому, как HN использует Algolia.
- Разработчик Marginalia упомянул, что работает над фильтрацией по доменам и скоро выпустит публичный API.
- Также обсуждались детали реализации: RDRPOSTagger используется для POS-теггинга, но с оптимизациями, чтобы ускорить обработку.
- Участники отметили, что Marginalia — это не только поисковый движок, но и инструмент для поиска по собственным закладкам и комментариям.
Everything that's wrong with Google Search in one image 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (625)
- Пользователи отмечают агрессивное размещение Google спонсируемых результатов и рекламы конкурентов при поиске брендовых запросов (Firefox → Opera, Amazon → Temu).
- Многие считают, что качество поиска Google и YouTube значительно ухудшилось из-за засилья SEO-спама, платного контента и непрозрачного ранжирования.
- Обсуждается проблема введения в заблуждение: реклама маскируется под органические результаты, что приводит к рискам безопасности и финансовым потерям (например, поддельные сайты для оформления виз).
- В качестве альтернатив предлагаются платные поисковики без рекламы (Kagi) или другие движки (DuckDuckGo), а также обязательное использование блокировщиков рекламы.
- Участники полагают, что Google сознательно жертвует качеством поиска в погоне за прибылью, так как большинство пользователей молча терпят изменения.
Guy running a Google rival from his laundry room
- Райан Пирс запустил поисковик Searcha Page и приватную версию Seek Ninja из прачечной: сервер стоит между стиралкой и сушилкой.
- Железо — бывшие серверные запчасти, 40 ТБ, уже больше, чем у Google в 2000-м.
- Секрет масштаба — ИИ: модель раскрывает смысл запроса и подбирает синонимы, остальное «классика» 2000-х.
- База — 2 млрд страниц, к лету 4 млрд; качество результатов на уровне крупных игроков.
- Тепло и шум выгнали сервер из спальни; дверь в прачечную приходится держать открытой.
Комментарии (123)
- Пирс перенёс сервер в прачечную из-за жара и шума — классика хоумлаба.
- Самодельный поисковик на 1,5 млн доменов выложен на GitHub, но уже лежит под нагрузкой.
- Все сходятся: главное не поиск, а crawling враждебного интернета без прокси и IP-ротации.
- FastCompany назвало проект «соперником Google» — читатели смеются, это просто кликбейт.
- Советуют Yacy, Common Crawl и openwebsearch.eu, но предупреждают: векторный поиск ещё не спамят, но скоро начнут.
Google admits anti-competitive conduct involving Google Search in Australia 🔥 Горячее 💬 Длинная дискуссия
Google признал антиконкурентное поведение в Австралии:
- компания согласилась, что ограничивала выбор поисковой системы на Android-устройствах;
- подписала обязательство перед ACCC изменить практику и уведомлять пользователей о доступных альтернативах Google Search;
- обязательство действует 5 лет и подлежит судебному контролю;
- ACCC считает признание важным шагом к восстановлению конкуренции.
Комментарии (165)
- Google заплатила Telstra, Optus и TPG, чтобы быть единственным предустановленным поиском на Android-смартфонах в Австралии с декабря 2019 по март 2021.
- Участники сделки получили долю от рекламной выручки Google; регулятор назвал это антиконкурентным и оштрафовал Google на 55 млн AUD.
- Комментаторы считают штраф «карманными деньгами» и требуют наказывать процентом от глобального дохода или привлекать к уголовной ответственности.
- Многие отмечают, что Telstra, Optus и TPG тоже должны быть оштрафованы как сознательные участники схемы.
- Некоторые пользователи уже перешли на DuckDuckGo, Kagi и другие поисковики, но большинство остаётся «запертым» в экосистеме Google.
Our European search index goes live
Ecosia начал отдавать часть результатов поиска из нового европейского индекса, созданного совместно с Qwant. Пока это касается Франции: к концу года 50 % запросов там будет обрабатываться собственным индексом, далее — другие страны.
Что это значит
Индекс — это база, из которой поисковик берёт ответы. До сих пор почти все мелкие поисковики зависели от «Большой тройки». Новый индекс Staan даёт альтернативу: быстрый, приватный и подконтрольный Европе.
Зачем независимость
Большая часть европейских облаков, ИИ и поиска сидит на американских стеках. Отключи их — и континент останется без ключевых сервисов. Собственный индекс снижает риски, позволяет развивать этичный ИИ и сохранять приватность.
Что дальше
EUSP открыт для внешних инвестиций и других компаний, создавая конкурентную среду и основу для инноваций. Пользователи Ecosia пока не заметят изменений, но этот шаг укрепляет европейскую цифровую автономию и помогает продвигать климатическую миссию.
Комментарии (104)
- Пользователи жалуются на «грязный» стартовый экран Ecosia и отсутствие настройки выдачи.
- Выпущен французский пилот европейского поискового индекса Staan (Ecosia + Qwant); скорость и качество приятно удивили, но охват пока мал.
- Большинство поддерживает идею «цифрового суверенитета» ЕС, но спорят: ли это реальная демократия или просто замена американского контроля европейским.
- Критика «Chat Control» и цензуры; противники считают, что ЕС всё равно лучше США и Китая, потому что можно голосовать.
- Некоторые сомневаются в честности маркетинга Ecosia («сажают деревья только за клики по рекламе»).
I dumped Google for Kagi 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (235)
Kagi sucks, this is a bad call.Just kidding, I love Kagi and I get a ton of value from it! I always like the saying that "the best ideas are obvious in hindsight", and that is absolutely how I feel about Kagi. Being able to uprank, downrank, and/or pinning, blacklisting domains i