Hacker News Digest

Тег: #search-engines

Постов: 7

Mullvad: Shutting down our search proxy Leta (mullvad.net)

by holysoles • 08 ноября 2025 г. в 00:37 • 190 points

ОригиналHN

#duckduckgo#google#kagi#brave#search-engines#privacy#tors

Комментарии (126)

  • Пользователи обсуждают, что DuckDuckGo и другие поисковики, включая Leta, ушли из-за нарушения TOS Google, что делает невозможным кеширование результатов поиска.
  • Участники обсуждают, что качество результатов поиска ухудшилось, и что поисковые системы в целом деградируют.
  • Некоторые пользователи делятся альтернативами, включая Kagi, SearxNG и Brave.
  • Обсуждается, что поисковые системы в целом переживают изменения, и что компании, возможно, двигаются от поиска к другим проектам.

Language Support for Marginalia Search (marginalia.nu)

Поисковик Marginalia запустил пилотную программу с экспериментальной поддержкой немецкого, французского и шведского языков. Ранее система была ориентирована исключительно на английский, и её код содержал англоцентричные допущения. Поддержка всех языков одновременно невозможна из-за их фундаментальных различий: японский требует специальной нормализации из-за нескольких алфавитов и отсутствия пробелов между словами, а латинский имеет десятки форм каждого слова с гибким порядком слов.

Система обработки языка включает несколько этапов: извлечение текста, определение языка, разбиение на предложения, нормализацию Unicode, стемминг, POS-теггинг и извлечение ключевых слов. Основные проблемы включают несовершенство стемминга (например, "universe" и "university" считаются одинаковыми), культурные различия в нормализации (например, "tröjan" и "trojan" в шведском) и проблему начальной загрузки для TF-IDF в новых языках. Для решения используется конфигурируемый XML-файл с языковыми настройками и грамматическими паттернами.

by Bogdanp • 21 октября 2025 г. в 06:48 • 152 points

ОригиналHN

#search-engines#multilingual-support#nlp#pos-tagging#stemming#unicode#xml#apis#rdrpostagger

Комментарии (12)

  • Обсуждение показало, что Marginalia не только индексирует, но и предоставляет API и поисковые виджеты для сторонних проектов.
  • Участники обсудили возможность интеграции Marginalia в качестве поискового бэкенда для сайтов-агрегаторов, подобно тому, как HN использует Algolia.
  • Разработчик Marginalia упомянул, что работает над фильтрацией по доменам и скоро выпустит публичный API.
  • Также обсуждались детали реализации: RDRPOSTagger используется для POS-теггинга, но с оптимизациями, чтобы ускорить обработку.
  • Участники отметили, что Marginalia — это не только поисковый движок, но и инструмент для поиска по собственным закладкам и комментариям.

Everything that's wrong with Google Search in one image (bitbytebit.substack.com) 🔥 Горячее 💬 Длинная дискуссия

by recroad • 24 сентября 2025 г. в 22:11 • 1091 points

ОригиналHN

#google#search-engines#seo#advertising#duckduckgo#kagi#firefox#amazon

Комментарии (625)

  • Пользователи отмечают агрессивное размещение Google спонсируемых результатов и рекламы конкурентов при поиске брендовых запросов (Firefox → Opera, Amazon → Temu).
  • Многие считают, что качество поиска Google и YouTube значительно ухудшилось из-за засилья SEO-спама, платного контента и непрозрачного ранжирования.
  • Обсуждается проблема введения в заблуждение: реклама маскируется под органические результаты, что приводит к рискам безопасности и финансовым потерям (например, поддельные сайты для оформления виз).
  • В качестве альтернатив предлагаются платные поисковики без рекламы (Kagi) или другие движки (DuckDuckGo), а также обязательное использование блокировщиков рекламы.
  • Участники полагают, что Google сознательно жертвует качеством поиска в погоне за прибылью, так как большинство пользователей молча терпят изменения.

Guy running a Google rival from his laundry room (fastcompany.com)

  • Райан Пирс запустил поисковик Searcha Page и приватную версию Seek Ninja из прачечной: сервер стоит между стиралкой и сушилкой.
  • Железо — бывшие серверные запчасти, 40 ТБ, уже больше, чем у Google в 2000-м.
  • Секрет масштаба — ИИ: модель раскрывает смысл запроса и подбирает синонимы, остальное «классика» 2000-х.
  • База — 2 млрд страниц, к лету 4 млрд; качество результатов на уровне крупных игроков.
  • Тепло и шум выгнали сервер из спальни; дверь в прачечную приходится держать открытой.

by coloneltcb • 10 сентября 2025 г. в 13:17 • 187 points

ОригиналHN

#search-engines#artificial-intelligence#crawling#github#homelab#open-source#google

Комментарии (123)

  • Пирс перенёс сервер в прачечную из-за жара и шума — классика хоумлаба.
  • Самодельный поисковик на 1,5 млн доменов выложен на GitHub, но уже лежит под нагрузкой.
  • Все сходятся: главное не поиск, а crawling враждебного интернета без прокси и IP-ротации.
  • FastCompany назвало проект «соперником Google» — читатели смеются, это просто кликбейт.
  • Советуют Yacy, Common Crawl и openwebsearch.eu, но предупреждают: векторный поиск ещё не спамят, но скоро начнут.

Google admits anti-competitive conduct involving Google Search in Australia (accc.gov.au) 🔥 Горячее 💬 Длинная дискуссия

Google признал антиконкурентное поведение в Австралии:

  • компания согласилась, что ограничивала выбор поисковой системы на Android-устройствах;
  • подписала обязательство перед ACCC изменить практику и уведомлять пользователей о доступных альтернативах Google Search;
  • обязательство действует 5 лет и подлежит судебному контролю;
  • ACCC считает признание важным шагом к восстановлению конкуренции.

by Improvement • 18 августа 2025 г. в 02:54 • 266 points

ОригиналHN

#google#android#competition-law#search-engines#accc

Комментарии (165)

  • Google заплатила Telstra, Optus и TPG, чтобы быть единственным предустановленным поиском на Android-смартфонах в Австралии с декабря 2019 по март 2021.
  • Участники сделки получили долю от рекламной выручки Google; регулятор назвал это антиконкурентным и оштрафовал Google на 55 млн AUD.
  • Комментаторы считают штраф «карманными деньгами» и требуют наказывать процентом от глобального дохода или привлекать к уголовной ответственности.
  • Многие отмечают, что Telstra, Optus и TPG тоже должны быть оштрафованы как сознательные участники схемы.
  • Некоторые пользователи уже перешли на DuckDuckGo, Kagi и другие поисковики, но большинство остаётся «запертым» в экосистеме Google.

Our European search index goes live (blog.ecosia.org)

Ecosia начал отдавать часть результатов поиска из нового европейского индекса, созданного совместно с Qwant. Пока это касается Франции: к концу года 50 % запросов там будет обрабатываться собственным индексом, далее — другие страны.

Что это значит
Индекс — это база, из которой поисковик берёт ответы. До сих пор почти все мелкие поисковики зависели от «Большой тройки». Новый индекс Staan даёт альтернативу: быстрый, приватный и подконтрольный Европе.

Зачем независимость
Большая часть европейских облаков, ИИ и поиска сидит на американских стеках. Отключи их — и континент останется без ключевых сервисов. Собственный индекс снижает риски, позволяет развивать этичный ИИ и сохранять приватность.

Что дальше
EUSP открыт для внешних инвестиций и других компаний, создавая конкурентную среду и основу для инноваций. Пользователи Ecosia пока не заметят изменений, но этот шаг укрепляет европейскую цифровую автономию и помогает продвигать климатическую миссию.

by maelito • 08 августа 2025 г. в 21:12 • 194 points

ОригиналHN

#ecosia#qwant#search-engines#european-union#digital-sovereignty#privacy#llm#cloud-computing#data-centers#censorship

Комментарии (104)

  • Пользователи жалуются на «грязный» стартовый экран Ecosia и отсутствие настройки выдачи.
  • Выпущен французский пилот европейского поискового индекса Staan (Ecosia + Qwant); скорость и качество приятно удивили, но охват пока мал.
  • Большинство поддерживает идею «цифрового суверенитета» ЕС, но спорят: ли это реальная демократия или просто замена американского контроля европейским.
  • Критика «Chat Control» и цензуры; противники считают, что ЕС всё равно лучше США и Китая, потому что можно голосовать.
  • Некоторые сомневаются в честности маркетинга Ecosia («сажают деревья только за клики по рекламе»).

I dumped Google for Kagi (arstechnica.com) 🔥 Горячее 💬 Длинная дискуссия

by thimabi • 05 августа 2025 г. в 14:12 • 346 points

ОригиналHN

#google#kagi#search-engines

Комментарии (235)

Kagi sucks, this is a bad call.Just kidding, I love Kagi and I get a ton of value from it! I always like the saying that "the best ideas are obvious in hindsight", and that is absolutely how I feel about Kagi. Being able to uprank, downrank, and/or pinning, blacklisting domains i