Hacker News Digest

Тег: #embeddings

Постов: 5

My trick for getting consistent classification from LLMs (verdik.substack.com) 🔥 Горячее

by frenchmajesty • 13 октября 2025 г. в 18:01 • 280 points

ОригиналHN

#llm#openai#classification#clustering#embeddings#api

Комментарии (65)

  • Обсуждение показало, что классификация твитов с помощью LLM и кэширование похожих твитов похоже на практике работает, но вызывает вопросы о точности и стоимости при больших объемах данных.
  • Участники обсудили альтернативы, включая кластеризацию и использование эмбеддингов для поиска похожих твитов, но подчеркнули, что это может быть дороже и не обязательно лучше.
  • Были выдвинуты идеи использовать более дешевые модели для эмбеддинга и кластеризации, но это может повлиять на точность.
  • Также обсуждались вопросы масштабирования и стоимости при использовании OpenAI API для классификации, а также возможность использования локальных моделей для снижения затрат.

Claude’s memory architecture is the opposite of ChatGPT’s (shloked.com) 🔥 Горячее 💬 Длинная дискуссия

Как устроена память Claude

Claude начинает каждый диалог с чистого листа. Память активируется только по явному запросу: «что мы говорили о…», «вспомни наш разговор…». Система ищет не сжатые профили, а реальные прошлые чаты.

Два инструмента:

  • conversation_search — поиск по ключевым словам (до 10 результатов).
  • recent_chats — хронологический доступ (до 20 чатов, можно по датам).

Пример: «Расскажи о Чандни-Чоук» → Claude находит 9 чатов, объединяет их в краткий рассказ.
Многотемный запрос («Микеланджело, Chainflip, Solana») → три последовательных поиска, 22 чата, итоговая сводка со ссылками.

Философия противоположна ChatGPT

ChatGPT: постоянное автосохранение, обобщённые заметки, «помнит всё».
Claude: ничего не хранит без спроса, полный текст диалога, «помнит по требованию».

Почему:

  • ChatGPT ориентирован на бытовую автоматизацию (подарки, дедлайны).
  • Claude — на исследовательские и редакторские сессии, где важна точность контекста и отсутствие «загрязнения» профиля.

Итог
Две крайности одного спектра: proactive-суммаризация vs reactive-архив. Выбор между ними = выбор между удобством и контролем.

by shloked • 11 сентября 2025 г. в 18:55 • 401 points

ОригиналHN

#llm#claude#memory-architecture#conversational-ai#vector-search#embeddings#natural-language-processing#ai-models

Комментарии (212)

  • ChatGPT строит «профиль пользователя» (суммаризация + эмбеддинги) и, по мнению многих, готовится к показу персонализированной рекламы; Claude пока просто ищет по истории чатов без генерации сводок.
  • Половина участников отключили память: боятся «заражения» старыми галлюцинациями, слитием несвязанных тем и потери контроля над контекстом.
  • Поддержка памяти в ChatGPT делится на явную (видимую в UI и вшитую в системный промпт) и скрытую (runtime-выборка из эмбеддингов всей истории).
  • У Claude memory=vector-search: без построения профиля, но зато часто промахивается, если запрос не дословно совпадает с прошлым чатом.
  • Технические пользователи просят внешние хранилища (MCP/API), чтобы сами решать, что и когда подтягивать; провайдеры, похоже, RL-обучают модели «прилипать» к родным механизмам памяти.

Show HN: Semantic grep for Claude Code (local embeddings) (github.com)

GitHub-репозиторий BeaconBay/ck
Публичный проект без описания.
Кнопки: «Code», «Issues», «Pull requests», «Actions», «Projects», «Wiki», «Security», «Insights».
Последний коммит: 2 года назад.
Язык: C.
Лицензия: отсутствует.

by Runonthespot • 07 сентября 2025 г. в 11:20 • 147 points

ОригиналHN

#rust#tree-sitter#embeddings#vector-search#semantic-search#code-search#baai-bge-small-en-v1.5#gemma#github

Комментарии (60)

  • Утилита ck — это «семантический grep» на Rust: строет локальный векторный индекс файлов и ищет по смыслу, а не только по ключевым словам.
  • Работает через embeddings (BAAI/bge-small-en-v1.5, планируется Gemma), повторное индексирование запускается автоматически при изменении файлов.
  • Поддерживает почти все языки, но для точного семантического чанкинга требуется донастройка tree-sitter; grep-режим остаётся дефолтом.
  • Пользователи жалуются на медленный поиск в больших проектах, отсутствие TypeScript-LSP и «разрезание» эмодзи; README считают «AI-флаффным».
  • Альтернативы: Codanna, Serena, Roo с Qdrant, SemTools; автор приглашает тестеров и PR для доведения до зрелости.

A 20-Year-Old Algorithm Can Help Us Understand Transformer Embeddings (ai.stanford.edu)

Как 20-летний алгоритм помогает понять эмбеддинги трансформеров

Чтобы понять, о чём думает LLM, когда она слышит «Java», нужно разложить внутренние векторы на понятные человеку концепции. Это формулируется как задача dictionary learning: эмбеддинг представляется как разреженная сумма базовых векторов-концептов. В 2023 г. Bricken и др. предложили учить словарь через sparse autoencoder (SAE), отказавшись от классических методов из-за масштабируемости и опасения «слишком сильного» восстановления признаков.

Мы показали, что 20-летний алгоритм KSVD, с минимальными доработками, справляется с миллионами примеров и тысячами измерений. Наивная реализация требовала бы 30 дней; наша версия DB-KSVD ускорена в 10 000 раз и работает 8 минут. DB-KSVD обобщает k-means, но позволяет приписывать объект сразу нескольким «кластерам» (концептам).

Библиотека KSVD.jl доступна из Python:

import torch, juliacall; jl = juliacall.Main
jl.seval("using KSVD")
Y = torch.rand(128, 5000, dtype=torch.float32)
res = jl.ksvd(Y.numpy(), 256, 3)  # словарь 256, sparsity 3

На бенчмарке SAEBench DB-KSVD и расширение MatryoshkaDB-KSVD показывают результаты, сравнимые с SAE, по шести метрикам: восстановление эмбеддингов, разделение концептов, их интерпретируемость и др.

by jemoka • 27 августа 2025 г. в 18:08 • 76 points

ОригиналHN

#algorithms#machine-learning#transformers#embeddings#ksvd#python#julia#torch#sparse-coding#llm

Комментарии (11)

  • В чате поделились скрытым гемом — второй половиной двухчасового видео Леланда Мак-Иннеса (автора UMAP) о построении эмбеддингов через пред-преобразования и SVD.
  • Участники отметили отличное время публикации: идея пригодилась для текущих задач.
  • Основная претензия — авторы не расшифровали сразу аббревиатуры, особенно KSVD, что замедлило чтение.
  • Уточнили: KSVD ≠ обычный SVD, это алгоритм разреженного кодирования с избыточным базисом и разреженными активациями.

Achieving 10,000x training data reduction with high-fidelity labels (research.google)

Сжатая суть статьи

Идентификация нарушающей политику рекламы требует глубокого контекста и культурной чувствительности — сильные стороны LLM. Однако дообучение требует дорогих, качественных разметок, а политика и типы нарушений постоянно меняются. Мы предложили масштабируемый процесс активного обучения, который сводит объём данных с 100 000 до менее 500 примеров и повышает согласованность с экспертами до 65 %. В продакшене крупные модели используют в 10 000 раз меньше данных без потери качества.

Процесс курирования

  1. Нулевой LLM размечает весь трафик (1).
  2. Кластеризуем «нарушения» и «безопасные» примеры; пересечения кластеров указывают на неуверенность модели (2).
  3. Внутри пересечений выбираем пары близких, но по-разному размеченных примеров (3).
  4. Эксперты размечают приоритетные пары (4).
  5. Полученные метки делятся: часть — для дообучения, часть — для оценки по двум метрикам: внутренняя согласованность экспертов и согласованность «модель ↔ человек». Итерации повторяются до плато.

Метрика
Используем Cohen’s Kappa: 0 — случайное совпадение, >0,8 — отлично. Не требует «золотого стандарта».

Эксперименты
Сравнили Gemini Nano-1 (1,8 B) и Nano-2 (3,25 B) на двух задачах разной сложности. Базовые модели дообучались на ~100 k разметок краудсорсом. Курированные модели — на ~400 примерах за 6 итераций. Все модели вышли на плато, не догнав внутреннее согласие экспертов.

by badmonster • 07 августа 2025 г. в 21:11 • 136 points

ОригиналHN

#active-learning#machine-learning#llm#clustering#data-labeling#google#embeddings#pca

Комментарии (25)

  • Участники сомневаются в заявлении, что «<1 % рекламы — кликбейт», приводя анекдоты о массе скамов и повторяющихся мошеннических объявлениях.
  • Поднимается тема Active Learning: один доклад показывает, что после нормализации условий случайный выбор примеров для разметки может быть эффективнее «умных» стратегий.
  • Критика метода кластеризации: неясно, как получаются пересекающиеся кластеры, если множества «кликбейт/не кликбейт» не пересекаются.
  • Спрашивают, какая именно модель даёт эмбеддинги: LLM или специализированная модель с контрастным обучением; тип кластеризации и роль PCA тоже не описаны.
  • Некоторые считают, что гиперсферы и SVM в диаграмме могут быть намеренным «затуманиванием» ключевых деталей выбора примеров для разметки.