Комментарии (65)
- Обсуждение показало, что классификация твитов с помощью LLM и кэширование похожих твитов похоже на практике работает, но вызывает вопросы о точности и стоимости при больших объемах данных.
- Участники обсудили альтернативы, включая кластеризацию и использование эмбеддингов для поиска похожих твитов, но подчеркнули, что это может быть дороже и не обязательно лучше.
- Были выдвинуты идеи использовать более дешевые модели для эмбеддинга и кластеризации, но это может повлиять на точность.
- Также обсуждались вопросы масштабирования и стоимости при использовании OpenAI API для классификации, а также возможность использования локальных моделей для снижения затрат.
Claude’s memory architecture is the opposite of ChatGPT’s 🔥 Горячее 💬 Длинная дискуссия
Как устроена память Claude
Claude начинает каждый диалог с чистого листа. Память активируется только по явному запросу: «что мы говорили о…», «вспомни наш разговор…». Система ищет не сжатые профили, а реальные прошлые чаты.
Два инструмента:
conversation_search— поиск по ключевым словам (до 10 результатов).recent_chats— хронологический доступ (до 20 чатов, можно по датам).
Пример: «Расскажи о Чандни-Чоук» → Claude находит 9 чатов, объединяет их в краткий рассказ.
Многотемный запрос («Микеланджело, Chainflip, Solana») → три последовательных поиска, 22 чата, итоговая сводка со ссылками.
Философия противоположна ChatGPT
ChatGPT: постоянное автосохранение, обобщённые заметки, «помнит всё».
Claude: ничего не хранит без спроса, полный текст диалога, «помнит по требованию».
Почему:
- ChatGPT ориентирован на бытовую автоматизацию (подарки, дедлайны).
- Claude — на исследовательские и редакторские сессии, где важна точность контекста и отсутствие «загрязнения» профиля.
Итог
Две крайности одного спектра: proactive-суммаризация vs reactive-архив. Выбор между ними = выбор между удобством и контролем.
Комментарии (212)
- ChatGPT строит «профиль пользователя» (суммаризация + эмбеддинги) и, по мнению многих, готовится к показу персонализированной рекламы; Claude пока просто ищет по истории чатов без генерации сводок.
- Половина участников отключили память: боятся «заражения» старыми галлюцинациями, слитием несвязанных тем и потери контроля над контекстом.
- Поддержка памяти в ChatGPT делится на явную (видимую в UI и вшитую в системный промпт) и скрытую (runtime-выборка из эмбеддингов всей истории).
- У Claude memory=vector-search: без построения профиля, но зато часто промахивается, если запрос не дословно совпадает с прошлым чатом.
- Технические пользователи просят внешние хранилища (MCP/API), чтобы сами решать, что и когда подтягивать; провайдеры, похоже, RL-обучают модели «прилипать» к родным механизмам памяти.
Show HN: Semantic grep for Claude Code (local embeddings)
GitHub-репозиторий BeaconBay/ck
Публичный проект без описания.
Кнопки: «Code», «Issues», «Pull requests», «Actions», «Projects», «Wiki», «Security», «Insights».
Последний коммит: 2 года назад.
Язык: C.
Лицензия: отсутствует.
Комментарии (60)
- Утилита ck — это «семантический grep» на Rust: строет локальный векторный индекс файлов и ищет по смыслу, а не только по ключевым словам.
- Работает через embeddings (BAAI/bge-small-en-v1.5, планируется Gemma), повторное индексирование запускается автоматически при изменении файлов.
- Поддерживает почти все языки, но для точного семантического чанкинга требуется донастройка tree-sitter; grep-режим остаётся дефолтом.
- Пользователи жалуются на медленный поиск в больших проектах, отсутствие TypeScript-LSP и «разрезание» эмодзи; README считают «AI-флаффным».
- Альтернативы: Codanna, Serena, Roo с Qdrant, SemTools; автор приглашает тестеров и PR для доведения до зрелости.
A 20-Year-Old Algorithm Can Help Us Understand Transformer Embeddings
Как 20-летний алгоритм помогает понять эмбеддинги трансформеров
Чтобы понять, о чём думает LLM, когда она слышит «Java», нужно разложить внутренние векторы на понятные человеку концепции. Это формулируется как задача dictionary learning: эмбеддинг представляется как разреженная сумма базовых векторов-концептов. В 2023 г. Bricken и др. предложили учить словарь через sparse autoencoder (SAE), отказавшись от классических методов из-за масштабируемости и опасения «слишком сильного» восстановления признаков.
Мы показали, что 20-летний алгоритм KSVD, с минимальными доработками, справляется с миллионами примеров и тысячами измерений. Наивная реализация требовала бы 30 дней; наша версия DB-KSVD ускорена в 10 000 раз и работает 8 минут. DB-KSVD обобщает k-means, но позволяет приписывать объект сразу нескольким «кластерам» (концептам).
Библиотека KSVD.jl доступна из Python:
import torch, juliacall; jl = juliacall.Main
jl.seval("using KSVD")
Y = torch.rand(128, 5000, dtype=torch.float32)
res = jl.ksvd(Y.numpy(), 256, 3) # словарь 256, sparsity 3
На бенчмарке SAEBench DB-KSVD и расширение MatryoshkaDB-KSVD показывают результаты, сравнимые с SAE, по шести метрикам: восстановление эмбеддингов, разделение концептов, их интерпретируемость и др.
Комментарии (11)
- В чате поделились скрытым гемом — второй половиной двухчасового видео Леланда Мак-Иннеса (автора UMAP) о построении эмбеддингов через пред-преобразования и SVD.
- Участники отметили отличное время публикации: идея пригодилась для текущих задач.
- Основная претензия — авторы не расшифровали сразу аббревиатуры, особенно KSVD, что замедлило чтение.
- Уточнили: KSVD ≠ обычный SVD, это алгоритм разреженного кодирования с избыточным базисом и разреженными активациями.
Achieving 10,000x training data reduction with high-fidelity labels
Сжатая суть статьи
Идентификация нарушающей политику рекламы требует глубокого контекста и культурной чувствительности — сильные стороны LLM. Однако дообучение требует дорогих, качественных разметок, а политика и типы нарушений постоянно меняются. Мы предложили масштабируемый процесс активного обучения, который сводит объём данных с 100 000 до менее 500 примеров и повышает согласованность с экспертами до 65 %. В продакшене крупные модели используют в 10 000 раз меньше данных без потери качества.
Процесс курирования
- Нулевой LLM размечает весь трафик (1).
- Кластеризуем «нарушения» и «безопасные» примеры; пересечения кластеров указывают на неуверенность модели (2).
- Внутри пересечений выбираем пары близких, но по-разному размеченных примеров (3).
- Эксперты размечают приоритетные пары (4).
- Полученные метки делятся: часть — для дообучения, часть — для оценки по двум метрикам: внутренняя согласованность экспертов и согласованность «модель ↔ человек». Итерации повторяются до плато.
Метрика
Используем Cohen’s Kappa: 0 — случайное совпадение, >0,8 — отлично. Не требует «золотого стандарта».
Эксперименты
Сравнили Gemini Nano-1 (1,8 B) и Nano-2 (3,25 B) на двух задачах разной сложности. Базовые модели дообучались на ~100 k разметок краудсорсом. Курированные модели — на ~400 примерах за 6 итераций. Все модели вышли на плато, не догнав внутреннее согласие экспертов.
Комментарии (25)
- Участники сомневаются в заявлении, что «<1 % рекламы — кликбейт», приводя анекдоты о массе скамов и повторяющихся мошеннических объявлениях.
- Поднимается тема Active Learning: один доклад показывает, что после нормализации условий случайный выбор примеров для разметки может быть эффективнее «умных» стратегий.
- Критика метода кластеризации: неясно, как получаются пересекающиеся кластеры, если множества «кликбейт/не кликбейт» не пересекаются.
- Спрашивают, какая именно модель даёт эмбеддинги: LLM или специализированная модель с контрастным обучением; тип кластеризации и роль PCA тоже не описаны.
- Некоторые считают, что гиперсферы и SVM в диаграмме могут быть намеренным «затуманиванием» ключевых деталей выбора примеров для разметки.