Hacker News Digest

Тег: #rag

Постов: 13

Production RAG: what I learned from processing 5M+ documents (blog.abdellatif.io) 🔥 Горячее

За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.

Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.

by tifa2up • 20 октября 2025 г. в 15:55 • 492 points

ОригиналHN

#langchain#llamaindex#azure#pinecone#turbopuffer#cohere#zerank#gpt-4#gpt-5#rag

Комментарии (104)

  • Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
  • Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
  • Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
  • Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.

Launch HN: LlamaFarm (YC W22) – Open-source framework for distributed AI (github.com)

LlamaFarm — это инструмент для локального развертывания AI-моделей, агентов, баз данных, RAG и пайплайнов за считанные минуты. Он позволяет запускать сложные AI-системы без облачной инфраструктуры, что особенно ценно для разработчиков, работающих с приватными данными или в условиях ограниченного интернета.

Проект упрощает интеграцию различных компонентов, таких как векторизованные базы данных и агенты ИИ, снижая порог входа в создание production-готовых решений. Это ускоряет эксперименты и развертывание, экономя время на настройке окружения.

by mhamann • 07 октября 2025 г. в 15:30 • 92 points

ОригиналHN

#llm#llamafarm#distributed-systems#vector-databases#rag#privacy#open-source#decentralization#github

Комментарии (51)

  • Поддержка децентрализации ИИ и локального запуска моделей для защиты приватности и снижения зависимости от крупных облачных провайдеров
  • LlamaFarm позиционируется как инструмент для декларативной оркестрации локальных AI-систем (RAG, агенты, векторные БД) с акцентом на портативность и контроль над пайплайном
  • Ключевые целевые аудитории — юристы, здравоохранение и госсектор, где критически важны безопасность данных и работа в изолированных средах
  • Отличие от решений вроде LangChain или LlamaIndex — предоставление готового фреймворка для production, а не программируемых компонентов
  • Вызовы: привлечение первых пользователей и упрощение процесса деплоя для широкого внедрения

What makes 5% of AI agents work in production? (motivenotes.ai)

Большинство ИИ-агентов (95%) терпят неудачу в продакшене не из-за недостатка интеллекта моделей, а из-за проблем с контекстной инженерией, управлением памятью и безопасностью. Ключевая идея: базовые модели — это почва, а контекст — семя. Успешные команды избегают тонкой настройки, вместо этого фокусируясь на продвинутом RAG с селективным отбором контекста, валидацией и гибридными архитектурами (семантический слой + метаданные).

Они применяют подход, схожий с feature engineering: версионирование, аудит и тестирование контекста, а не работа с ним как с неструктурированным текстом. Например, text-to-SQL системы редко работают из-за неоднозначности естественного языка и специфичности бизнес-терминологии. Решение — встраивание доменных онтологий и строгих схем, превращающих контекст в управляемый актив, а не в случайный набор данных.

by AnhTho_FR • 02 октября 2025 г. в 22:30 • 94 points

ОригиналHN

#llm#ai-agents#rag#text-to-sql#machine-learning#natural-language-processing

Комментарии (85)

  • Обсуждается разрыв между завышенными ожиданиями от AI (восприятие как "магии") и реальностью, где 95% развертываний AI-агентов терпят неудачу из-за проблем с инфраструктурой, а не с моделями.
  • Подчеркивается важность контекстного инжиниринга, проверенных бизнес-логик и шаблонов, а не прямого генеративного подхода (например, text-to-SQL).
  • Многие решения на основе LLM сводятся к детерминированным системам (деревьям решений), что ставит под вопрос их необходимость вместо более простых и надежных альтернатив.
  • Отмечается, что успех зависит от инженерии ("строительных лесов") — валидации, безопасности, слоев памяти — а не от интеллекта модели.
  • Высказывается критика в адрес маркетинга AI как "волшебства" и генерации контента с помощью AI, который часто оказывается многословным и бессодержательным.

The RAG Obituary: Killed by agents, buried by context windows (nicolasbustamante.com)

RAG-архитектура, доминировавшая в AI последние три года, уступает место новым подходам. Ранние модели вроде GPT-3.5 ограничивались 4–8 тыс. токенов, что делало невозможной работу с объёмными документами — например, отчёт SEC 10-K содержит ~51 тыс. токенов. RAG решал это через разбиение текста на фрагменты (чанки) и поиск релевантных частей, но даже продвинутые методы чанкинга не спасали от потери контекста: финансовые таблицы, сноски и связи между разделами разрушались.

Современные модели с контекстом в миллионы токенов (например, Gemini 1.5) и агентные архитектуры делают RAG избыточным. Зачем извлекать фрагменты, если можно загрузить весь документ целиком? Это устраняет проблемы чанкинга, эмбеддингов и повторного ранжирования. Ключевой вывод: эра компромиссов между точностью и контекстом заканчивается — будущее за системами, работающими с полными данными без промежуточных шагов.

by nbstme • 01 октября 2025 г. в 16:51 • 226 points

ОригиналHN

#rag#llm#gemini#gpt-3.5#bm25#grep#sql#api#context-window#embedding

Комментарии (150)

  • Участники критикуют автора за чрезмерное обобщение: утверждение о "смерти RAG" основано на узком примере поиска в коде и не учитывает масштабируемость и другие сложные use-case'ы (например, миллионы документов в распределенных системах).
  • Подчеркивается, что RAG — это общий паттерн (извлечение информации + обогащение контекста), а не только векторный поиск; grep, SQL, API-вызовы или использование агента с инструментами — это тоже формы RAG.
  • Отмечается, что агентный поиск (с использованием инструментов вроде grep, BM25 и др.) может быть мощнее классического RAG, но он медленнее, дороже и сложнее из-за множественных вызовов функций.
  • Указывается, что большие контекстные окна LLM позволяют им читать целые файлы, что меняет workflow и снижает необходимость в сложных пайплайнах чанкинга и эмбеддингов.
  • Многие видят иронию в том, что автор называет RAG "кошмаром edge-кейсов", в то время как агентный подход с инструментами вроде grep introduces свои сложности (производительность, безопасность, детерминизм).

Paper2Agent: Stanford Reimagining Research Papers as Interactive AI Agents (arxiv.org)

Исследовательские работы превращаются в интерактивных ИИ-агентов, способных отвечать на вопросы, генерировать код и визуализировать данные напрямую из текста статьи. Это достигается за счёт структурированного представления содержания — разделов, формул, алгоритмов — в формате, понятном языковым моделям. Агенты используют RAG для точного извлечения информации и следования исходному контексту, что резко снижает риски галлюцинаций.

Ключевое преимущество — повышение надёжности: ответы строго привязаны к содержимому статьи, а не к общим знаниям модели. Это особенно ценно для сложных технических тем, где точность критична. Практически, такой подход ускоряет взаимодействие с научными материалами, делая их не статичными документами, а динамичными инструментами для исследователей и разработчиков.

by Gaishan • 22 сентября 2025 г. в 22:02 • 134 points

ОригиналHN

#llm#rag#natural-language-processing#research#data-visualization#academic-publishing#arxiv

Комментарии (30)

  • Участники обсуждают, снижает ли автоматизация понимания научных станей глубину познания или же, наоборот, делает исследования более доступными, устраняя бюрократические и технические барьеры.
  • Высказываются опасения по поводу поверхностного понимания и некритического использования ИИ, включая случаи генерации ложных данных и неспособности защитить диссертации.
  • Подчёркивается, что академический стиль письма часто намеренно усложнён, и инструменты для его упрощения могут быть полезны, особенно для инженеров и неэкспертов.
  • Обсуждаются технические аспекты ИИ-агентов: их определение, способность автономно работать с инструментами, безопасность и практическая применимость для запуска описанных в статьях методов.
  • Отмечается, что инструмент, представленный в статье, является практическим примером из области геномики, но его эффективность по сравнению с ручной работой эксперта ставится под вопрос.

The wall confronting large language models (arxiv.org)

Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.

Причины стены

  • Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
  • Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
  • Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.

Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.

Что делать

  • Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
  • Агентские схемы, где LLM вызывает API и внешние системы.
  • Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).

Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.

by PaulHoule • 03 сентября 2025 г. в 11:40 • 133 points

ОригиналHN

#large-language-models#machine-learning#deep-learning#transformers#rag#rl#mmlu#gsm8k#humaneval#big-bench

Комментарии (145)

  • Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
  • Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
  • Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
  • Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
  • Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.

Show HN: Vectorless RAG (github.com)

## Простой RAG с PageIndex

**Цель**  
Показать, как за 5 минут построить полноценный Retrieval-Augmented Generation пайплайн на базе PageIndex.

---

### 1. Установка и импорт

```bash
pip install pageindex openai
import pageindex, openai, os
openai.api_key = os.getenv("OPENAI_API_KEY")

2. Загрузка документов

Поддерживаются PDF, DOCX, TXT, MD, PPTX, CSV, JSON.

docs = pageindex.load_documents("data/")
index = pageindex.Index(name="my_docs")
index.add_documents(docs)

3. Поиск и генерация

query = "Какие преимущества RAG?"
chunks = index.search(query, top_k=3)

context = "\n".join(c.text for c in chunks)
prompt = f"Используй контекст:\n{context}\n\nВопрос: {query}"

answer = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": prompt}]
).choices[0].message.content

print(answer)

4. Потоковый чат

chat = index.chat_session(model="gpt-4")
print(chat.ask("Сравни RAG и fine-tuning"))

5. Сохранение и переиспользование

index.save("my_docs.pidx")
# index = pageindex.Index.load("my_docs.pidx")

Советы

  • Для больших объёмов используй batch_size=100.
  • Повышай top_k при недостаточном контексте.
  • Добавляй metadata={"source": "file.pdf"} для фильтрации.

Готово! Теперь у вас работает RAG без векторных БД и сложной инфраструктуры.

by page_index • 27 августа 2025 г. в 08:39 • 167 points

ОригиналHN

#python#openai#rag#llm#pageindex#gpt-3.5-turbo#gpt-4#semantic-search#chatbot#github

Комментарии (93)

  • Критики считают «vectorless RAG» переизобретением семантического чанкинга + иерархического поиска и сомневаются в масштабируемости.
  • Основной минус — высокие затраты и латентность: каждый запрос требует прогона LLM по всем документам или их крупным фрагментам.
  • Подход может подойти для малого корпуса или офлайн-задач (юрдоки, медкарты), но не для чатов «здесь и сейчас».
  • Некоторые предлагают гибриды: ANN-вектора для быстрого отбора, затем LLM-переранжирование.
  • Пропущены публичные бенчмарки; сравнение ограничено собственным датасетом MAFIN2.5.

A Guide to Gen AI / LLM Vibecoding for Expert Programmers (stochasticlifestyle.com)

Краткий гайд по «vibe-coding» для экспертов

Даже 20-летний ветеран или создатель алгоритмов не «слишком крут» для vibe-coding. Автор — мейнтейнер 200+ пакетов, сооснователь стартапа и лаборатуры MIT — тоже сначала презирал LLM-генерированный код. Месяц назад изменил мнение: 32 агента Claude крутятся в tmux, к ним можно зайти с телефона и «продолжать вибро-кодить».

Почему экспертам это нужно

  • LLM не заменяют, а ускоряют мышление.
  • Рутинные куски (бойлерплейт, тесты, доки) отдаются за секунды.
  • Мозг занят архитектурой и отладкой, а не синтаксисом.

Ключевые правила

  1. Точный промпт
    «Напиши CUDA-ядро, которое…» лучше «сделай быстро».
  2. Маленькие итерации
    Генерируй, проверяй, коммить, повторяй.
  3. Ревью как обычно
    Эксперт всё равно решает, правильно ли.
  4. Автоматизация
    tmux + ssh + скрипты = код 24/7.

Итог
Vibe-coding — это не про «глупый код», а про умное распределение внимания.

by ChrisRackauckas • 22 августа 2025 г. в 14:37 • 96 points

ОригиналHN

#llm#cuda#tmux#ssh#rag#mcp

Комментарии (82)

  • Критика статьи: название «для программистов, ненавидящих свою работу», советы слишком общие, нет практики по контексту, RAG и MCP.
  • Vibe-coding воспринимается как «ведение скрамов» или «управление офшором»: нравится не всем, особенно тем, кто любит сам процесс программирования.
  • Сторонники считают LLM просто новым уровнем абстракции и способом быстрее строить продукты; скептики боятся атрофии навыков и невозможности ревью «тысяч строк кода».
  • Практический совет: дробить задачи на мелкие шаги, давать примеры, проверять каждый модуль, играться с инструментами, чтобы выработать интуицию.
  • Итог: для личных/малых проектов — работает, для больших коммерческих систем — спорно; эффективность зависит не от звания, а от умения чётко задавать контекст и перепроверять результат.

From GPT-4 to GPT-5: Measuring progress through MedHELM [pdf] (fertrevino.com)

%PDF-1.7
50 0 obj
<< /Length 2836 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj

65 0 obj
<< /Length 2952 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj

by fertrevino • 21 августа 2025 г. в 22:52 • 118 points

ОригиналHN

#gpt-4#gpt-5#medhelm#rag#headqa#medbullets#pubmedqa#llm

Комментарии (87)

  • GPT-5 показывает смешанные результаты: лучше справляется с фактами и рассуждениями, но хуже — со структурированными запросами, честностью и доказательной базой.
  • Обычным пользователям, интересующимся здоровьем, важнее всего HeadQA, Medbullets, MedHallu и PubMedQA; при этом RAG-подходы могут быть полезнее «чистого» модельного ответа.
  • Некоторые разработчики отмечают, что GPT-5 быстро решает сложные задачи, но «самоуправляется» и делает лишнее; другие считают улучшение минимальным и связывают это с экономией вычислений.
  • Обсуждаются возможные причины регрессии: маршрутизатор экспертных моделей, ограничения на tool-calls и использование режима «medium» вместо «high» reasoning.

Show HN: I replaced vector databases with Git for AI memory (PoC) (github.com)

DiffMem — хранилище памяти для диалоговых ИИ-агентов на базе Git.
Использует коммиты как «снимки» контекста: каждое сообщение = отдельный diff, история полностью версионируется.
Поддерживает ветвление диалогов, откат к любой точке и слияние веток без потери данных.
Работает как лёгкая библиотека Python: pip install diffmem, далее diffmem init, diffmem commit, diffmem checkout.
Внутри — обычный репозиторий Git, поэтому можно пушить на GitHub, делать PR и использовать все привычные инструменты.

by alexmrv • 21 августа 2025 г. в 06:20 • 164 points

ОригиналHN

#git#python#llm#machine-learning#vector-databases#bm25#lucene#faiss#rag#github

Комментарии (39)

  • Пользователь предложил заменить векторные БД на «агентивный» ретривал: LLM сама выбирает нужные файлы из аннотированного списка; для сотен документов это проще и точнее, чем классический RAG.
  • Критика: такой подход не решает задачи семантического поиска в больших пространствах, для которых и создавались векторные БД.
  • Поддержка: git-файлы удобны для малого объёма (≈100 МБ), а BM25/Lucene/FAISS-flat можно использовать как быструю альтернативу.
  • Предложены улучшения: post-commit-хуки для обновления индекса, гибридные поиски, MCP-сервер, временные knowledge-graph.
  • Автор признаёт, что это PoC для «памяти агентов», а не полноценная замена векторных БД; при интересе готов довести до продакшена.

Show HN: Chroma Cloud – serverless search database for AI (trychroma.com)

Chroma Cloud — серверлес-база поиска с открытым исходным кодом: быстро, дёшево, масштабируемо, надёжно.

Возможности

  • Векторный, полнотекстовый и мета-поиск
  • Форк коллекций
  • Скоро: автоматическая синхронизация данных

Производительность

  • Низкая латентность, высокий QPS
  • Линейное масштабирование данных
  • Хранение в объектном хранилище

DevEx

  • Оплата по факту использования
  • Веб-дашборд, CLI, локальная разработка
  • Интеграция в CI/CD

Как начать

pip install chromadb
import chromadb
client = chromadb.CloudClient()
collection = client.get_or_create_collection("my_docs")
collection.add(
    documents=["Hello, world!", "Chroma is cool"],
    metadatas=[{"src": "demo"}, {"src": "demo"}],
    ids=["d1", "d2"]
)
print(collection.query(query_texts=["hello"], n_results=1))

Документация | Бесплатный старт

by jeffchuber • 18 августа 2025 г. в 19:20 • 86 points

ОригиналHN

#chroma#chromadb#vector-search#full-text-search#llm#python#serverless#cloud#rag#apache-2.0

Комментарии (27)

  • Пользователи спрашивают, почему «open-source» просит деньги: ответ — сам Chroma под Apache 2.0 и бесплатен при самостоятельном развёртывании, а платная версия — это управляемый Chroma Cloud.
  • Chroma поддерживает комбинированный поиск: фильтрацию по метаданным (category=X AND value>Y) + векторное сходство.
  • Некоторые считают, что продукт и калькулятор цен слишком похожи на Turbopuffer; команда Chroma отвечает, что архитектуру обсуждали публично два года и уважают конкурентов.
  • Для нетехнических пользователей Chroma решает задачу «R» в RAG: позволяет LLM «на лету» подтягивать нужные данные без дообучения модели.
  • Стартапам предлагают помощь: совместное планирование, Slack-канал и персональная поддержка.
  • Отличия от pgvector/Redis: собственные индексы (SPANN, SPFresh), шардирование, масштабирование, встроенный regex и trigram-поиск без нагрузки на основную БД.
  • По сравнению с Qdrant Chroma позиционируется как «0 конфигураций и 0 операционной боли».

Qodo CLI agent scores 71.2% on SWE-bench Verified (qodo.ai)

Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.

  • SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
  • Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
  • Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.

Результаты

  • 71,2 % — новый рекорд среди публичных решений.
  • +18,2 п.п. от предыдущего лидера (CodeStory Aide).
  • +31,2 п.п. от первого релиза SWE-bench (2023).

Ключевые инсайты

  • Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
  • Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
  • Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.

Что дальше

  • Публикация детального тех-отчёта и открытого датасета.
  • Расширение до 1 000 задач и добавление новых языков (Go, Rust).

by bobismyuncle • 12 августа 2025 г. в 11:05 • 122 points

ОригиналHN

#python#django#scikit-learn#sympy#llm#rag#benchmarking#swe-bench#github

Комментарии (43)

  • Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
  • Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
  • Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
  • Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
  • Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.

I want everything local – Building my offline AI workspace (instavm.io) 🔥 Горячее 💬 Длинная дискуссия

  • Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple container (изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter).
  • Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
  • Проблемы:
    – Модели Ollama пока не поддерживают вызовы инструментов.
    – Создание нативного Mac-приложения провалилось: a0.dev заточен под iOS, Electron + NextJS оказались геморроем.
    – Apple container часто падает с Trap; помогает pkill + перезапуск.
  • Решения:
    – Веб-версия assistant-ui через ai-sdk с выпадающим списком моделей (локальных и облачных).
    – Jupyter в изолированной ВМ, доступен по MCP: http://coderunner.local:8222/mcp.
    – Конфиг для Claude Desktop: "coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.

by mkagenius • 08 августа 2025 г. в 18:19 • 1026 points

ОригиналHN

#ollama#assistant-ui#apple-container#playwright#coderunner#jupyter#mcp#docker#rag#vector-databases

Комментарии (274)

  • Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo.
  • Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или docker compose up -d просится как минимальный способ разворачивания.
  • Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
  • Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
  • Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.