Should LLMs just treat text content as an image?
Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.
Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.
Комментарии (92)
- Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
- Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
- Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
- Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.
Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system 🔥 Горячее 💬 Длинная дискуссия
Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.
Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.
Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.
Комментарии (286)
- Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
- US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
- Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
- Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
- Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.
DeepSeek OCR 🔥 Горячее 💬 Длинная дискуссия
Предоставленный текст содержит только навигационное меню и элементы интерфейса GitHub, но не содержит самого содержимого статьи о DeepSeek-OCR. Без основного текста статьи невозможно создать точный пересказ её содержания.
Для создания качественного саммари мне нужен сам текст статьи, описание проекта DeepSeek-OCR, его особенности, технические детали или результаты, которые он демонстрирует. Пожалуйста, предоставьте основное содержимое репозитория или статьи, и я подготовлю ёмкий пересказ в соответствии с вашими требованиями.
Комментарии (226)
- DeepSeek-OCR представляет собой исследование границ визуального сжатия текста, достигая почти безпотерянного восстановления текста при 97% точности, что делает его полезным для создания обучающих данных для LLM.
- Модель демонстрирует высокую точность на OmniAI бенчмарке, но при этом остается неясным, как она справляется с более сложными задачами, такими как распознование сложных таблиц и многостраничных документов.
- Несмотря на то, что DeepSeek-OCR является open-source и MIT лицензированным, отсутствие коммерческого продукта подчеркивает пробел в экосистеме OCR, что может быть связано с тем, что модель не была обучена на полностью лицензионых данных.
- Сообщество отмечает, что несмотря на то, что модель может быть использована для создания обучающих данных для LLM, она не может быть использована в продакшене, потому что она не была обучена на лицензионных данных.
- Некоторые участники обсуждения отмечают, что модель может быть использована для извлечения текста из старых журналов и книг, но при этом остается неясным, насколько она справляется с распознованием сложных многостраничных документов и таблиц.
Комментарии (121)
- Участники обсуждают отчет NIST о китайских моделях ИИ DeepSeek, многие считают его политически мотивированным и предвзятым, отмечая отсутствие в нем доказательств бэкдоров или эксфильтрации данных.
- Ряд комментаторов призывает прочитать оригинальный отчет, а не полагаться на его интерпретации, указывая на несоответствие между содержанием отчета и его критикой в статье Эрика Хартфорда.
- Высказывается мнение, что открытые китайские модели (как DeepSeek) важны для исследований и развития ИИ за пределами США, предоставляя доступные альтернативы дорогим проприетарным моделям.
- Некоторые пользователи выражают скептицизм относительно возможного скрытого влияния китайского правительства через ИИ, но признают, что аналогичные риски могут исходить и от западных моделей.
- Обсуждаются практические аспекты моделей DeepSeek, включая их стоимость, уязвимости к взлому (jailbreaking) и опыт использования различных версий, таких как uncensored Dolphin.
DeepSeek-v3.2-Exp 🔥 Горячее
DeepSeek AI выпустила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp. Это обновление демонстрирует улучшенные возможности обработки естественного языка, включая более точное понимание контекста и генерацию кода. Модель оптимизирована для разработчиков и исследователей, предлагая расширенную поддержку программирования и анализа данных.
Ключевые улучшения включают увеличенный контекст обработки, что позволяет эффективнее работать с длинными документами и сложными запросами. Модель также показывает прогресс в мультимодальных задачах, хотя акцент остаётся на текстовых и кодогенерирующих возможностях. Экспериментальный статус означает, что разработчики могут тестировать новые функции до их финального релиза.
Комментарии (41)
- Обсуждается значительное снижение стоимости моделей ИИ, особенно у DeepSeek, с акцентом на важность доступности для широкого распространения технологий.
- Поднимаются вопросы о технических особенностях моделей (sparse attention, кэширование) и их влиянии на производительность и стоимость вычислений при больших контекстных окнах.
- Участники спорят о реальной выгоде "дешевых" моделей в рабочих процессах, учитывая необходимость поддержки кэширования провайдером для снижения затрат.
- Высказываются предположения о дальнейшей динамике цен на ИИ, ссылаясь на возможное продолжение стремительного падения стоимости по аналогии с законом Мура.
- Обсуждается открытость и прозрачность платформ (OpenRouter, DeepSeek), включая вопросы о использовании данных для обучения и статусе исходного кода.
DeepSeek-v3.1-Terminus
DeepSeek-V3.1-Terminus — это обновлённая версия модели, улучшающая языковую согласованность и производительность агентов. Теперь модель реже смешивает китайский и английский языки и почти не генерирует случайные символы, что повышает стабильность ответов. Агенты для работы с кодом и поиска стали значительно эффективнее.
Обновление доступно через приложение, веб-интерфейс и API, а открытые веса опубликованы на Hugging Face. Модель демонстрирует лучшие результаты в бенчмарках по сравнению с предыдущей версией, обеспечивая более предсказуемые и качественные ответы.
Комментарии (22)
- Обсуждается новая модель DeepSeek-V3.1-Terminus, приведены рабочие ссылки на её документацию и страницу на Hugging Face.
- Участники отмечают улучшения в производительности, согласованности языка (меньше смешивания CN/EN) и отсутствие случайных символов.
- Поднимается вопрос о сравнении DeepSeek с моделью Qwen, на который предлагается проводить бенчмаркинг под конкретные задачи.
- Высказывается пожелание о создании удобного ресурса для отслеживания актуальных моделей, их версий, производительности и требований к железу.
- Отмечается преимущество модели в виде лицензии MIT, позволяющей запускать её на собственном оборудовании и коммерциализировать.
AI tools are making the world look weird 💬 Длинная дискуссия
Исследования в области поведенческих наук часто страдают от системной ошибки: они опираются на данные, собранные в западных, образованных, индустриальных, богатых и демократических обществах (WEIRD), а затем применяют выводы ко всему человечеству. Это приводит к искажённым результатам, поскольку такие популяции составляют лишь малую часть мирового населения и могут демонстрировать нетипичные психологические и социальные паттерны.
Например, многие классические теории о принятии решений или морали основаны на экспериментах с студентами американских университетов, чьи реакции часто не совпадают с поведением людей из других культур. Это ограничивает применимость исследований в глобальном масштабе и подрывает их ценность для бизнеса или политики, ориентированных на разнообразные аудитории.
Осознание этой проблемы — первый шаг к более инклюзивной и точной науке.
Комментарии (169)
- Обсуждается культурная предвзятость ИИ (особенно ChatGPT), который демонстрирует сильное смещение в сторону западных, особенно американских, ценностей из-за преобладания англоязычных данных в обучении.
- Участники отмечают, что исходные данные для обучения ИИ (например, с Reddit) перекошены в сторону взглядов западной, образованной, индустриализированной, богатой и демократической (WEIRD) аудитории, что ограничивает способность ИИ отражать глобальное разнообразие.
- Поднимается вопрос, могут ли ИИ, обученные на других языках или данных (например, DeepSeek, Mistral), или использование специальных промптов снизить этот эффект и лучше отражать другие культуры.
- Критикуется методология исследования, лежащего в основе статьи, за отсутствие деталей и возможную нерепрезентативность, а также обоснованность некоторых антропологических claims в рекомендованной книге.
- Обсуждается, является ли проблема inherent ограничением архитектуры ИИ или же её можно смягчить за счёт более разнообразных данных и специализированного обучения для разных культурных контекстов.
R-Zero: Self-Evolving Reasoning LLM from Zero Data
R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.
Алгоритм за один цикл:
- Сэмплируем случайный топик и просим модель придумать задачу.
- Просим сгенерировать решение в виде цепочки рассуждений.
- Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
- Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
- На собранных «правильных» примерах делаем шаг SFT.
Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).
Эксперименты на базе Llama-3-8B показали:
- Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
- R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
- При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.
Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.
Комментарии (51)
- Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
- Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
- Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
- Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
- Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.
DeepSeek-v3.1 🔥 Горячее 💬 Длинная дискуссия
DeepSeek-V3.1 — первый шаг к эпохе агентов
- Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
- Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
- Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com
API
deepseek-chat→ Non-Think,deepseek-reasoner→ Think, контекст 128К.- Поддержка формата Anthropic API и строгого Function Calling (бета).
Инструменты и агенты
- Рост результатов на SWE / Terminal-Bench.
- Эффективнее многошаговые поисковые задачи.
Модель
- База V3.1: дообучена на 840 B токенов для длинного контекста.
- Обновлён токенайзер и шаблон чата.
- Веса открыты: V3.1-Base, V3.1.
Цены
- Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.
Комментарии (253)
- Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
- На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
- Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
- Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
- Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code> -
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.