Тег: #deepseek — Hacker News Digest

Should LLMs just treat text content as an image? (seangoedecke.com)

Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.

Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.

by ingve • 21 октября 2025 г. в 06:10 • 153 points

Оригинал • HN

#llm #text-processing #image-processing #deepseek #ocr #tokenization #machine-learning #data-compression

Комментарии (92)

Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.

Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.

Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.

by hd4 • 20 октября 2025 г. в 12:31 • 501 points

Оригинал • HN

#alibaba-cloud #nvidia #gpu #llm #cloud-computing #deepseek #qwen

Комментарии (286)

Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.

DeepSeek OCR (github.com) 🔥 Горячее 💬 Длинная дискуссия

Предоставленный текст содержит только навигационное меню и элементы интерфейса GitHub, но не содержит самого содержимого статьи о DeepSeek-OCR. Без основного текста статьи невозможно создать точный пересказ её содержания.

Для создания качественного саммари мне нужен сам текст статьи, описание проекта DeepSeek-OCR, его особенности, технические детали или результаты, которые он демонстрирует. Пожалуйста, предоставьте основное содержимое репозитория или статьи, и я подготовлю ёмкий пересказ в соответствии с вашими требованиями.

by pierre • 20 октября 2025 г. в 06:26 • 934 points

Оригинал • HN

#ocr #deepseek #llm #open-source #mit #github

Комментарии (226)

DeepSeek-OCR представляет собой исследование границ визуального сжатия текста, достигая почти безпотерянного восстановления текста при 97% точности, что делает его полезным для создания обучающих данных для LLM.
Модель демонстрирует высокую точность на OmniAI бенчмарке, но при этом остается неясным, как она справляется с более сложными задачами, такими как распознование сложных таблиц и многостраничных документов.
Несмотря на то, что DeepSeek-OCR является open-source и MIT лицензированным, отсутствие коммерческого продукта подчеркивает пробел в экосистеме OCR, что может быть связано с тем, что модель не была обучена на полностью лицензионых данных.
Сообщество отмечает, что несмотря на то, что модель может быть использована для создания обучающих данных для LLM, она не может быть использована в продакшене, потому что она не была обучена на лицензионных данных.
Некоторые участники обсуждения отмечают, что модель может быть использована для извлечения текста из старых журналов и книг, но при этом остается неясным, насколько она справляется с распознованием сложных многостраничных документов и таблиц.

NIST's DeepSeek "evaluation" is a hit piece (erichartford.com)

—

by aratahikaru5 • 05 октября 2025 г. в 15:12 • 205 points

Оригинал • HN

#llm #artificial-intelligence #deepseek #nist #machine-learning

Комментарии (121)

Участники обсуждают отчет NIST о китайских моделях ИИ DeepSeek, многие считают его политически мотивированным и предвзятым, отмечая отсутствие в нем доказательств бэкдоров или эксфильтрации данных.
Ряд комментаторов призывает прочитать оригинальный отчет, а не полагаться на его интерпретации, указывая на несоответствие между содержанием отчета и его критикой в статье Эрика Хартфорда.
Высказывается мнение, что открытые китайские модели (как DeepSeek) важны для исследований и развития ИИ за пределами США, предоставляя доступные альтернативы дорогим проприетарным моделям.
Некоторые пользователи выражают скептицизм относительно возможного скрытого влияния китайского правительства через ИИ, но признают, что аналогичные риски могут исходить и от западных моделей.
Обсуждаются практические аспекты моделей DeepSeek, включая их стоимость, уязвимости к взлому (jailbreaking) и опыт использования различных версий, таких как uncensored Dolphin.

DeepSeek-v3.2-Exp (github.com) 🔥 Горячее

DeepSeek AI выпустила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp. Это обновление демонстрирует улучшенные возможности обработки естественного языка, включая более точное понимание контекста и генерацию кода. Модель оптимизирована для разработчиков и исследователей, предлагая расширенную поддержку программирования и анализа данных.

Ключевые улучшения включают увеличенный контекст обработки, что позволяет эффективнее работать с длинными документами и сложными запросами. Модель также показывает прогресс в мультимодальных задачах, хотя акцент остаётся на текстовых и кодогенерирующих возможностях. Экспериментальный статус означает, что разработчики могут тестировать новые функции до их финального релиза.

by meetpateltech • 29 сентября 2025 г. в 10:26 • 271 points

Оригинал • HN

#deepseek #deepseek-v3.2-exp #natural-language-processing #code-generation #sparse-attention #caching #openrouter #github

Комментарии (41)

Обсуждается значительное снижение стоимости моделей ИИ, особенно у DeepSeek, с акцентом на важность доступности для широкого распространения технологий.
Поднимаются вопросы о технических особенностях моделей (sparse attention, кэширование) и их влиянии на производительность и стоимость вычислений при больших контекстных окнах.
Участники спорят о реальной выгоде "дешевых" моделей в рабочих процессах, учитывая необходимость поддержки кэширования провайдером для снижения затрат.
Высказываются предположения о дальнейшей динамике цен на ИИ, ссылаясь на возможное продолжение стремительного падения стоимости по аналогии с законом Мура.
Обсуждается открытость и прозрачность платформ (OpenRouter, DeepSeek), включая вопросы о использовании данных для обучения и статусе исходного кода.

DeepSeek-v3.1-Terminus (api-docs.deepseek.com)

DeepSeek-V3.1-Terminus — это обновлённая версия модели, улучшающая языковую согласованность и производительность агентов. Теперь модель реже смешивает китайский и английский языки и почти не генерирует случайные символы, что повышает стабильность ответов. Агенты для работы с кодом и поиска стали значительно эффективнее.

Обновление доступно через приложение, веб-интерфейс и API, а открытые веса опубликованы на Hugging Face. Модель демонстрирует лучшие результаты в бенчмарках по сравнению с предыдущей версией, обеспечивая более предсказуемые и качественные ответы.

by meetpateltech • 22 сентября 2025 г. в 12:20 • 75 points

Оригинал • HN

#deepseek #huggingface #mit #api #benchmarks #agents

Комментарии (22)

Обсуждается новая модель DeepSeek-V3.1-Terminus, приведены рабочие ссылки на её документацию и страницу на Hugging Face.
Участники отмечают улучшения в производительности, согласованности языка (меньше смешивания CN/EN) и отсутствие случайных символов.
Поднимается вопрос о сравнении DeepSeek с моделью Qwen, на который предлагается проводить бенчмаркинг под конкретные задачи.
Высказывается пожелание о создании удобного ресурса для отслеживания актуальных моделей, их версий, производительности и требований к железу.
Отмечается преимущество модели в виде лицензии MIT, позволяющей запускать её на собственном оборудовании и коммерциализировать.

AI tools are making the world look weird (strat7.com) 💬 Длинная дискуссия

Исследования в области поведенческих наук часто страдают от системной ошибки: они опираются на данные, собранные в западных, образованных, индустриальных, богатых и демократических обществах (WEIRD), а затем применяют выводы ко всему человечеству. Это приводит к искажённым результатам, поскольку такие популяции составляют лишь малую часть мирового населения и могут демонстрировать нетипичные психологические и социальные паттерны.

Например, многие классические теории о принятии решений или морали основаны на экспериментах с студентами американских университетов, чьи реакции часто не совпадают с поведением людей из других культур. Это ограничивает применимость исследований в глобальном масштабе и подрывает их ценность для бизнеса или политики, ориентированных на разнообразные аудитории.

Осознание этой проблемы — первый шаг к более инклюзивной и точной науке.

by gaaz • 18 сентября 2025 г. в 22:27 • 188 points

Оригинал • HN

#llm #machine-learning #natural-language-processing #deepseek #mistral #bias #cultural-diversity

Комментарии (169)

Обсуждается культурная предвзятость ИИ (особенно ChatGPT), который демонстрирует сильное смещение в сторону западных, особенно американских, ценностей из-за преобладания англоязычных данных в обучении.
Участники отмечают, что исходные данные для обучения ИИ (например, с Reddit) перекошены в сторону взглядов западной, образованной, индустриализированной, богатой и демократической (WEIRD) аудитории, что ограничивает способность ИИ отражать глобальное разнообразие.
Поднимается вопрос, могут ли ИИ, обученные на других языках или данных (например, DeepSeek, Mistral), или использование специальных промптов снизить этот эффект и лучше отражать другие культуры.
Критикуется методология исследования, лежащего в основе статьи, за отсутствие деталей и возможную нерепрезентативность, а также обоснованность некоторых антропологических claims в рекомендованной книге.
Обсуждается, является ли проблема inherent ограничением архитектуры ИИ или же её можно смягчить за счёт более разнообразных данных и специализированного обучения для разных культурных контекстов.

R-Zero: Self-Evolving Reasoning LLM from Zero Data (arxiv.org)

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

Сэмплируем случайный топик и просим модель придумать задачу.
Просим сгенерировать решение в виде цепочки рассуждений.
Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

by lawrenceyan • 10 сентября 2025 г. в 02:02 • 98 points

Оригинал • HN

#machine-learning #llm #self-supervised-learning #natural-language-processing #llama-3-8b #gsm8k #math #deepseek #arxiv #r

Комментарии (51)

Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

Оригинал • HN

#deepseek #h100 #gpu #aws #runpod #cloud-computing #cost-optimization #batch-processing

Комментарии (76)

Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com

API

deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

Рост результатов на SWE / Terminal-Bench.
Эффективнее многошаговые поисковые задачи.

Модель

База V3.1: дообучена на 840 B токенов для длинного контекста.
Обновлён токенайзер и шаблон чата.
Веса открыты: V3.1-Base, V3.1.

Цены

Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

Оригинал • HN

#deepseek #llm #api #gguf #huggingface #fp8 #nvidia #anthropic #glm

Комментарии (253)

Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

2-3 × z.ai GLM 4.5 (≈ Claude 4)
2 × Kimi K2 (багфиксер)
Qwen3 Coder, DeepSeek v3/r1
Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
OpenAI Playground (разрешить обучение → бесплатные токены)
Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение.
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:
```
fileName.js:
<code>...</code>

nextFile.py:
<code>...</code>
```
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

Оригинал • HN

#glm #claude #kimi #qwen #deepseek #gemini #openai #amazon #ollama #lmstudio

Комментарии (219)

Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.