Hacker News Digest

Тег: #deepseek

Постов: 11

Should LLMs just treat text content as an image? (seangoedecke.com)

Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.

Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.

by ingve • 21 октября 2025 г. в 06:10 • 153 points

ОригиналHN

#llm#text-processing#image-processing#deepseek#ocr#tokenization#machine-learning#data-compression

Комментарии (92)

  • Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
  • Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
  • Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
  • Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.

Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.

Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.

by hd4 • 20 октября 2025 г. в 12:31 • 501 points

ОригиналHN

#alibaba-cloud#nvidia#gpu#llm#cloud-computing#deepseek#qwen

Комментарии (286)

  • Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
  • US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
  • Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
  • Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
  • Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.

DeepSeek OCR (github.com) 🔥 Горячее 💬 Длинная дискуссия

Предоставленный текст содержит только навигационное меню и элементы интерфейса GitHub, но не содержит самого содержимого статьи о DeepSeek-OCR. Без основного текста статьи невозможно создать точный пересказ её содержания.

Для создания качественного саммари мне нужен сам текст статьи, описание проекта DeepSeek-OCR, его особенности, технические детали или результаты, которые он демонстрирует. Пожалуйста, предоставьте основное содержимое репозитория или статьи, и я подготовлю ёмкий пересказ в соответствии с вашими требованиями.

by pierre • 20 октября 2025 г. в 06:26 • 934 points

ОригиналHN

#ocr#deepseek#llm#open-source#mit#github

Комментарии (226)

  • DeepSeek-OCR представляет собой исследование границ визуального сжатия текста, достигая почти безпотерянного восстановления текста при 97% точности, что делает его полезным для создания обучающих данных для LLM.
  • Модель демонстрирует высокую точность на OmniAI бенчмарке, но при этом остается неясным, как она справляется с более сложными задачами, такими как распознование сложных таблиц и многостраничных документов.
  • Несмотря на то, что DeepSeek-OCR является open-source и MIT лицензированным, отсутствие коммерческого продукта подчеркивает пробел в экосистеме OCR, что может быть связано с тем, что модель не была обучена на полностью лицензионых данных.
  • Сообщество отмечает, что несмотря на то, что модель может быть использована для создания обучающих данных для LLM, она не может быть использована в продакшене, потому что она не была обучена на лицензионных данных.
  • Некоторые участники обсуждения отмечают, что модель может быть использована для извлечения текста из старых журналов и книг, но при этом остается неясным, насколько она справляется с распознованием сложных многостраничных документов и таблиц.

NIST's DeepSeek "evaluation" is a hit piece (erichartford.com)

by aratahikaru5 • 05 октября 2025 г. в 15:12 • 205 points

ОригиналHN

#llm#artificial-intelligence#deepseek#nist#machine-learning

Комментарии (121)

  • Участники обсуждают отчет NIST о китайских моделях ИИ DeepSeek, многие считают его политически мотивированным и предвзятым, отмечая отсутствие в нем доказательств бэкдоров или эксфильтрации данных.
  • Ряд комментаторов призывает прочитать оригинальный отчет, а не полагаться на его интерпретации, указывая на несоответствие между содержанием отчета и его критикой в статье Эрика Хартфорда.
  • Высказывается мнение, что открытые китайские модели (как DeepSeek) важны для исследований и развития ИИ за пределами США, предоставляя доступные альтернативы дорогим проприетарным моделям.
  • Некоторые пользователи выражают скептицизм относительно возможного скрытого влияния китайского правительства через ИИ, но признают, что аналогичные риски могут исходить и от западных моделей.
  • Обсуждаются практические аспекты моделей DeepSeek, включая их стоимость, уязвимости к взлому (jailbreaking) и опыт использования различных версий, таких как uncensored Dolphin.

DeepSeek-v3.2-Exp (github.com) 🔥 Горячее

DeepSeek AI выпустила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp. Это обновление демонстрирует улучшенные возможности обработки естественного языка, включая более точное понимание контекста и генерацию кода. Модель оптимизирована для разработчиков и исследователей, предлагая расширенную поддержку программирования и анализа данных.

Ключевые улучшения включают увеличенный контекст обработки, что позволяет эффективнее работать с длинными документами и сложными запросами. Модель также показывает прогресс в мультимодальных задачах, хотя акцент остаётся на текстовых и кодогенерирующих возможностях. Экспериментальный статус означает, что разработчики могут тестировать новые функции до их финального релиза.

by meetpateltech • 29 сентября 2025 г. в 10:26 • 271 points

ОригиналHN

#deepseek#deepseek-v3.2-exp#natural-language-processing#code-generation#sparse-attention#caching#openrouter#github

Комментарии (41)

  • Обсуждается значительное снижение стоимости моделей ИИ, особенно у DeepSeek, с акцентом на важность доступности для широкого распространения технологий.
  • Поднимаются вопросы о технических особенностях моделей (sparse attention, кэширование) и их влиянии на производительность и стоимость вычислений при больших контекстных окнах.
  • Участники спорят о реальной выгоде "дешевых" моделей в рабочих процессах, учитывая необходимость поддержки кэширования провайдером для снижения затрат.
  • Высказываются предположения о дальнейшей динамике цен на ИИ, ссылаясь на возможное продолжение стремительного падения стоимости по аналогии с законом Мура.
  • Обсуждается открытость и прозрачность платформ (OpenRouter, DeepSeek), включая вопросы о использовании данных для обучения и статусе исходного кода.

DeepSeek-v3.1-Terminus (api-docs.deepseek.com)

DeepSeek-V3.1-Terminus — это обновлённая версия модели, улучшающая языковую согласованность и производительность агентов. Теперь модель реже смешивает китайский и английский языки и почти не генерирует случайные символы, что повышает стабильность ответов. Агенты для работы с кодом и поиска стали значительно эффективнее.

Обновление доступно через приложение, веб-интерфейс и API, а открытые веса опубликованы на Hugging Face. Модель демонстрирует лучшие результаты в бенчмарках по сравнению с предыдущей версией, обеспечивая более предсказуемые и качественные ответы.

by meetpateltech • 22 сентября 2025 г. в 12:20 • 75 points

ОригиналHN

#deepseek#huggingface#mit#api#benchmarks#agents

Комментарии (22)

  • Обсуждается новая модель DeepSeek-V3.1-Terminus, приведены рабочие ссылки на её документацию и страницу на Hugging Face.
  • Участники отмечают улучшения в производительности, согласованности языка (меньше смешивания CN/EN) и отсутствие случайных символов.
  • Поднимается вопрос о сравнении DeepSeek с моделью Qwen, на который предлагается проводить бенчмаркинг под конкретные задачи.
  • Высказывается пожелание о создании удобного ресурса для отслеживания актуальных моделей, их версий, производительности и требований к железу.
  • Отмечается преимущество модели в виде лицензии MIT, позволяющей запускать её на собственном оборудовании и коммерциализировать.

AI tools are making the world look weird (strat7.com) 💬 Длинная дискуссия

Исследования в области поведенческих наук часто страдают от системной ошибки: они опираются на данные, собранные в западных, образованных, индустриальных, богатых и демократических обществах (WEIRD), а затем применяют выводы ко всему человечеству. Это приводит к искажённым результатам, поскольку такие популяции составляют лишь малую часть мирового населения и могут демонстрировать нетипичные психологические и социальные паттерны.

Например, многие классические теории о принятии решений или морали основаны на экспериментах с студентами американских университетов, чьи реакции часто не совпадают с поведением людей из других культур. Это ограничивает применимость исследований в глобальном масштабе и подрывает их ценность для бизнеса или политики, ориентированных на разнообразные аудитории.

Осознание этой проблемы — первый шаг к более инклюзивной и точной науке.

by gaaz • 18 сентября 2025 г. в 22:27 • 188 points

ОригиналHN

#llm#machine-learning#natural-language-processing#deepseek#mistral#bias#cultural-diversity

Комментарии (169)

  • Обсуждается культурная предвзятость ИИ (особенно ChatGPT), который демонстрирует сильное смещение в сторону западных, особенно американских, ценностей из-за преобладания англоязычных данных в обучении.
  • Участники отмечают, что исходные данные для обучения ИИ (например, с Reddit) перекошены в сторону взглядов западной, образованной, индустриализированной, богатой и демократической (WEIRD) аудитории, что ограничивает способность ИИ отражать глобальное разнообразие.
  • Поднимается вопрос, могут ли ИИ, обученные на других языках или данных (например, DeepSeek, Mistral), или использование специальных промптов снизить этот эффект и лучше отражать другие культуры.
  • Критикуется методология исследования, лежащего в основе статьи, за отсутствие деталей и возможную нерепрезентативность, а также обоснованность некоторых антропологических claims в рекомендованной книге.
  • Обсуждается, является ли проблема inherent ограничением архитектуры ИИ или же её можно смягчить за счёт более разнообразных данных и специализированного обучения для разных культурных контекстов.

R-Zero: Self-Evolving Reasoning LLM from Zero Data (arxiv.org)

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

  1. Сэмплируем случайный топик и просим модель придумать задачу.
  2. Просим сгенерировать решение в виде цепочки рассуждений.
  3. Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
  4. Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
  5. На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

  • Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
  • R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
  • При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

by lawrenceyan • 10 сентября 2025 г. в 02:02 • 98 points

ОригиналHN

#machine-learning#llm#self-supervised-learning#natural-language-processing#llama-3-8b#gsm8k#math#deepseek#arxiv#r

Комментарии (51)

  • Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
  • Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
  • Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
  • Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
  • Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

ОригиналHN

#deepseek#h100#gpu#aws#runpod#cloud-computing#cost-optimization#batch-processing

Комментарии (76)

  • Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
  • Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
  • Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
  • Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
  • Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

  • Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
  • Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
  • Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
    Попробовать: chat.deepseek.com

API

  • deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
  • Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

  • Рост результатов на SWE / Terminal-Bench.
  • Эффективнее многошаговые поисковые задачи.

Модель

  • База V3.1: дообучена на 840 B токенов для длинного контекста.
  • Обновлён токенайзер и шаблон чата.
  • Веса открыты: V3.1-Base, V3.1.

Цены

  • Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

ОригиналHN

#deepseek#llm#api#gguf#huggingface#fp8#nvidia#anthropic#glm

Комментарии (253)

  • Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
  • На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
  • Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
  • Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
  • Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

  • 2-3 × z.ai GLM 4.5 (≈ Claude 4)
  • 2 × Kimi K2 (багфиксер)
  • Qwen3 Coder, DeepSeek v3/r1
  • Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
  • OpenAI Playground (разрешить обучение → бесплатные токены)
  • Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
    Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

  1. Планирование в веб-чатах
    Агенты (Cline, Copilot) «тупят» от лишнего контекста.
    → Задаю вопрос в одном из бесплатных чатов, получаю решение.

  2. Генерация контекста
    AI Code Prep рекурсивно собирает файлы проекта и форматирует:

    fileName.js:
    <code>...</code>
    
    nextFile.py:
    <code>...</code>
    
  3. Исполнение
    Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

ОригиналHN

#glm#claude#kimi#qwen#deepseek#gemini#openai#amazon#ollama#lmstudio

Комментарии (219)

  • Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
  • Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
  • Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
  • Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
  • Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.