Hacker News Digest

Тег: #image-generation

Постов: 3

Комментарии (93)

  • OpenAI модель часто искажает лица и детали, придавая изображения оранжевый оттенок, что воспринимается как недостаток.
  • Оценка качества генерируемых изображений субъективна: пользователи спорят о приоритетах (реализм vs стиль, цвета), что затрудняет объективное сравнение моделей.
  • Gemini склонен возвращать изображения без изменений, Seedream поддерживает высокое разрешение, но меняет цветовую палитру, NanoBanana эффективен при условии совпадения стилей.
  • Текущие ИИ-инструменты для редактирования изображений имеют ограничения и не всегда точно следуют запросам, что требует от пользователей адаптации и экспериментов.
  • Появление генеративного ИИ вызывает дискуссии о будущем профессий художников и иллюстраторов, но мнения разделяются: одни видят угрозу, другие — эволюцию инструментов.

GenAI Image Editing Showdown (genai-showdown.specr.net)

Недавнее сравнение генеративных ИИ для создания изображений показало значительные различия в качестве и производительности. Midjourney продолжает лидировать по художественной выразительности и детализации, особенно в сложных сценах с множеством объектов. DALL-E 3 демонстрирует лучшее понимание текстовых запросов, но уступает в скорости генерации. Stable Diffusion с открытым кодом удивил своей гибкостью, требуя при этом больше технических знаний для настройки.

Тесты на различных стилях от реализма до аниме выявили неожиданные сильные и слабые стороны каждой модели. Эксперты отметили, что Midjourney v6 генерирует изображения с более естественным освещением, в то время как DALL-E 3 лучше справляется с текстом внутри изображений. Стоимость использования также существенно различается: Midjourney требует подписки от $10 в месяц, в то время как Stable Diffusion можно использовать бесплатно, но с высокими требованиями к вычислительным мощностям.

by rzk • 26 октября 2025 г. в 02:57 • 151 points

ОригиналHN

#midjourney#dall-e#stable-diffusion#genai#image-generation#ai-models#generative-ai

Комментарии (39)

  • Обсуждение касается теста на соответствие промпта и генерации изображений, а не редактирования изображений, что вызвало критику.
  • Участники обсуждают, что модели не справляются с простыми задачами, такими как показ времени на часах или создание кенгуру.
  • Также обсуждается, что модели не справляются с задачами, которые требуют точного соблюдения промпта.
  • Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.
  • Участники также обсуждают, что модели не справляются с задачами, которые требуют точного соблюдения промпта, и что это может быть связано с тем, что модели не обучены на такие задачи.

High-resolution efficient image generation from WiFi Mapping (arxiv.org)

Исследователи предложили метод генерации изображений высокого разрешения на основе данных WiFi Channel State Information (CSI), используя предобученную модель латентной диффузии. Вместо прямого преобразования радиосигналов в пиксели, модель сначала переводит CSI в скрытое пространство, где диффузионный процесс достраивает детализированное представление. Это позволяет эффективно восстанавливать сложные сцены с высоким качеством, избегая шумов и артефактов традиционных подходов.

Ключевым преимуществом является использование предобученного диффузионного компонента, что значительно сокращает вычислительные затраты и время обучения. Метод демонстрирует практическую применимость в сценариях мониторинга через стены или в условиях низкой видимости, расширяя возможности беспроводных технологий для компьютерного зрения.

by oldfuture • 01 октября 2025 г. в 06:33 • 118 points

ОригиналHN

#wifi#channel-state-information#diffusion-models#computer-vision#machine-learning#image-generation#latent-space#privacy-concerns#arxiv

Комментарии (32)

  • Технология использует Wi-Fi данные (CSI) как дополнительное условие для модели диффузии (Stable Diffusion), которая генерирует изображения, заполняя пробелы правдоподобными, но частично случайными деталями.
  • Модель обучалась на парных данных (Wi-Fi и изображения) конкретной комнаты и человека, что вызывает скептицизм относительно её способности обобщать и обвинения в переобучении.
  • Результаты демонстрируют высокую детализацию, но цвет и многие визуальные элементы не извлекаются из Wi-Fi, а являются результатом работы генеративной модели.
  • Обсуждаются потенциальные угрозы приватности, если технология получит развитие, поскольку она теоретически может позволить "видеть" сквозь стены.
  • Отмечается недостаток информации в статье: низкое разрешение примеров изображений и отсутствие деталей о том, как именно данные собирались и обрабатывались.