Nano Banana can be prompt engineered for nuanced AI image generation 🔥 Горячее 💬 Длинная дискуссия
Несмотря на кажущуюся стагнацию, область генерации изображений ИИ активно развивается с появлением моделей вроде FLUX.1-dev, Seedream, Ideogram и Google Imagen 4. Однако ChatGPT с бесплатной генерацией изображений стал новым эталоном после вирусного успеха с промптом "Make me into Studio Ghibli". Его модель gpt-image-1 работает авторегрессивно, генерируя токены как текст, что делает её медленной (30 секунд на изображение), но доступной бесплатно.
В августе 2025 года загадочная модель "nano-banana" появилась на LMArena и позже была выпущена Google как Gemini 2.5 Flash Image. Её популярность вывела приложение Gemini на вершину App Store. Автор подчёркивает выдающуюся точность следования промптам Nano Banana, что делает её особенно ценной для сложных запросов. Пользователи могут генерировать изображения бесплатно через веб-версию Gemini или приложение, а разработчики - использовать API за $0.04 за изображение. Для упрощения работы с API автор создал Python-пакет gemimg.
Комментарии (214)
- Пользователи успешно используют Nano Banana для создания последовательных визуальных историй (сториборды, комиксы) с контролем персонажей, окружения и времени суток через многослойные промпты.
- Модель демонстрирует ограничения: проблемы с точным рендерингом текста, стилизацией (особенно сложных персонажей), непредсказуемыми изменениями деталей при редактировании и путаницей в интерпретации направлений (лево/право).
- Технические решения включают использование Python-библиотек (gemimg), API (Google AI Studio), маскирование для удаления водяных знаков и интеграцию с LLM (Mistral) для генерации вариаций промптов.
- Обсуждаются сложности достижения точных результатов (например, стиль-трансфер, удаление отражений) и необходимость тщательного промпт-инжиниринга для контроля вывода.
A beginner's guide to deploying LLMs with AMD on Windows using PyTorch
AMD и GPUOpen опубликовали практическое руководство, как запустить LLM на Windows с GPU AMD и PyTorch. Самое важное — это не требует ROCm, а использует DirectML, что делает процесс доступным для большинства геймерских видеокарт Radeon. Поддерживаются модели Llama 3.2, Mistral и Gemma, а также Q4 и FP16 квантизация. Подготовка включает установку ROCm и PyTorch, но ROCm не используется; вместо этого используется DirectML. Процесс включает скачивание модели, конвертацию в GGUF с помощью llama.cpp, и запуск через веб-интерфейс Gradio. Важно, что весь процесс происходит на Windows без виртуализации или WSL2.
Комментарии (26)
I have a philosophy for which I have mixed feelings because I like it in principle despite it making me worse off in some other ways: Devs should punish companies that clearly don't give a shit about them. When I see AMD, I think of a firm that heavily prioritized their B2B busin
Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.
Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.
Комментарии (10)
- Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
- Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
- Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
- Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
- Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.
Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs
LLaMA-Factory — это унифицированный инструмент для эффективной тонкой настройки более 100 языковых и визуально-языковых моделей, представленный на ACL 2024. Он позволяет разработчикам адаптировать модели под конкретные задачи с минимальными затратами ресурсов, поддерживая популярные архитектуры вроде LLaMA и Mistral, а также многомодальные модели.
Инструмент предлагает гибкие методы обучения, включая LoRA и полную настройку параметров, и работает с различными аппаратными конфигурациями, от одного GPU до распределённых кластеров. Это значительно упрощает эксперименты и развёртывание кастомизированных моделей, экономя время и вычислительные мощности.
Комментарии (15)
- Обсуждаются возможности и библиотеки для тонкой настройки (SFT), предобучения и RL-тренировки больших языковых моделей, включая LLaMA Factory и сравнение с Unsloth.
- Подчёркивается важность качественного подбора данных и аппаратного обеспечения (например, 8xH200 или A100 для серьёзных задач, потребительского GPU для меньших моделей).
- Отмечается практическая пользя тонкой настройки для создания узкоспециализированных моделей под конкретные задачи (например, text-to-SQL), способных конкурировать с большими hosted-моделями.
- Упоминаются альтернативные инструменты и подходы, такие как Axolotl для потребительского железа, Oumi (с синтезом данных и LLM-as-a-Judge) и коммерческие решения типа Nvidia NIM.
- Высказываются критические замечания о поддержке конкретных моделей (например, Deepseek) и локализации документации.
AI tools are making the world look weird 💬 Длинная дискуссия
Исследования в области поведенческих наук часто страдают от системной ошибки: они опираются на данные, собранные в западных, образованных, индустриальных, богатых и демократических обществах (WEIRD), а затем применяют выводы ко всему человечеству. Это приводит к искажённым результатам, поскольку такие популяции составляют лишь малую часть мирового населения и могут демонстрировать нетипичные психологические и социальные паттерны.
Например, многие классические теории о принятии решений или морали основаны на экспериментах с студентами американских университетов, чьи реакции часто не совпадают с поведением людей из других культур. Это ограничивает применимость исследований в глобальном масштабе и подрывает их ценность для бизнеса или политики, ориентированных на разнообразные аудитории.
Осознание этой проблемы — первый шаг к более инклюзивной и точной науке.
Комментарии (169)
- Обсуждается культурная предвзятость ИИ (особенно ChatGPT), который демонстрирует сильное смещение в сторону западных, особенно американских, ценностей из-за преобладания англоязычных данных в обучении.
- Участники отмечают, что исходные данные для обучения ИИ (например, с Reddit) перекошены в сторону взглядов западной, образованной, индустриализированной, богатой и демократической (WEIRD) аудитории, что ограничивает способность ИИ отражать глобальное разнообразие.
- Поднимается вопрос, могут ли ИИ, обученные на других языках или данных (например, DeepSeek, Mistral), или использование специальных промптов снизить этот эффект и лучше отражать другие культуры.
- Критикуется методология исследования, лежащего в основе статьи, за отсутствие деталей и возможную нерепрезентативность, а также обоснованность некоторых антропологических claims в рекомендованной книге.
- Обсуждается, является ли проблема inherent ограничением архитектуры ИИ или же её можно смягчить за счёт более разнообразных данных и специализированного обучения для разных культурных контекстов.
Mistral raises 1.7B€, partners with ASML 🔥 Горячее 💬 Длинная дискуссия
ASML и Mistral AI заключили стратегическое партнёрство
ASML, мировой лидер в области литографического оборудования, и Mistral AI, европейская компания по разработке ИИ, объединят усилия для ускорения инноваций в производстве полупроводников. Сотрудничество сфокусировано на применении ИИ к оптимизации сложных процессов микролитографии и повышению точности систем ASML.
Комментарии (406)
- ASML вложил 1,3 млрд € в раунд Mistral на 1,7 млрд €; для компании с выручкой 28 млрд € это крупная, но не критичная ставка.
- Большинство участников не видит технологического синерджиза: ASML делает фотолитографию, Mistral — LLM, и заказчики ASML уже покупают всё, что можно произвести.
- Инвестицию чаще объясняют политикой: ЕС хочет «своего» игрока в ИИ, а ASML — европейского союзника и лояльность Франции.
- Сомнения в Mistral: отстают по моделям, нет уникального преимущества, бывшие сотрудники говорят о слабом внедрении ИИ внутри самой ASML.
- Оптимисты надеются, что деньги и господдержка помогут Mistral повторить прорыв вроде DeepSeek, но рынок считает раунд «европейским GoFundMe» на фоне десятков миллиардов у US/China-игроков.
Mistral Integration Improved in Llama.cpp
- Добавлена поддержка моделей Mistral-Small-3.1-24B-Instruct-2503 и Mistral-Small-24B-Instruct-2501
- Улучшена работа с Mamba-2 и Sliding Window Attention
- Новые правила конвертации:
convert-hf-to-gguf.pyтеперь корректно обрабатываетsliding_window,mamba2,attention_bias,tie_word_embeddings - Обновлён
llama_model_loaderиllama_model: добавлены поляmamba2иsliding_window, упрощена логика KV-cache - Поддержка
mamba2вllama_contextиllama_decode - Удалены устаревшие
llama_modelиllama_vocab - Добавлены тесты
test-mistral.pyиtest-mistral-vision.py
Комментарии (11)
- Mistral предлагает mistral-common как официальный токенизатор, но пока только через Python-библиотеку и временный REST-обвязанный FastAPI.
- Сообщество жалуется: «cpp-бинарь, зависящий от Python-сервера — временное и грустное решение», ждут нативный C++ порт.
- Пользователи расстроены, что Mistral, выпуская веса, не сразу поддерживает llama.cpp, на котором держится большинство «домашних» запусков.
- Некоторые замечают, что llama.cpp и так тянет Python для шаблонов, но это не отменяет желания увидеть полноценную C++ реализацию.
- Сторонники Mistral отвечают: компания маленькая, пока не ясно, какие именно инференс-фреймворки поддерживать, зато открыли собственный mistral-inference.