Using information theory to solve Mastermind
Правила
Компьютер загадывает код из 4 шпилек 6 цветов. После каждой попытки он выдаёт:
- чёрный штырь — цвет и позиция угаданы;
- белый — цвет есть, но позиция неверна;
- ничего — цвета в коде нет.
Оптимальная стратегия
Игра — это сбор информации. Начинается с 1296 возможных кодов. Каждая попытка «отсекает» часть вариантов; эффективность измеряется в битах.
- 1 бит = сокращение вдвое.
- Энтропия попытки — среднее количество битов, которое она приносит:
$$H = \sum_i p_i \log_2\frac{1}{p_i},$$
где $p_i$ — доля кодов, дающих ответ $i$.
Алгоритм:
- Для каждой возможной попытки посчитать, сколько кодов останется при каждом ответе.
- Выбрать попытку с максимальной энтропией.
- Повторять, пока код не угадан.
Результат
Среднее число попыток — 4.47 (σ = 0.75). Это совпадает с лучшими известными алгоритмами (Knuth, 1976 и др.).
Комментарии (32)
- Участники делились личными историями: кто-то писал игру в 2007 для iPhone, кто-то играл с родителями и детьми, а кто-то вдохновился ею стать математиком.
- Обсуждали стратегии: MaxParts, «один цвет на строку» и информационно-теоретический подход.
- Отмечали, что современные LLM не справляются с Mastermind после нескольких ходов.
- Упоминали баг сайта, опечатку «Worlde» и сравнивали игру с Wordle.
- Кто-то критиковал статью за отсутствие формального доказательства оптимальности.
Evaluating LLMs for my personal use case
Краткий итог тестов LLM для личных задач
- Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
- Данные: 130 реальных запросов из
bash-истории, разбитые на программирование, администрирование, объяснения, общие знания. - Платформа: OpenRouter через собственный Rust-клиент
ort. - Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.
Выводы
- Почти все модели справляются; различия в качестве минимальны.
- Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
- Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
- Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
- Победители по категориям
- Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
- Сисадмин: Gemini 2.5 Flash.
- Объяснения: Qwen3 235B.
- Общие знания: GPT-OSS-120B.
Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».
Комментарии (28)
- Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
- Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
- Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
- Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
- Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.
AGI is an engineering problem, not a model training problem 💬 Длинная дискуссия
AGI — задача инженерии, а не обучения моделей
Масштабирование LLM стало давать убывающий прирост. GPT-5, Claude, Gemini — вершина кривой, но не путь к AGI. Нужно строить системы, где модели, память, контекст и детерминированные процессы объединяются в нечто большее.
Почему рост остановился
Современные LLM — мощные генераторы текста, но:
- не сохраняют контекст между сессиями,
- не имеют постоянной памяти,
- стохастичны и ненадёжны в сложных цепочках рассуждений.
Как и полупроводники в 2000-х, AI пришёл к пределу. Выход — не «ещё больше параметров», а новая архитектура.
Что строить
-
Управление контекстом как инфраструктура
- Динамический поиск и фильтрация релевантных данных.
- Живые знания-графы, обновляемые в реальном времени.
- Обработка противоречий и неопределённости.
-
Память как сервис
- Обновление убеждений при новых фактах.
- Консолидация опыта в принципы, забывание мусора.
- Метазнания о надёжности источников.
-
Детерминированные процессы со стохастическими узлами
- Жёсткие workflow, где нужно, и вероятностные оптимизации, где можно.
- Откат и проверка результатов перед фиксацией.
- Неопределённость — объект первого класса.
-
Модульные специализированные модели
- Языковые — для текста, символьные — для логики, пространственные — для визуальных задач.
- Оркестрация через маршрутизацию запросов и слияние результатов.
Итог
AGI появится не из одной супер-модели, а из экосистемы взаимодействующих компонентов, спроектированных как надёжная инженерная система.
Комментарии (260)
- Стороны спорят, является ли путь к AGI «чистой» инженерной задачей или фундаментальной научной проблемой: многие считают, что мы пока не понимаем, что такое интеллект и сознание.
- LLM-критики подчеркивают, что современные модели — это всего лишь статистические машины без настоящего мышления, а их «выравнивание» не приближает к универсальному интеллекту.
- Сторонники масштабирования и «горького урока» утверждают, что дальнейшие данные и вычисления могут породить новые способности, но даже они сомневаются, что LLM-архитектура способна дойти до AGI.
- Ряд участников предлагает искать вдохновение в биологии, эволюции и эмоциях, считая, что без понимания «живого» интеллекта инженерные решения обречены.
- Общий вывод: AGI пока не определено, не измерено и, возможно, не достижимо в рамках существующих подходов; дискуссия остаётся открытой.
The cost of interrupted work (2023) 🔥 Горячее 💬 Длинная дискуссия
Миф о 23 минутах 15 секундах
Популярная фраза «переключение контекста отнимает 23 мин 15 с» не подтверждается исследованиями. В статье The Cost of Interrupted Work фиксируется лишь повышенный стресс, но не время восстановления; в тексте цифра 23 не встречается. Другие работы упоминают 11–16 мин или вообще не приводят значений.
Источник мифа
Автор просмотрел 23 поста: 9 ошибочно ссылаются на статьи, 9 — на интервью с Глорией Марк, где она озвучила 23 мин 15 с; ещё 2 — на Wall Street Journal, цитирующий Марк. Печатного первоисточника найти не удалось.
Комментарии (195)
- Участники обсуждают, сколько времени требуется, чтобы вернуться к задаче после прерывания; часто упоминается цифра «23 минуты 15 секунд», но её происхождение вызывает сомнения.
- Некоторые чувствуют физическую боль при выходе из потока, другие замечают, что стоимость зависит от сложности задачи, характера прерывания и эмоционального фона.
- Утверждается, что научные публикации и СМИ часто искажают результаты исследований, приписывая им цифры, которых в оригинале нет.
- Предложены способы смягчения эффекта: pair-programming, заранее спланированные задачи, медитация, прогулки или полный «выходной» после неудачного дня.
- Менеджеры подчеркивают ценность доступности для помощи коллегам, но разработчики жалуются на «мелкие» прерывания, которые разрушают контекст.
Materialized views are obviously useful
Материализованные представления очевидно полезны
Разработчики постоянно перетасовывают данные между системами и форматами.
Возьмём таск-трекер: нужно показывать количество задач в каждом проекте. Сначала всё просто:
const getTaskCountForProject = (id) =>
db.query('select count(1) from tasks where project_id = $1', [id]);
Скорость не устраивает → добавляем Redis-кеш:
const getTaskCountForProject = async (id) => {
const key = `project:${id}:task-count`;
let cnt = await redis.get(key);
if (cnt !== null) return +cnt;
cnt = await db.query('select count(1) ...', [id]);
await redis.set(key, cnt, { ex: 3600 });
return cnt;
};
Пользователи жалуются: счётчик устаревает. Приходится чистить кеш при каждом insert/delete.
Делаем инкрементальные обновления:
await redis.incr(`project:${id}:task-count`);
Но если сервер упадёт между записью в БД и Redis, счётчик сломается навсегда.
Переносим счётчик в ту же БД и обновляем в транзакции, либо пишем триггер — логика в БД снова в моде.
Итог: из одной строки кода выросла куча кода, который нужно поддерживать и синхронизировать.
Таких «побочных» вычислений в приложениях тысячи; они скрывают суть и мешают рефакторингу.
Комментарии (48)
- Пост хвалят за честность, но автор не уточняет СУБД, хотя SQL выглядит как Postgres.
- Postgres-материализованные представления требуют ручного
REFRESH; авто-обновления дают коммерческие продукты (Materialize, Snowflake, MSSQL, ReadySet, Feldera, RisingWave) и расширение pg_ivm. - Convex, Zero и др. используют инкрементное обслуживание представлений (IVM) «под капотом».
- Счётчики через
COUNT(*)без IVM не масштабируются; кто-то предлагает денормализацию и триггеры, кто-то — индексы по FK. - ScyllaDB-материализованные представления считаются багованными; важно понимать конкретную реализацию.
Romhack.ing's Internet Archive Mirror No Longer Available
Для работы приложения включите JavaScript.
Перейдите по ссылке на HTML-версию; после клика должно произойти перенаправление.
Если этого не случилось, браузер устарел или игнорирует заголовки no-cache.
Агрессивное кеширование (например, в текстовом браузере Links) может мешать.
Отключите кеш, несколько раз обновите страницу или обратитесь к разработчикам браузера.
Комментарии (25)
- Архив Internet Archive (IA) временно убрал файлы ROM-хаков из-за ложных срабатываний антивирусов, а не по просьбе правообладателей.
- Куратор IA Джейсон Скотт предложил писать ему напрямую при подобных проблемах.
- Участники удивлены: IA годами хранит «чистые» нелицензионные ROM-ы без жалоб, а патчи вдруг заблокировали.
- Обсуждают, помогут ли шифрование или пароль на архивы — скорее нет, антивирусы реагируют и на защищённые zip.
- Упоминается, что RomHacking.net чуть не закрылся в 2024-м, но продолжает работать, а RomHack.ing стал его «духовным преемником».
A 2k-year-old sun hat worn by a Roman soldier in Egypt
- В музее Болтона (Англия) впервые выставлена 2000-летняя войлочная шапка-«солнцезащитник» римского солдата из Египта.
- Экспонат — один из трёх сохранившихся подобных головных уборов; после смерти Клеопатры (30 г. до н. э.) его носили воины-оккупанты.
- В 1911 г. шапку передал музею археолог Флиндерс Петри; после столетия в хранилище она была изрядно изъедена молью.
- Консерватор Жакки Хайман укрепила ткань идентичным войлоком; теперь артефакт показан в экспозиции о древней моде.
Комментарии (39)
- Участники подшутили над «каким-то музеем во Флоренции» и сравнили римскую шляпу с бакет-хэтом.
- Обсудили, что артефакт пролежал 2 тыс. лет, пострадал от моли и прошёл дорогое восстановление.
- Поспорили о подлинности после реставрации и о том, насколько «римской» была сама шляпа.
- Упомянули, что пилос (plis) до сих пор носят северные албанцы.
- Отметили саркастически: «Римляне просто не носили шляп» — и пошутили про будущий «Google Hat» и ИИ-реинвент бакет-хэта.
What makes Claude Code so damn good 🔥 Горячее 💬 Длинная дискуссия
TL;DR
Claude Code (CC) радует, потому что максимально прост: один цикл, один контекст, минимум абстракций. Повторить магию можно, если:
- Один цикл – без мульти-агентов, максимум один «дочерний» процесс.
- Маленькая модель – для всего, кроме основной задачи.
- claude.md – живой файл, где агент и пользователь договариваются о стиле и контексте.
- Теги и примеры – XML, Markdown, куча примеров в промптах.
- Инструменты
- Поиск через сам LLM, а не RAG.
- Высокоуровневые «умные» инструменты (edit, read, todo) вместо низкоуровневых команд.
- Агент сам ведёт todo-список и отмечает выполненное.
- Управление стилем – явные просьбы «ЭТО ВАЖНО» и алгоритмы с эвристиками прямо в промпте.
1. Цикл
- Одна история сообщений – легко дебажить.
- Подпроцессы – CC может вызвать себя же, но глубина = 1.
- Маленькая модель – подсчёт токенов, сводка diff, украшения UI – всё ей.
2. Промпты
- claude.md лежит в корне репо; агент читает и пишет туда же, чтобы «запоминать» договорённости.
- XML-теги (
<thinking>,<result>) + Markdown + примеры кода – структурируют вывод и уменьшают бред.
3. Инструменты
- LLM-поиск – просим модель выдать до 20 релевантных файлов; быстрее и точнее эмбеддингов.
- Высокий уровень
str_replace_editor– редактирует блоки кода, а не строки.todo– агент сам пишет / вычёркивает задачи; видно прогресс.
- Никаких низкоуровневых
sed,grepи прочего UNIX-морока.
4. Управление
- Тон – «вежливый, лаконичный, не болтает лишнего».
- Капс и «ВАЖНО» – прямо в промпте, работает.
- Алгоритм – пишем в промпте: «если X → сделай Y, иначе спроси», + примеры.
Заключение
CC выигрывает за счёт самоограничений: один файл кода, один цикл, простые инструменты. Не усложняйте – дайте модели хороший каркас и позвольте «готовить».
Комментарии (275)
- Критика: пост назван «Что делает Claude Code таким хорошим», но не сравнивает его с другими инструментами, а просто пересказывает документацию.
- Пользователи делятся опытом: кто-то на CC уже построил MVP с платящими клиентами, кто-то сталкивается с регрессиями и «ленью» агента.
- Безопасность: многие боятся давать CLI-инструменту полный доступ к системе, ключам и репозиториям.
- Альтернативы: советуют OpenHands CLI, aider и другие open-source решения; обсуждают, как подключить собственные LLM.
- Тезис «Claude хорош, потому что модель умеет разбивать задачи на шаги и работает в unix-окружении» повторяется как ключевой.
Toyota is recycling old EV batteries to help power Mazda's production line 🔥 Горячее
- Toyota запустила на заводе Mazda в Хиросиме пилот системы Sweep Energy Storage, которая использует отработанные аккумуляторы из всех типов электромобилей и гибридов.
- Система собирает батареи разной химии и степени износа, управляет ими в реальном времени, отключая слабые и подключая здоровые.
- Повторно применяются автомобильные инверторы, что снижает стоимость оборудования.
- Энергия поступает в сеть кампуса Mazda, где уже есть свои тепловая и солнечная станции, и помогает сглаживать пики спроса.
- В будущем установка будет балансировать выработку ВИЭ, способствуя углеродной нейтральности.
- Первая подобная система Toyota и JERA заработала в 2022 г. на сети Chubu Electric: 485 кВт / 1 260 кВт·ч, достаточно для часа работы 1 200 домов.
Комментарии (130)
- Toyota использует бывшие в употреблении аккумуляторы от электромобилей для стационарного хранения энергии на заводе Mazda — не для самих машин.
- Деградировавшие до ≈70 % ёмкости батареи всё ещё полезны в сети, где вес не критичен.
- Система «sweep storage» с «low-voltage MOS» (MOSFET-ограничителями тока) позволяет смешивать разные химии и степени износа.
- Но балансировка таких разнородных блоков сложна: риск теплового разгона, необходимы постоянные ребалансировки и индивидуальная защита.
- В Японии аккумуляторы обычно моложе (средний возраст авто 8,7 года и маленький пробег), что повышает пригодность для вторичного использования по сравнению с США.
Libre – An anonymous social experiment without likes, followers, or ads
- LIBRE — свободное пространство без границ.
- Языки: español, english.
- Символы: 🌍🌌📜🚀❤️ — путь к свободе.
- Поддержка: ko-fi.com/libreantisocial.
- Контакт: libreantisocial@gmail.com.
- © 2025 Libre
Комментарии (118)
- Проект Libre — анонимная доска без лайков, подписчиков и модерации — за час превратился в «4chan без фильтров»: расизм, нацизм, порно, XSS-уязвимости и сломанные кнопки «Report».
- Участники сходятся: радикальная анонимность без последствий и инструментов модерации неминуемо приводит к захвату платформы троллями и психопатами.
- Некоторые находят эксперимент интересным как напоминание о «раннем интернете», но большинство предрекает итог «вот почему у нас нет хороших вещей».
- Критикуют и техническую реализацию: отсутствие санитизации HTML, поломка при выключенном JS, пустые ToS и неработающие импорты ID.