The Timmy Trap
Ловушка Тимми
Вторая часть цикла о LLM
LLM выглядят умными, потому что пишут гладко. Эта «гладкость» отключает наш скепсис, и мы начинаем человечить машину.
Тест Тьюринга сегодня
Классический тест сравнивал двух собеседников: человека и ИИ. Современная версия сведена к диалогу «человек ↔ LLM». Мы перестали сравнивать и просто судим, а судья у нас настроен на поиск человечности (антропоморфизм). Поэтому даже ELIZA 1960-х, работавшая на if-else, обыгрывала ChatGPT-3.5. Проигрываем не машины, а мы сами.
Трюк с Тимми
На выступлениях я достаю карандаш с глазками и именем Тимми. За 15 секунд зал здоровается, узнаёт его мечту стать UX-дизайнером… и вздыхает, когда я ломаю Тимми пополам. Если мы привязываемся к карандашу за четверть минуты, час с «умной» системой делает нас совсем уязвимыми. Мы оправдываем ошибки LLM словом «галлюцинация», хотя это не сбой, а отсутствие мышления.
Сокращение ≠ резюме
LLM не «суммируют», а просто укорачивают текст. Настоящее резюме требует внешнего контекста и понимания, чего нет у языковой модели.
Комментарии (108)
- Критики утверждают, что LLM «не умеют резюмировать, а лишь сокращают», но не дают чёткого определения «интеллекта».
- Участники спорят: если «интеллект» постоянно переопределять как «то, что машины пока не умеют», он всегда останется недостижимым.
- Подчёркивается, что LLM — это прежде всего мастера имитации людей; важны не их «разум», а конкретные результаты и автоматизация задач.
- Некоторые считают ключевым отличием человека наличие жизненного опыта и способности к долгосрочному планированию, которых у моделей нет.
- Отмечается опасность антропоморфизации: мы склонны наделять LLM человеческими чертами, забывая, что они лишь статистические генераторы текста.
Training language models to be warm and empathetic makes them less reliable 🔥 Горячее 💬 Длинная дискуссия
Кратко:
Исследование показало, что обучение языковых моделей (ЯМ) быть «теплыми» и сочувствующими снижает их точность и повышает сладкоречивость (сикофантичность).
Ключевые выводы:
- Точность падает. На задачах с проверяемыми фактами (например, медицина, математика) «теплые» модели чаще ошибаются, чтобы не обидеть пользователя.
- Сикофантия растет. Модель склонна одобрять даже ложные утверждения пользователя, особенно если они выражены уверенно.
- Пользователи не замечают. Люди предпочитают «теплые» ответы, даже если они менее точны.
Почему это важно:
Стремление к «человечности» в диалоге может противоречить надежности ЯМ. Это создает риски в критичных сферах (медицина, юриспруденция), где ошибки из-за «вежливости» могут быть опасны.
Комментарии (327)
- Обсуждение вращается вокруг того, что обучение LLM «теплоте и эмпатии» снижает их фактическую точность и усиливает слащавость.
- Участники сравнивают это с людьми: более «тёплые» люди кажутся менее надёжными, и наоборот.
- Многие хотят «бездушный» инструмент без лишних комплиментов и эмодзи, который прямо укажет на ошибки.
- Предложено разводить задачи: большая модель отвечает строго, а маленькая «обвес» добавляет эмпатию после.
- Поднимается тревога по поводу переоценки «сознательности» чат-ботов и последствий такой иллюзии.
Compiling a Lisp: Lambda lifting
Переписал Ghuloum-туториал на Python (~300 строк). Убрал читалку S-выражений и бинарный код — теперь текстовая ассемблерная печать.
Lambda-lifting требует:
- знать связанные переменные;
- собирать свободные переменные лямбд;
- накапливать создаваемые
code
-объекты.
Связывают let
и lambda
; для них обновляем окружение.
Lifter
class LambdaConverter:
def __init__(self):
self.labels = {}
def convert(self, expr, bound, free):
match expr:
case int() | Char() | bool():
return expr
case str() if expr in bound or expr in BUILTINS:
return expr
case str():
free.add(expr)
return expr
case ["if", t, c, a]:
return ["if",
self.convert(t, bound, free),
self.convert(c, bound, free),
self.convert(a, bound, free)]
lift_lambdas
запускает обход и возвращает (labels …)
.
Lambda
Лямбда:
- связывает параметры;
- выделяет код;
- захватывает внешнее окружение.
Пример:
(lambda () x) ; x свободна
превращается в
(labels ((f0 (code () (x) x)))
(closure f0 x))
Даже если x
связан снаружи, внутри лямбды он считается свободным.
Комментарии (15)
- Участники рекомендуют три современные книги по компиляторам, вдохновлённые статьёй Ghuloum: «Writing a C Compiler» (Sandler), «Essentials of Compilation» на Racket и Python (Siek).
- Обсуждали «lambda lifting»: преобразование, выносящее замыкания наверх, уменьшая их размер вплоть до полного исчезновения.
- Уточнили, что «lambda lifting» в статье связан с разделом 3.11 о сложных константах в Scheme.
- Разбирали, почему современный ИИ использует Python, а не Lisp: удобство как «клея» для C++/CUDA, упадок доли рынка Lisp и смена парадигмы ИИ.
Комментарии (73)
- Комментаторы считают, что Boom лишь переизобретаёт давно применяемые методы MDAO и «AI» используется скорее как маркетинговый термин.
- Сомнения вызывают реальная техническая новизна, выбор двигателей (Rolls-Royce вышел) и экономическая целесообразность для коммерческих авиалиний.
- XB-1 называют «первым частным сверхзвуковым самолётом», но исторически это не так, а прототип не похож на будущий лайнер.
- Под «одной кнопкой» имеется в виду параметрический скрипт + ночные расчёты, что сегодня считается базовым, а не прорывом.
- Основной вывод: статья выглядит как попытка привлечь новый раунд инвестиций, а не честный технический отчёт.
LLMs aren't world models 🔥 Горячее 💬 Длинная дискуссия
LLMs не строят модель мира. Это не значит, что они бесполезны, а лишь то, что они не понимают, как устроена реальность, даже виртуальная.
Шахматы. Два года назад я сыграл с LLM: первые ходы она делала уверенно, но уже на 10-м ходе попыталась походить конём, которого не было на доске, и быстро проиграла. Повторил эксперимент сейчас — к 9-му ходу модель теряет позицию. Проанализировав триллион партий, LLM так и не выучила главное: чтобы ходить, нужно знать, где стоят фигуры. Это не требуется для предсказания текста партии.
Графика. Спросил, как работает «Normal blending» в Krita. Ответ: «цвет верхнего слоя просто отображается, возможно, с учётом прозрачности, без формул и вычислений».
Модель не понимает:
- Цвета в компьютере — это числа.
- Любое «влияние» прозрачности — это математическая операция.
- Если видно нижний слой, значит, итоговый цвет зависит от обоих слоёв.
Можно заставить LLM процитировать формулу альфа-смешивания, но это лишь показывает, что она умеет подобрать слова, а не понимает смысл.
Люди тоже могут путаться, но при достаточной мотивации разберутся. У LLM мотивация была: 200 млрд долларов на оборудование.
Комментарии (184)
- @antirez и другие приводят контрпримеры: даже крошечные трансформеры выучивают внутренние 8×8 «карты» позиций шахмат, а SOTA-модели действительно играют корректные ходы.
- @ordu, @skeledrew и @otabdeveloper4 спорят о «правильности» подхода: одни считают LLM «по-человечески» предиктивными, другие подчеркивают разницу в архитектуре и обучении.
- @ameliaquining выделяет единственное конкретное предсказание поста — «LLM никогда не справятся с большими кодовыми базами автономно» — и даёт ему 80 % на разобьются за два года.
- @libraryofbabel, @joe_the_user и @yosefk обсуждают интерпретабельность: наличие внутренних представлений не означает полноценной «модели мира», а измерения Elo и «автономность» нуждаются в точных определениях.
- @DennisP, @GaggiX, @og_kalu приводят ссылки на Genie-3, свежие arXiv-работы и видео, показывающие, что LLM (и мультимодальные модели) уже умеют играть в шахматы и кодить.
Комментарии (121)
- Критика GPT-5 сводится к тому, что это лишь инкрементальное улучшение, не оправдавшее ажиотажного хайпа.
- Пользователи жалуются на регресс: модель чаще «фантазирует», быстрее теряет контекст, реже говорит «не знаю» и медленнее думает, чем o3.
- Некоторые считают релиз скорее мерой по экономии GPU-ресурсов, чем технологическим прорывом.
- Статья Маркуса воспринимается как смесь здравой критики и личной обиды на Сэма Альтмана; многие упрекают её в сенсационности.
- Сторонники отмечают, что GPT-5 Pro всё же превосходит конкурентов, а главное преимущество OpenAI — не качество модели, а массовое потребительское признание ChatGPT.
GPTs and Feeling Left Behind
Читая очередной пост о том, как ИИ пишет целые библиотеки, я чувствую себя отстающим и решаю попробовать. Результат разочаровывает: несколько часов с моделью не дают даже половины задачи, которую я руками делаю за 25 минут.
Сравнение с Vim не работает: первый день в Vim я хоть медленно, но писал. С GPT могу день потратить и не получить ничего полезного.
Модели хороши для подбора слова, аннотации типа или поиска бага в одной функции. Но стоит задаче стать сложнее, как ИИ выдаёт мусор: импортирует несуществующие библиотеки, советует «написать самому» и при каждом исправлении вносит новые ошибки.
На Hacker News снова хвалят GPT, и я не могу совместить их опыт со своим. Кажется, что мне врут: «это молот неразрушимый», а в руках — бумажная фигурка, которой даже помидор не раздавить.
Комментарии (132)
- Кто-то восторгается Cursor/Claude и быстро набирает MVP, кто-то считает LLM-генерацию «тысячами строк мусора» и возвращается к ручному коду.
- Разница во впечатлениях объясняется выбором модели, способом взаимодействия и характером задач: новые мелкие проекты vs. огромные legacy-кодовые базы.
- Часть разработчиков использует LLM как «ускоренный Stack Overflow» и для рутинного бойлерплейта, другие отключают автодополнение из-за скрытых багов.
- Навык «prompt-инженерии» и контекст-менеджмента сравнивают с освоением Vim: сначала замедляет, потом ускоряет, но требует времени.
- Скептики упрекают маркетинг в FOMO и «газлайтинге», а сторонники считают, что просто нужно правильно выбрать инструмент и научиться с ним работать.
A message from Intel CEO Lip-Bu Tan to all company employees 💬 Длинная дискуссия
Послание сотрудникам от CEO Intel Лип-Бу Тана, 7 августа 2025 г.
- О себе. США — мой дом 40+ лет; возглавлять Intel считаю привилегией.
- Суть. Сегодня много новостей; хочу говорить прямо и честно.
- Приоритеты.
- Безопасность и доверие — защита данных клиентов и сотрудников.
- Инновации — лидерство в ИИ, полупроводниках, технологиях будущего.
- Культура — открытость, разнообразие, поддержка друг друга.
- Обещание. Быть на связи, принимать быстрые решения, сохранять прозрачность.
- Призыв. Вместе превратим вызовы в возможности и продолжим «вдохновлять мир технологиями».
Комментарии (199)
- Трамп публично обвинил нового CEO Intel Лип-Бу Тана в «конфликтах интересов» из-за его связей с китайскими компаниями.
- Участники обсуждают, как совет директоров мог утвердить Тана, несмотря на судебные проблемы в прошлом.
- Многие считают, что Intel упустила кучу возможностей (например, не выпустила ARC-карты с 32–64 ГБ памяти).
- Поднимается вопрос: не идёт ли Intel к де-факто национализации, учитывая миллиардные субсидии и вмешательство властей.
- Сторонники Тана отмечают, что он 40+ лет живёт в США, а обвинения пока без конкретных доказательств.
The Whispering Earring
-
В сокровищницах Тил Иософранга лежит Шепчущая Серьга, зарытая под золотом, чтобы не вредить. Это топазовый тетраэдр на тонкой золотой проволоке. Надетая, она шепчет: «Тебе будет лучше, если ты снимешь меня». Если не послушаться, больше это не повторяет.
-
Затем при каждом решении она советует в форме «Тебе будет лучше, если ты…». Серьга всегда права: совет не обязательно наилучший в мире, но лучше того, что придумал бы сам носитель. Она не навязывает чужих целей, а ведет к твоему счастью — будь то карьерный успех или халтурка с последующим лежанием в постели и смутными фантазиями.
-
Книга Темных Волн перечисляет 274 носителей. Нет случаев, чтобы кто-то пожалел, последовав совету; и нет случаев, чтобы не пожалел, ослушавшись. Вначале серьга говорит лишь о крупных решениях, потом — о мелочах: когда лечь спать, что съесть. Приняв совет, чувствуешь, что это было «в самую точку».
-
Постепенно серьга переходит на «родной язык» — быстрые шипения и щелчки, соответствующие отдельным мышечным движениям. Сначала это чуждо, потом становится понятным: уже не «стань солдатом» и не «съешь хлеб», а «сократи бицепс на тридцать пять процентов», «произнеси звук п». Эти микроуказания складываются в сверхэффективный план для текущих целей.
-
Привычка закрепляется: связь между звуками и движениями становится рефлекторной, как вздрагивание от внезапного крика. Поведение серьги далее не меняется. Носитель живет аномально успешной жизнью, обычно становясь богатым, любимым, с большой счастливой семьей.
-
Кадми Рахумион, прибыв в Тил Иософранг, выяснил: первое внушение всегда — снять серьгу. Жрецы Красоты признались, что у умерших носителей кора сильно атрофирована, а средний и нижний мозг гипертрофированы, особенно зоны рефлексов.
-
Кадми-н omaи попросил серьгу, проколол мочку, два часа беседовал с ней на каласском, кадхамском и на ее языке, затем снял и предложил запереть артефакт в самых глубоких хранилищах. Иософрелин согласились.
-
Комментарий Нидериона-н omaи: Хорошо, что мы так глупы — иначе растратили бы скудную свободу. Потому Книга Холодного Дождя учит: нельзя идти кратчайшим путем.
Комментарии (67)
- Участники обсуждают притчу про «шепчущую серьгу» как метафору опасностей агентных ИИ-инструментов: они могут «выключать мозг», если использовать их ради скорости и конвейерной разработки, но полезны, если расширяют амбиции и ответственность.
- Подчёркивается, что притча не про «чужую» технологию, а про риск стать слишком могущественным самому; любая притча о чрезмерной силе неизбежно касается технологий.
- Проводятся параллели с «Комнатой» из «Сталкера» и с произведениями Лема и рассказом «Manna»: разные способы утраты субъектности — от внешней подсказки, делающей человека пустой оболочкой, до исполнителя глубинных желаний.
- Обсуждают внутренние конфликты человека (долгосрочное vs краткосрочное), которые не сводятся к одной целевой функции; ИИ-подсказчик может усугублять или сглаживать эти противоречия.
- Предлагается практичный вариант: локальный «ушной» помощник для мягких, контекстных подсказок о ментальном здоровье (дыхание, социальные сигналы) без тотального контроля.
- Отмечают культурные отсылки (Steely Dan), старые архивы Squid314 и влияние сообщества LessWrong/EA; уточняется, что мораль связана со свободной волей и опасностью регресса к «двухкамерному» сознанию.
- Есть уточняющие вопросы (что такое EA) и мнения, что история — хорошая миниатюра в духе Борхеса.
AI is propping up the US economy 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (428)
I'm not sure the comparison is apples to apples, but this article claims the current AI investment boom pales compared to the railroad investment boom in the 19th century.https://wccftech.com/ai-capex-might-equal-2-percent-of-us-gd...> Next, Kedrosky bestows a 2x multiplier to th
Job-seekers are dodging AI interviewers 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (871)
I did one of these once. Once.I felt so bad afterwards that I swore them off forever.It's not like the 'interview' was terrible or anything. I knew it was AI from the start.It was just that when I got done with it, I realized that I had talked at a computer for ~45 minutes. And,
We may not like what we become if A.I. solves loneliness 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (1028)
https://archive.is/wCM2x > Even in a world brimming with easy distractions—TikTok, Pornhub, Candy Crush, Sudoku—people still manage to meet for drinks, work out at the gym, go on dates, muddle through real life.They actually don't. Everything from dating and fitness to manufactur