GPT-OSS Reinforcement Learning
Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.
Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.
Комментарии (37)
- Благодарность Unsloth за реализацию режима сна в vLLM, упрощающего RL-обучение и делающего его более доступным.
- Споры о качестве модели GPT-OSS: одни пользователи считают её устаревшей, другие приводят примеры её эффективности в конкретных задачах.
- Обсуждение практической пользы дообучения моделей для бизнеса и локального использования, включая работу с редкими языками.
- Акцент на демонстрации в релизе Unsloth методов борьбы с читерством (reward hacking) в reinforcement learning.
- Упоминание инструмента DeepFabric для генерации данных в формате OpenAI.
The Obsessively Complete Infocom Catalog
Сайт представляет собой архив всех версий игр Infocom, включая исходный код и скомпилированные файлы. Каждый пакет помечен серийным номером и датой компиляции, что позволяет восстановить хронологию разработки. Коллекция сосредоточена на оригинальных релизах и фанатских модификациях 1980-х годов, исключая современные пересборки и исправления ошибок.
Основой архива послужили материалы, опубликованные Джейсоном Скоттом в 2019 году, но здесь добавлены пропущенные вариации, бета-тесты и исправлены ошибки GitHub-репозиториев. Файлы доступны для скачивания в форматах JSON и ZIP. Автор подчёркивает историческую ценность коллекции, несмотря на юридическую неоднозначность распространения проприетарного контента.
Комментарии (39)
- Рекомендуется начинать знакомство с текстовыми квантами не с Infocom (например, Zork), а с более дружелюбных к игроку игр, таких как Glowgrass или Lost Pig.
- Обсуждается применение LLM (языковых моделей) для улучшения парсеров команд и создания более естественного диалога с NPC, что может привлечь новое поколение игроков.
- Упоминаются ресурсы для поиска и оценки игр (база данных IFDB) и авторские системы для их создания (IFWiki), а также подкасты, посвящённые Infocom.
- Отмечается историческая и культурная значимость Infocom, а также тот факт, что бренд был продан Activision и использовался для публикации игр после закрытия оригинальной студии.
- Высказываются личные воспоминания и опыт игры в классические кванты, такие как Trinity или A Mind Forever Voyaging, подчёркивающие их художественную ценность.
New math revives geometry's oldest problems
Новые методы в алгебраической геометрии возрождают классические задачи, восходящие к древнегреческим математикам вроде Аполлония Пергского. Используя теорию обогащённой схемы — относительно молодой подход, разработанный в последние десятилетия, — исследователи смогли систематически подсчитывать геометрические объекты, удовлетворяющие заданным условиям, например, количество окружностей, касающихся трёх данных. Этот метод позволяет учитывать вырожденные случаи и мультипликативности, которые ранее затрудняли точные вычисления.
Один из ключевых результатов — доказательство того, что на кубической поверхности лежит ровно 27 прямых, а также уточнение числа конических сечений, касающихся пяти заданных. Подход не только даёт строгие ответы на многовековые вопросы, но и открывает пути для решения более сложных проблем, связывая геометрию с алгеброй и теорией чисел. Это показывает, как современные абстракции оживляют древнейшие математические интуиции.
Комментарии (9)
- Участники обсуждают сложность понимания математических концепций из статьи Quanta Magazine, в частности, теории Громова-Виттена и подсчёта линий на кубической поверхности.
- Некоторые пользователи выражают затруднение или полное непонимание темы, отмечая, что даже поиск не прояснил вопрос.
- Один из комментаторов предлагает простое визуальное наблюдение о состояниях круга (2^3=8), но не как доказательство, а как заметку.
- Высказывается мнение, что Quanta Magazine в целом хорошо и точно доносит суть сложных тем, вселяя доверие даже к статьям вне зоны компетенции читателей.
- Поднимается вопрос, сохраняется ли обсуждаемое математическое правило для большего количества точек (4, 5, 10).
Why do we remember some life moments but not others?
Мозг укрепляет воспоминания о рутинных событиях, если они связаны с эмоционально значимым моментом — например, незначительные детали перед выигрышем в лотерею запоминаются лучше. Исследование Бостонского университета с участием 650 человек показало, что этот эффект работает по-разному для событий до и после ключевого момента: последующие воспоминания усиливаются пропорционально интенсивности эмоций, а предыдущие — через общие признаки, такие как визуальные совпадения.
Это открытие объясняет, почему мы ярко помним не только важные события, но и сопутствующие мелочи — например, камень на тропе перед встречей с бизонами. Результаты могут помочь в разработке методов улучшения памяти для студентов или терапии травматических воспоминаний, поскольку демонстрируют активную роль мозга в фильтрации и усилении значимых фрагментов опыта.
Комментарии (48)
- Память избирательна: эмоциональные и неожиданные события запоминаются лучше, чем рутинные.
- Воспоминания могут быть тесно связаны с сенсорными сигналами, особенно с обонянием.
- Процесс воспоминания не пассивен: память может меняться при каждом её воспроизведении.
- Существует субъективный арбитрарный элемент: некоторые тривиальные моменты запоминаются без видимой причины.
- Интенсивность воспоминаний может зависеть от личностных особенностей и того, на чём человек сосредотачивается.
Thoughts on Mechanical Keyboards and the ZSA Moonlander 💬 Длинная дискуссия
Механические клавиатуры, особенно программируемые модели вроде ZSA Moonlander, — это не просто модный аксессуар, а серьёзный инструмент для снижения нагрузки на пальцы и предотвращения травм. Автор, долгое время пользовавшийся эргономичными, но недолговечными клавиатурами Microsoft, перешёл на Moonlander из-за его долговечности, сменных переключателей и возможности кастомизации. Ключевое преимущество — прошивка, которая позволяет переназначать клавиши на уровне железа, делая настройки портативными между устройствами.
Особенно ценна эта возможность в строгих корпоративных средах, где стандартные методы переопределения клавиш (например, Caps Lock в Ctrl) часто блокируются. Программируемая клавиатура решает эту проблему, так как все макросы и переназначения хранятся в её памяти. Автор подчёркивает, что главное — не эстетика («клацающие» клавиши или цветные кейкапы), а практическая польза: гибкость, эргономика и сохранение здоровья при долгой работе за компьютером.
Комментарии (181)
- Пользователи делятся опытом решения проблем с RSI (репитивной нагрузкой) с помощью эргономичных клавиатур, таких как Kinesis Advantage, Moonlander, Glove80 и других.
- Подчёркивается важность программируемости (QMK), раздельной конструкции, ортолинейной или вогнутой формы для снижения нагрузки на руки и запястья.
- Отмечается, что не существует универсального решения: выбор зависит от индивидуальных предпочтений (раскладка, количество клавиш, необходимость в функциональных клавишах).
- Многие прошли через долгий период адаптации и кастомизации раскладки, что требует времени, но в итоге окупается.
- Некоторые пользователи отмечают, что лучшим решением стала физиотерапия или комбинация методов (отдых, упражнения, вертикальная мышь), а не только смена клавиатуры.
Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
How insurance risk is transformed into investable assets
Страховой риск превращается в инвестиционный актив через процесс коллатерализации. Обычные страховые полисы лишь частично обеспечены капиталом страховой компании — этого хватает для покрытия типичных убытков, но в экстремальных сценариях (например, катастрофические события) убытки могут превысить собранные премии и даже резервы, что ведёт к неплатежеспособности. Именно поэтому регуляторы строго контролируют достаточность капитала и ограничивают прямое инвестирование в страховые риски для розничных инвесторов.
Для создания инвестиционных продуктов страховой риск полностью коллатеризуется — эмитент резервирует активы, достаточные для покрытия максимально возможных убытков. Это защищает инвестора от потерь beyond вложенной суммы, в отличие от исторической практики Lloyd's, где инвесторы (Names) рисковали всем личным состоянием. Таким образом, страховой риск становится предсказуемым и безопасным активом с чёткими параметрами доходности и убытков.
Комментарии (37)
- Обсуждаются особенности CAT-бондов (облигаций, связанных с катастрофами): их триггеры (конкретные природные явления или отраслевые убытки), корреляция с реальными убытками страховщиков и ограниченная доступность для частных инвесторов.
- Затрагивается влияние пандемии COVID-19 на страховую отрасль: отсутствие массовых банкротств из-за небольшого рынка страхования от пандемий и оспаривание выплат по полисам бизнес-прерывания.
- Поднимаются вопросы о нишевости продукта, недостатке информации даже среди финансовых советников и потенциале для диверсификации и снижения волатильности при росте рынка.
- Упоминаются системные риски, ретроцессия (перестрахование для перестраховщиков) и возможные параллели с финансовым кризисом 2008 года из-за сложности инструментов.
- Отмечается качество и доступность исходной статьи, а также необходимость её вычитки для устранения опечаток.
Why use mailing lists?
Электронная почта и почтовые рассылки остаются незаменимыми благодаря своей федеративной природе, асинхронности и лёгкости архивирования. Они не требуют одновременного присутствия онлайн, что отличает их от современных альтернатив вроде мессенджеров и соцсетей.
Ключевые преимущества включают отсутствие необходимости в специальном ПО — достаточно стандартного почтового клиента, простоту использования с едиными правилами, низкие риски безопасности и конфиденциальности по сравнению с веб-форумами, а также экономию трафика. Эти факторы делают почтовые рассылки устойчивым решением для технических и профессиональных сообществ.
Комментарии (148)
- Обсуждаются преимущества почтовых рассылок: независимость от компаний, федеративность, архивируемость и доступность.
- Отмечаются проблемы рассылок: сложность модерации, уязвимость email-адресов, плохой UI/UX и отсутствие истории для новичков.
- Упоминаются альтернативы: NNTP (Usenet), ActivityPub, Matrix, IRC, RSS и форумы (Discourse), но у них есть свои ограничения.
- Подчёркивается ирония обсуждения рассылок на централизованном проприетарном форуме (Hacker News).
- Приводятся примеры успешного использования рассылок для HOA, профессиональных сообществ и длительных дискуссий.
If you are harassed by lasers 💬 Длинная дискуссия
Если вас преследуют лазерными лучами, важно сохранять спокойствие и избегать прямого взгляда на источник света. Лазерное излучение может вызвать временное ослепление, блики и даже необратимое повреждение сетчатки, особенно при использовании мощных устройств. В первую очередь защитите глаза, отвернувшись или прикрыв их, и немедленно покиньте опасную зону.
Сообщите о происшествии в правоохранительные органы, предоставив как можно больше деталей: время, место, описание источника и причастных лиц. Во многих странах нацеливание лазеров на людей, транспорт или aircraft является уголовным преступлением. Практический вывод: знание правил безопасности и быстрые действия помогают минимизировать риски и способствуют привлечению виновных к ответственности.
Комментарии (197)
- Решение проблемы с раздражающим светом от генератора соседа с помощью зеленой наклейки, перенаправляющей свечение.
- Обсуждение опасностей лазерных указателей, включая случаи их использования для хулиганства и потенциального вреда для зрения.
- Критика сайта LaserPointerSafety.com за размещение ссылок на сомнительные ресурсы, связанные с теориями заговора.
- Обсуждение психиатрического аспекта: люди, страдающие паранойей, могут интерпретировать обычные явления как целенаправленные атаки.
- Предложения по решению проблемы слишком ярких индикаторных светодиодов в устройствах (затемнение, использование световодов, изоленты).
When Bruce Lee trained with Kareem Abdul-Jabbar
Брюс Ли тренировал Карима Абдул-Джаббара в конце 1960-х, превратив баскетболиста в ученика джит кун до. Их сотрудничество выходило за рамки физической подготовки: Ли учил философии адаптивности и эффективности, подчёркивая, что «стиль без стиля» — ключ к настоящему мастерству. Для Абдул-Джаббара, искавшего духовную глубину за пределами спорта, эти уроки стали мостом между дисциплинами.
Их совместная работа позже воплотилась в фильме «Игра смерти», где сцены боёв демонстрируют синтез боевых искусств и атлетизма. Ли видел в росте Джаббара (218 см) не помеху, а уникальное преимущество, разрабатывая для него технику, использующую длину конечностей. Это взаимное влияние показало, как искусство может трансформировать даже самых физически одарённых людей.
Комментарии (56)
- Обсуждается тренировка Карима Абдул-Джаббара с Брюсом Ли и его влияние на восприятие времени и концентрацию.
- Упоминается комедийная роль Карима (Роджера Мердока) в фильме «Аэроплан» и его спортивная карьера.
- Поднимается вопрос о реальных боевых навыках Брюса Ли и их восприятии в массовой культуре.
- Обсуждается проблема расизма в 60-е годы и вклад таких личностей, как Карим и Эд Салливан.
- Критикуется заголовок статьи и приводятся архивные ссылки для ознакомления с первоисточником.