Language models pack billions of concepts into 12k dimensions 🔥 Горячее
Как языковые модели размещают миллиарды понятий в 12 000 измерений
Главное: в пространстве 12 288 измерений (GPT-3) умещаются миллионы понятий не за счёт строгой ортогональности, а благодаря «квазиортогональности» — углам 76–95°.
Почему это работает:
- В N измерениях только N векторов могут быть строго ортогональны.
- Если разрешить уклон ±15°, вместимость взрывается: экспонента по N.
- Лемма Джонсона-Линденштраусса обещает: при проецировании в k ≈ 8 ln N / ε² измерений попарные расстояния сохраняются с точностью 1 ± ε.
Подводный камень оптимизатора:
Исходная функция потерь ∑|cos θᵢⱼ| даёт вырожденное решение: 99 % пар почти ортогональны, 1 % почти коллинеарны.
Фикс: экспоненциальный штраф ∑exp(20 cos²θᵢⱼ) — максимальный угол вырос до 76,5°.
Следствие для ML:
- Эмбеддинги не требуют ортогональности; им достаточно «достаточной разреженности» углов.
- JL-лемма объясняет, почему 12 000 измерений хватает для миллиардов концепций.
Комментарии (119)
- Обсуждение критикует статью за переоценку ёмкости 12k-мерного пространства для представления концепций, указывая на путаницу между количеством векторов и семантическими понятиями.
- Участники подчеркивают, что ключевая проблема — не ортогональность векторов, а сохранение семантических расстояний и иерархий между неортогональными концепциями с помощью нелинейностей (например, softmax).
- Отмечается, что способность упаковывать много векторов (сферические коды) не эквивалентна способности модели представлять и различать реальные смыслы.
- Ссылаются на гипотезу суперпозиции и Sparse Autoencoders (SAEs) из mechanistic interpretability как на более корректный подход к анализу.
- Критикуется стиль статьи как похожий на сгенерированный ИИ, с избытком громких эпитетов и недостаточной глубиной анализа.
Decentralized YouTube alternative adds livestream scheduling in new release
PeerTube 7.3 — децентрализованный аналог YouTube — получил планировщик прямых эфиров, многоязычные уведомления (фр., кит.) и мастер первоначальной настройки. Админ-панель теперь боковая, упростилась работа с логотипами, цветами и баннерами. Плейлисты и управление сессиями тоже улучшены.
Комментарии (23)
- PeerTube важен как символ: даже небольшая ассоциация показывает, что интернет можно строить иначе — открыто и децентрализованно.
- Основной тормоз — отсутствие удобной децентрализованной монетизации: авторы и хостеры не могут конкурировать с «бесплатным» YouTube.
- Проект почти неизвестен широкой публике; название Framasoft/PeerTube путает обычных пользователей.
- Ниша пока — некоммерческие организации, академия и авторы, которым важна независимость, а не охват.
- Разработка идёт медленно: смежный продукт Mobilizon страдает от багов и нехватки рук.
- Сторонники считают: лучше заранее иметь запасную площадку, чем panic-строить её после «испорченного» YouTube.
Not all browsers perform revocation checking
- Этот домен показывает отозванный сертификат, подписанный корнем ISRG Root X1.
- Увидеть отзыв удаётся не во всех браузерах — проверка отзыва работает по-разному.
- Let's Encrypt — бесплатный удостоверяющий центр; страница создана для демонстрации механизма отзыва.
Как участвовать
- Код ЦС: github.com/letsencrypt/boulder
- Форум: community.letsencrypt.org
- Стать спонсором: letsencrypt.org/become-a-sponsor
Комментарии (69)
- Обсуждается проблема неработоспособности механизмов отзыва сертификатов (revocation) в WebPKI, на примере сайта с отозванным сертификатом, который браузеры не блокируют.
- Пользователи тестируют различные браузеры (Chrome, Firefox, Safari, Edge) и констатируют, что ни один из них не распознает сертификат как отозванный.
- Причины: разные подходы к проверке (OCSP, CRL), отсутствие единого централизованного авторитета по отзыву и то, что многие браузеры вообще не выполняют live-проверки из-за проблем с производительностью и приватностью.
- Отмечается, что индустрия движется в сторону сертификатов с коротким сроком жизни (short-lived), что делает проблему отзова менее актуальной, так как такой сертификат быстро сам истекает.
- Упоминается, что Let's Encrypt прекратил поддержку OCSP и предлагает 6-дневные сертификаты, что еще больше снижает важность механизмов отзыва.
Which NPM package has the largest version number?
Краткий итог:
Самое большое число в версии npm-пакета — 999999 (patch-номер).
Рекордсмен: generator-aspnet-identity (версия 0.0.999999).
Комментарии (67)
- Обсуждается проблема отсутствия удобного API для анализа реестра NPM и предлагается использовать набор данных deps.dev в Google BigQuery.
- Упоминаются пакеты с аномально большим количеством версий, например,
spanishconjugatorдля PyPI, который выпускал по ~240 версий в месяц. - Для экосистемы Julia приведены пакеты с наибольшим числом версий, все они являются крупными и стабильными проектами.
- Затрагиваются проблемы семантического версионирования, в частности, сложности с нулевыми мажорными версиями (0.x) и автоматизацией выпуска версий.
- Обсуждаются возможные причины большого числа версий: автоматические обновления, борьба с блокировками (как в случае с пакетом для обхода WhatsApp API) и ошибки в скриптах.
- Предлагаются технические решения для улучшения процесса получения данных, например, использование батчинга для избежания rate limit'ов.
- Делается вывод, что многие пакеты с огромными номерами версий не следуют семверу и могут быть результатом экспериментов или злоупотреблений.
For Good First Issue – A repository of social impact and open source projects
Делай вклад в цифровые общественные блага
Помоги проектам, которые борются с климатом, голодом и прочими глобальными задачами. Ниже — готовые к первому PR репозитории.
| Проект | Язык | Направление |
|---|---|---|
| mautic | PHP | маркетинг-автоматизация |
| credebl | TypeScript | децентрализованная идентичность |
| avni-webapp | JavaScript | медицинские данные |
| the-turing-way | TeX | воспроизводимая наука |
| X-Road | Java | обмен данными между госорганами |
| OpenTermsArchive | JavaScript | прозрачность сервисов |
| OpenFn Lightning | Elixir | автоматизация workflow |
| android-fhir | Kotlin | мобильная медицина |
| casa | Ruby | волонтёрство для детей |
| ODK Collect | Kotlin | сбор данных в поле |
| cht-core | JavaScript | цифровое здравоохранение |
| policyengine-app | Jupyter | расчёт последствий политик |
| querido-diario | Python | открытые госгазеты |
| ODK Central | JavaScript | сервер для форм |
| decidim | Ruby | участие граждан |
Фильтр по языку и Целям устойчивого развития (SDG) на сайте.
Комментарии (14)
- Участники приветствуют инициативу списка проектов с «good first issue», но сомневаются в кураторстве: много проектов без активных задач, не все связаны с социальным влиянием.
- Предложено скрывать репозитории с 0 issues и добавлять метрики активности (коммиты, разработчики, возраст), как в Re-Decentralise.
- Новички спрашивают, считать ли правку опечаток «настоящим» вкладом; большинство советует упоминать, но честно указывать уровень участия.
I built my own phone because innovation is sad rn [video] 🔥 Горячее
О YouTube: информация о компании, пресс-релизы, авторские права, контакты.
Для создателей: реклама, инструменты для разработчиков.
Условия использования: политика конфиденциальности, безопасность, принципы работы платформы, тестирование новых функций.
NFL Sunday Ticket.
© 2025 Google LLC.
Комментарии (56)
- Пользователь переупаковал сломанный Samsung Galaxy Z Flip 5 в корпус с физической клавиатурой Blackberry, что было оценено как впечатляющий хакерский проект.
- Многие участники обсуждения выразили ностальгию по телефонам с физическими клавиатурами (например, Motorola Droid) и отметили их удобство для набора текста и работы.
- Было высказано сомнение в практичности собранного устройства для совершения звонков из-за расположения микрофона и динамика.
- Обсуждалась проблема отсутствия на рынке компактных телефонов (например, iPhone 12/13 Mini) и потенциальная замена их на складные устройства.
- Некоторые пользователи сочли видео слишком длинным и предложили смотреть его на повышенной скорости, другие отметили юмор автора.
- Были подняты вопросы о целесообразности создания такого устройства, учитывая, что исходный телефон (Z Flip 5) уже не является простым «прямоугольником».
- Часть обсуждения была посвящена странному AI-генерованному клипу в видео, который некоторые приняли за форму узников нацистов.
Gentoo AI Policy
Политика Gentoo по ИИ
Совет Gentoo 14.04.2024 запретил вносить в проект любые материалы, созданные с помощью ИИ-инструментов обработки естественного языка. Пакеты ПО, связанного с ИИ, разрешены. Решение можно пересмотреть, если появится инструмент без рисков.
Причины
- Авторское право: правовой статус ИИ-контента неясен, возможны нарушения и ослабление защиты copyleft.
- Качество: LLM легко генерируют убедительный, но бессмысленный текст; проверка требует непропорциональных усилий.
- Этика:
– тренировка моделей нарушает авторские права;
– огромное потребление энергии и воды;
– ИИ снижает качество услуг и увольняет людей;
– модели используются для спама и мошенничества.
Комментарии (112)
- Gentoo запретил AI-генерированные патчи, но участники спорят: «плохой код» может писать и человек, и ИИ.
- Главный аргумент Gentoo – риск «правдоподобного, но бессмысленного» кода и этические проблемы (энергия, копирайт).
- Критики считают политику не-обоснованной: FOSS сам опирается на копирайт, а вред от одного ПР ничтожен.
- Практически запрет не решает проблему: отличить «помог себе LLM» от «написал сам» нельзя, остаётся только доверие.
- Некоторые предлагают считать вклад не по происхождению, а по качеству и пониманию кода автором.
Titania Programming Language
Titania — экспериментальный язык от автора Odin.
Цель: максимум производительности, минимум «магии», ясный код.
Ключевые идеи
- Статическая типизация, компиляция «в ноль»
- Нет GC: ручной или автоматический RAII
- Процедурный, но с мощными шаблонами и compile-time вычислениями
- Прямая работа с SIMD, FFI, встраиваемый ASM
- Синтаксис: C-подобный, но короче; нет препроцессора
Статус
Публичный прототип, API меняется. Собирается LLVM или собственный бэкэнд.
Комментарии (42)
- Участники обсуждают язык Wirthwhile: критикуют обязательное объявление всех переменных в начале функции, но @munificent объясняет, что это упрощает однопроходную компиляцию.
- Появляются вопросы о мотивации создания ещё одного языка и его отличиях от Oberon-07; @khaledh напоминает, что автор — создатель Odin.
- Предлагаются экспериментальные синтаксические идеи: спец-символ «.» для перевода строки и отказ от println; сообщество отмечает конфликт с методами и контекстно-зависимость грамматики.
Cannabis use associated with quadrupled risk of developing type 2 diabetes
- Исследование 4 млн взрослых: употребление каннабиса связано с 4-кратным ростом риска диабета 2-го типа.
Комментарии (68)
- Участники сомневаются в методологии: критерии отбора когорт не раскрыты, неясно, какие переменные учитывались.
- Основной подозреваемый — «munchies»: каннабис → аппетит → переедание → ожирение → диабет; у толерантных пользователей маниакальный голод быстро пропадает.
- Эффект 0,6 % vs 2,2 % (×4) выглядит большим, но кто-то считает его малым; данные ещё не опубликованы, статью называют «скетчем».
- Конфликт с другими исследованиями: курильщики чаще худеют и реже страдают ожирением; требуется работа, которая всё приведёт к общему знаменателю.
Grapevine canes can be converted into plastic-like material that will decompose 🔥 Горячее 💬 Длинная дискуссия
Виноградные лозы против пластика
Учёные Южно-Дакотского госуниверситета превратили обрезанные виноградные лозы в прочный биоматериал, который быстро разлагается и может заменить одноразовую упаковку.
Сейчас 91 % пластика не перерабатывается, образуя «мусорные континенты» и микропластик в организме человека. Новый материал дешёв, изготавливается из агроотходов и безвреден для природы.
Комментарии (290)
- В UK запретили одноразовые пластиковые пакеты — сначала все возмущались, но быстро привыкли к многоразовым.
- Пользователи делятся опытом: кто-то вовсе отказался от пакетов для фруктов, кто-то использует сетчатые или тканевые.
- Скепсис вызывает «биоразлагаемая» целлюлоза: она быстро портится, а при распаде может оставлять микропластик.
- Основной тормоз — не технология, а экономика: нефтяные компании и переработчики не заинтересованы менять инфраструктуру.
- Многие напоминают: правильная иерархия — reduce-reuse-recycle; без запретов и льгот новые материалы не вытеснят пластик.