Hacker News Digest

Тег: #arxiv

Постов: 39

The Principles of Diffusion Models (arxiv.org)

Эта монография представляет основные принципы, лежащие в основе диффузионных моделей, прослеживая их происхождение и показывая, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно искажает данные в шум, связывая распределение данных с простым априорным через континуум промежуточных распределений. Авторы описывают три дополняющих друг друга подхода: вариационный (как пошаговое удаление шума), основанный на скорах (изучение градиента эволюции распределения данных) и потоковый (генерация как следование плавному пути). Все эти перспективы разделяют общий каркас: зависящее от времени поле скоростей, чье течение транспортирует простой априор в данные.

Выборка сводится к решению дифференциального уравнения, эволюционирующего шум в данные по непрерывной траектории. На этой основе монография обсуждает руководство для управляемой генерации, эффективные численные решатели и модели, вдохновленные диффузией, которые изучают прямые отображения между произвольными моментами времени. Работа обеспечивает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями глубокого обучения.

by Anon84 • 09 ноября 2025 г. в 16:10 • 205 points

ОригиналHN

#diffusion-models#machine-learning#artificial-intelligence#mathematics#deep-learning#arxiv

Комментарии (20)

  • Обсуждение началось с вопроса о дубликатах и правилах HN, где участники обсудили, что считается дубликатом и как обходить правило о дубликатах.
  • Участники обменялись мнениями о том, что такое «брут-форс» в контексте ИИ и эволюции, а также о том, как эволюция и обучение ИИ связаны с «брут-форсом».
  • Обсуждались также вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.
  • Также обсуждались вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.

Making Democracy Work: Fixing and Simplifying Egalitarian Paxos (arxiv.org)

В статье представлена EPaxos* — упрощенная и исправленная версия протокола Egalitarian Paxos для распределенных систем. Классические протоколы вроде Paxos полагаются на выделенного лидера, что создает единую точку отказа и увеличивает задержку для удаленных клиентов. Egalitarian Paxos предлагает альтернативу без лидера, позволяя репликам совместно упорядочивать команды, сохраняя работоспособность при сбое до f из n=2f+1 процессов. Протокол обеспечивает быстрое выполнение команд за 2 задержки сообщений, если не более e=⌈(f+1)/2⌉ процессов выходят из строя.

Авторы отмечают, что оригинальный Egalitarian Paxos, несмотря на влияние на другие протоколы, страдает от сложности, неоднозначной спецификации и серьезных ошибок. EPaxos* решает эти проблемы с помощью более простого алгоритма восстановления после сбоев, строго доказанного корректности. Протокол также обобщает Egalitarian Paxos на весь спектр пороговых значений отказов f и e, где n ≥ max{2e+f-1, 2f+1}, что авторы доказали оптимальным.

by otrack • 08 ноября 2025 г. в 07:29 • 162 points

ОригиналHN

#paxos#egalitarian-paxos#epaxos#raft#distributed-systems#consensus-protocols#fault-tolerance#leaderless-systems#arxiv

Комментарии (48)

  • Обсуждение охватывает вопросы лидерства и консенсуса: Paxos и Raft, EPaxos, EPaxos, Multi-Paxos и Multi-Raft, а также их влияние на производительность и отказоустойчивость.
  • Участники обсуждают, что такое "лидер" в контексте распределённых систем, и какие у него обязанности, включая упорядочивание транзакций и обеспечение отказоустойчивости.
  • Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, обрабатывают вопрос лидерства и как они влияют на производительность и отказоустойчивость системы.
  • Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, влияют на производительность и отказоустойчивость системы.
  • Участники также обсуждают, как различные протоколы консенсуса, включая Paxos и Raft, влияют на производительность и отказоустойчивость системы.

LLMs encode how difficult problems are (arxiv.org)

Исследователи обнаружили, что большие языковые модели (LLM) кодируют сложность задач, но этот механизм не всегда соответствует человеческим представлениям. Анализ 60 моделей показал, что человеческая оценка сложности хорошо декодируется из внутренних представлений (ρ ≈ 0.88) и демонстрирует чёткую зависимость от размера модели, в то время как оценка сложности, основанная на производительности самой модели, значительно слабее и плохо масштабируется. Направление модели к "простым" представлениям уменьшает галлюцинации и повышает точность.

Во время обучения с использованием GRPO на Qwen2.5-Math-1.5B зонд, измеряющий человеческую оценку сложности, укреплялся и положительно коррелировал с точностью тестирования, в то время как зонд на основе LLM-оценки сложности деградировал и отрицательно коррелировал с производительностью. Это указывает на то, что человеческие аннотации обеспечивают стабильный сигнал сложности, который усиливается при обучении с подкреплением, в то время как автоматические оценки сложности становятся несогласованными именно по мере улучшения моделей.

by stansApprentice • 06 ноября 2025 г. в 18:29 • 147 points

ОригиналHN

#large-language-models#machine-learning#reinforcement-learning#natural-language-processing#qwen#llm#arxiv

Комментарии (29)

  • Обсуждение вращается вокруг идеи, что LLM — это не более чем «текстовое дополнение, управляемое сжатыми обучающими данными», и что эта метафора не даёт никакого объяснительного эффекта и вводит в заблуждение.
  • Участники обсуждения подчеркивают, что модели не «решают» задачи, а лишь аппроксимируют их в формате, где они уже были решены в обучающих данных, и что это ограничение важно помнить.
  • Также обсуждается, что оценки времени, которые дают модели, не имеют никакой обоснованности и являются не более чем грубой эвристикой, основанной на неполных или вводящих в заблуждение данных.
  • В конце концов, участники соглашаются, что важно помнить, что LLM — это инструмент, и что важно не забывать об ограничениях и возможностях этого инструмента и не приписывать ему неподходящие задачи.

Updated practice for review articles and position papers in ArXiv CS category (blog.arxiv.org) 🔥 Горячее 💬 Длинная дискуссия

arXiv обновил практику модерации для обзорных статей и позиционных документов в категории компьютерных наук. Теперь такие статьи должны быть предварительно приняты в журнал или конференцию и пройти успешное рецензирование перед публикацией на платформе. Авторы обязаны предоставить документацию об успешном рецензировании, иначе их работа будет отклонена. Это изменение связано с неконтролируемым потоком низкокачественных обзорных статей, особенно после появления генеративного ИИ, который упростил их создание.

Раньше такие документы были редкими и высокого качества, обычно создаваемыми ведущими исследователями по запросу авторитетных изданий. Теперь arXiv получает сотни таких статей ежемесячно, большинство из которых представляют собой лишь аннотированные библиографии без существенного анализа. Хотя технически это не изменение политики (обзорные статьи никогда не были официально разрешенным типом контента), цель нововведения - помочь читателям находить ценные материалы и освободить модераторов для работы с основными типами публикаций.

by dw64 • 01 ноября 2025 г. в 14:58 • 483 points

ОригиналHN

#arxiv#llm#academic-publishing#research#preprint

Комментарии (228)

  • arXiv больше не принимает обзоры и позиционные статьи в категории CS, что вызвало обсуждение о том, что LLM-генерированные статьи могут быть нежелательны, и о том, что arXiv не может быть единственным местом для предпринт-публикаций.
  • Обсуждается, что LLM могут быть использованы для создания обзоров и позиционных статей, что может привести к снижению качества контента.
  • Обсуждается, что arXiv не может быть единственным местом для предпринт-публикаций, и что необходимо найти альтернативные площадки для предпринт-публикаций.
  • Обсуждается, что академическая система поощряет количество публикаций, а не их качество, что может привести к созданию низкокачественных статей.

Reasoning models reason well, until they don't (arxiv.org) 💬 Длинная дискуссия

Исследователи изучают возможности моделей рассуждений (LRM), которые улучшены для пошагового анализа и самопроверки. Несмотря на впечатляющие результаты на таких наборах данных, как NLGraph, где LRM демонстрируют способность к обобщению в математике, физике и других областях, их эффективность резко падает при увеличении сложности задач. Авторы создали новый dataset — Deep Reasoning Dataset (DeepRD), который позволяет генерировать задачи с контролируемой сложностью. На примере проверки связности графов и планирования доказательств в естественном языке выяснилось, что даже передовые модели теряют точность, когда задачи выходят за рамки определенного уровня сложности.

Анализ реальных данных показывает, что подавляющее большинство примеров (графы знаний, взаимодействий, математические доказательства) попадают в зону, где LRM работают эффективно. Однако «длинные хвосты» сложности — редкие, но сложные случаи — раскрывают их ограничения. Например, даже такие модели, как GPT-4o, теряют более 50% точности на задачах, выходящих за пределы привычного диапазона. Это подчеркивает необходимость разработки новых подходов, способных справляться с высокой сложностью, особенно в критически важных областях, где ошибки могут быть неприемлемы.

by optimalsolver • 31 октября 2025 г. в 09:23 • 188 points

ОригиналHN

#arxiv

Комментарии (170)

  • Существующие модели не способны к обобщённому рассуждению, а лишь имитируют его, что подтверждается их неспособностью решать задачи даже средней сложности без специальной дообученной модели.
  • Исследователи создают набор данных, который намеренно исключает возможность обобщённого рассуждения, и показывают, что модели не способны к нему.
  • Проблема в том, что модели не могут сказать "я не знаю" и вместо этого начинают галлюцинировать.
  • Стоит ли вообще пытаться заставить LLM рассуждать, если можно просто использовать специализированный инструмент для этого, вместо того чтобы пытаться заставить LLM делать то, для чего они не предназначены.

A definition of AGI (arxiv.org) 🔥 Горячее 💬 Длинная дискуссия

В статье предлагается первое конкретное определение AGI, соответствующее когнитической универсальности и компетентности хорошо образованного взрослого человека. Авторы основали свою методологию на теории Кэттелла-Хорна-Карролла, наиболее эмпирически проверенной модели человеческого познания, разбив общую интеллект на десять когнитивных доменов, включая рассуждение, память и восприятие. Применение этого подхода показало "зубчатый" когнитивный профиль современных моделей, где текущие ИИ-системы, несмотря на proficiency в знаниемких областях, имеют критические недостатки в базовом когнитивном аппарате, особенно в долговременном хранении памяти.

Представленные AGI-оценки количественно определяют как прогресс, так и оставшийся разрыв до достижения AGI: GPT-4 получил 27%, а GPT-5 - 58%. Эта метрика предлагает объективный способ измерения развития систем ИИ и выявления их сильных и слабых сторон, что может направить будущие исследования в области создания более сбалансированных и универсальных искусственных интеллектов.

by pegasus • 26 октября 2025 г. в 18:09 • 275 points

ОригиналHN

#agi#cattell-horn-carroll-theory#artificial-intelligence#machine-learning#cognitive-science#llm#gpt-4#gpt-5#arxiv

Комментарии (440)

  • Обсуждение в основном вращается вокруг того, что такое AGI и как его измерять, при этом критикуя предложенное в статье определение как "сопоставимость с взрослым человеком" как слишком узкое и не учитывающее другие формы интеллекта.
  • Участники спора подчеркивают, что AGI не может быть измерено только через тесты на "когнитивные способности", поскольку эти тесты не охватывают такие аспекты как эмоциональный интеллект, физическое взаимодействие с миром и социальные навыки.
  • Также поднимается вопрос о том, что если AGI определяется как "способность к обучению", то LLM уже достигли этого, но при этом они не обладают другими важными чертами интеллекта, такими как самостоятельность, мотивация и физическое взаимодействие с миром.
  • Наконец, критикуется сама статья за то, что она не предлагает конкретного определения AGI, вместо этого полагаясь на устаревшую теорию CHC, которая сама по себе неполна и не охватывает такие важные аспекты интеллекта как мотивация и саморегуляция.

ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference (arxiv.org)

Представлен ChunkLLM - легковесный подключаемый фреймворк для ускорения инференса больших языковых моделей. Основная проблема - квадратичная сложность механизма self-attention в Transformer, что приводит к вычислительным неэффективностям. Авторы предлагают двухкомпонентную систему: QK Adapter (для сжатия признаков и получения чанк-внимания) и Chunk Adapter (для обнаружения границ чанков с использованием семантической информации). Во время обучения основная модель остается замороженной, тренируются только адаптеры.

Эксперименты показали, что ChunkLLM сохраняет 98.64% производительности на бенчмарках с длинным контекстом, при этом достигая ускорения до 4.48x при обработке текстов длиной 120K токенов по сравнению с базовым Transformer. Ключевое преимущество - выбор чанков происходит только при обнаружении границы, что значительно ускоряет инференс. Фреймворк демонстрирует сопоставимые результаты на коротких текстах и сохраняет 48.58% ключевого кэша.

by PaulHoule • 24 октября 2025 г. в 11:41 • 84 points

ОригиналHN

#transformer#self-attention#llm#inference#attention-mechanism#machine-learning#natural-language-processing#arxiv

Комментарии (6)

  • Контекст 30k+ токенов становится нормой, но при этом требуется 4× ускорение без значимой потери качества.
  • Модульная, «железо-ориентированная» архитектура становится трендом: LLM-фреймворки стремятся к эффективности и низким вычислительным затратам.
  • Стоит ли жертвовать 2% качества ради 4× ускорения? Да, если речь идет о длинном контексте.
  • Развитие идет в сторону мелких, легковесных решений, которые можно встроить в реальные приложения.

Antislop: A framework for eliminating repetitive patterns in language models (arxiv.org)

Исследователи представили Antislop — комплексный фреймворк для обнаружения и устранения повторяющихся шаблонов ("slop") в языковых моделях, которые снижают качество вывода и делают тексты, сгенерированные ИИ, легко узнаваемыми. Фреймворк включает три компонента: Antislop Sampler для подавления нежелательных строк при выводе без потери словарного запаса, автоматизированный конвейер для профилирования специфичных для модели шаблонов и генерации обучающих данных, а также Final Token Preference Optimization (FTPO) — новый метод тонкой настройки, работающий с отдельными токенами. Некоторые шаблоны "slop" встречаются в выводе LLM более чем в 1000 раз чаще, чем в человеческом тексте, при этом Antislop Sampler успешно подавляет 8000+ паттернов, сохраняя качество, тогда как запрет токенов становится бесполезным уже при 2000 шаблонах. FTPO достигает 90% сокращения "slop" при сохранении или улучшении производительности в кросс-доменных оценках, включая GSM8K, MMLU и творческие задания, в отличие от DPO, который страдает от значительного снижения качества письма и лексического разнообразия.

by Der_Einzige • 23 октября 2025 г. в 16:36 • 106 points

ОригиналHN

#language-models#llm#slop#antislop#machine-learning#natural-language-processing#gsm8k#mmlu#arxiv

Комментарии (99)

  • Обсуждение в основном вращается вокруг двух тем: «slop» как явление и как термин, а также то, как различные модели и их параметры влияют на качество вывода.
  • Участники обсуждают, что именно считается «slop» — это только повторяющиеся фразы или более широкий термин для низкокачественного контента.
  • Обсуждается, какие именно паттерны могут быть обнаружены и устранены на уровне логитов или обучения.
  • Также поднимается вопрос, что именно делает контент «slop»-ом — это только ли самоповторы, или это более фундаментальные проблемы с семантикой и креативностью.
  • Наконец, обсуждается, как влияет на восприятие и обсуждение AI-контента сама мета-дискуссия о «slop» в целом.

Why can't transformers learn multiplication? (arxiv.org)

Исследователи выяснили, почему трансформеры не справляются с задачей умножения многозначных чисел, несмотря на свои широкие возможности. Обратная инженерия модели, успешно обученной умножению через неявную цепочку мыслей, выявила три ключевых аспекта: модель кодирует длинные зависимости с помощью внимания, создавая направленный ациклический граф для "кэширования" и "извлечения" частичных произведений; она реализует эти произведения через суммы Минковского между парами цифр; и представляет цифры с использованием базиса Фурье — интуитивного представления, которого не хватает стандартным моделям.

При стандартной настройке модель сходится к локальному оптимуму без необходимых длинных зависимостей. Однако авторам удалось решить эту проблему, введя дополнительную функцию потерь, предсказывающую "текущую сумму" через линейный регрессионный зонд. Это индуктивное смещение позволило модели успешно освоить умножение, выявляя фундаментальную проблему обучения длинных зависимостей в трансформерах и показывая путь к ее преодолению.

by PaulHoule • 21 октября 2025 г. в 19:47 • 135 points

ОригиналHN

#arxiv#llm

Комментарии (78)

  • Обсуждение показало, что трансформеры не умеют считать, потому что не умеют манипулировать символами, а не потому, что они не умеют считать.
  • Учёные спорят, нужно ли вообще учить модель арифметике, если она не может взаимодействовать с внешними инструментами.
  • Поднимается вопрос, не лучше ли вместо того, чтобы заставлять ИИ вспоминать, как работает умножение, дать ему возможность использовать внешние инструменты.
  • Учёные также обсуждают, что если модель не может манипулировать символами, то она не может и учиться, потому что обучение требует манипуляции символами.
  • Учёные также обсуждают, что если модель не может манипулировать символами, то она не может и учиться, потому что обучение требует манипуляции символами.

BERT is just a single text diffusion step (nathan.rs) 🔥 Горячее

Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.

Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.

by nathan-barry • 20 октября 2025 г. в 14:31 • 432 points

ОригиналHN

#bert#mlm#diffusion#transformer#gemini-diffusion#llm#nlp#arxiv

Комментарии (102)

  • В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
  • Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
  • Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
  • Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
  • Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.

Modern iOS Security Features – A Deep Dive into SPTM, TXM, and Exclaves (arxiv.org)

Apple представила новые функции безопасности в iOS, такие как SPTM, TXM и Exclaves, чтобы повысить защищённость системы. SPTM действует как единый центр управления преобразованием памяти, создавая домены доверия, которые изолируют различные функциональности. TXM отвечает за проверку подписей кода и прав, что усиливает безопасность. Exclaves позволяют изолировать критически важные компоненты, уменьшая риски при компрометации ядра. Эти механизмы позволяют Apple создавать более устойчивую к атакам архитектуру, где даже взлом ядра не сразу приводит к полному компромиссу системы. Внедрение этих функций демонстрирует серьёзный подход Apple к безопасности, превращая iOS в одну из самых защищённых мобильных ОС.

by todsacerdoti • 13 октября 2025 г. в 18:23 • 223 points

ОригиналHN

#ios#security#sptm#txm#exclaves#apple#ppl#sel4#imessage#arxiv

Комментарии (24)

  • Apple демонстрирует комплексный подход к безопасности iOS, включая аппаратные решения, защиту от 0-day уязвимостей и отказ от недостаточно эффективных механизмов вроде PPL.
  • Усилия Apple по безопасности критикуются за мотивацию контроля над устройством (запрет джейлбрейка и ограничение App Store) и наличие уязвимостей в ключевых сервисах вроде iMessage.
  • Архитектура iOS унаследовала сложность от Unix и исторических решений, что привело к многоуровневой защите (sandboxing, hardened runtime), но вызывает вопросы о возможности более простых систем с нуля.
  • Альтернативные ОС (например, seL4) предлагают формально верифицированные и менее сложные подходы к безопасности, но пока не являются полноценными решениями для массового использования.
  • Увеличение вознаграждения за уязвимости и защита кодовых путей на новых процессорах усиливают безопасность платформы в целом.

Reasoning LLMs are wandering solution explorers (arxiv.org)

Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.

Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.

by Surreal4434 • 10 октября 2025 г. в 04:40 • 84 points

ОригиналHN

#large-language-models#llm#artificial-intelligence#machine-learning#google-deepmind#university-of-montreal#chain-of-thought#explainable-ai#arxiv

Комментарии (79)

  • Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
  • Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
  • Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
  • Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.

Less is more: Recursive reasoning with tiny networks (alexiajm.github.io) 🔥 Горячее

Предложена новая архитектура Tiny Recursive Model (TRM), которая использует рекурсивные вызовы одной маленькой сети всего с двумя слоями и 7 миллионами параметров для решения сложных логических задач. Она превосходит большие языковые модели, достигая 45% точности на тестах ARC-AGI-1 и 8% на ARC-AGI-2, что выше результатов многих LLM, включая Deepseek R1 и Gemini 2.5 Pro.

Метод демонстрирует, что рекурсивное мышление с минимальными вычислительными ресурсами может эффективно справляться с задачами, требующими абстрактного рассуждения, такими как судоку и лабиринты. Это открывает перспективы для создания более эффективных ИИ-систем, способных обобщать знания на основе небольшого количества примеров.

by guybedo • 07 октября 2025 г. в 17:42 • 260 points

ОригиналHN

#recursive-neural-networks#deep-learning#artificial-intelligence#arc-agi#large-language-models#deepseek-r1#gemini-2.5-pro#sudoku#maze-solving#arxiv

Комментарии (54)

  • Предложена новая архитектура HRM, использующая две рекуррентные нейросети с разной частотой
  • Модель вдохновлена биологическими принципами иерархического мышления
  • Превосходит большие языковые модели (LLM) в решении сложных головоломок (Судоку, Лабиринты, ARC-AGI)
  • Обучена на небольших моделях (27M параметров) и малом количестве данных (~1000 примеров)
  • Перспективна для решения сложных задач с малыми вычислительными ресурсами

How to inject knowledge efficiently? Knowledge infusion scaling law for LLMs (arxiv.org)

Большие языковые модели часто демонстрируют недостаточную производительность в узкоспециализированных областях и склонны к галлюцинациям из-за отсутствия целевой оптимизации. Стратегическое внедрение доменных знаний на этапе предобучения может значительно улучшить результаты, однако возникает проблема баланса: слишком мало данных приводит к недостаточной специализации, а избыток вызывает катастрофическое забывание ранее усвоенной информации.

Исследование выявило два ключевых наблюдения: каждая модель имеет пороговое значение, после которого её способность сохранять знания резко ухудшается, и эти точки коллапса масштабируются согласованно с размером модели. На основе этого предложен закон масштабирования инфузии знаний, который позволяет предсказать оптимальный объём доменных данных для больших моделей, анализируя их меньшие аналоги. Эксперименты подтвердили эффективность и универсальность подхода для различных размеров моделей и бюджетов токенов.

by PaulHoule • 04 октября 2025 г. в 17:18 • 93 points

ОригиналHN

#llm#machine-learning#knowledge-infusion#scaling-laws#data-optimization#knowledge-retention#fine-tuning#arxiv

Комментарии (31)

  • Критика метода инъекции знаний через шаблонные триплеты Wikidata, а не естественный язык, что может приводить к коллапсу производительности модели.
  • Вопросы о зависимости эффекта коллапса памяти от размера модели, домена данных и стоимости дообучения для создания узкоспециализированных моделей.
  • Обсуждение важности формы подачи знаний (вариативные формулировки vs. фиксированные шаблоны) для их усвоения, а не механического запоминания.
  • Спор о природе LLM: являются ли они построителями моделей мира или всего лишь продвинутыми предсказателями следующего токена.
  • Сомнения в эффективности дообучения (fine-tuning) для добавления новых знаний в сравнении с обучением с нуля.

High-resolution efficient image generation from WiFi Mapping (arxiv.org)

Исследователи предложили метод генерации изображений высокого разрешения на основе данных WiFi Channel State Information (CSI), используя предобученную модель латентной диффузии. Вместо прямого преобразования радиосигналов в пиксели, модель сначала переводит CSI в скрытое пространство, где диффузионный процесс достраивает детализированное представление. Это позволяет эффективно восстанавливать сложные сцены с высоким качеством, избегая шумов и артефактов традиционных подходов.

Ключевым преимуществом является использование предобученного диффузионного компонента, что значительно сокращает вычислительные затраты и время обучения. Метод демонстрирует практическую применимость в сценариях мониторинга через стены или в условиях низкой видимости, расширяя возможности беспроводных технологий для компьютерного зрения.

by oldfuture • 01 октября 2025 г. в 06:33 • 118 points

ОригиналHN

#wifi#channel-state-information#diffusion-models#computer-vision#machine-learning#image-generation#latent-space#privacy-concerns#arxiv

Комментарии (32)

  • Технология использует Wi-Fi данные (CSI) как дополнительное условие для модели диффузии (Stable Diffusion), которая генерирует изображения, заполняя пробелы правдоподобными, но частично случайными деталями.
  • Модель обучалась на парных данных (Wi-Fi и изображения) конкретной комнаты и человека, что вызывает скептицизм относительно её способности обобщать и обвинения в переобучении.
  • Результаты демонстрируют высокую детализацию, но цвет и многие визуальные элементы не извлекаются из Wi-Fi, а являются результатом работы генеративной модели.
  • Обсуждаются потенциальные угрозы приватности, если технология получит развитие, поскольку она теоретически может позволить "видеть" сквозь стены.
  • Отмечается недостаток информации в статье: низкое разрешение примеров изображений и отсутствие деталей о том, как именно данные собирались и обрабатывались.

Introduction to Multi-Armed Bandits (2019) (arxiv.org)

Многорукие бандиты — это классическая задача теории вероятностей и машинного обучения, моделирующая проблему исследования и использования. Агент выбирает из нескольких действий с неизвестными распределениями вознаграждений, стремясь максимизировать суммарный выигрыш. Основная дилемма заключается в балансе между изучением новых вариантов и эксплуатацией уже известных эффективных действий.

Популярные алгоритмы, такие как ε-жадный, UCB и Thompson Sampling, предлагают различные стратегии для решения этой проблемы. Например, UCB использует верхние доверительные границы для оценки потенциальной ценности действий, а Thompson Sampling применяет байесовский подход. Эти методы находят применение в A/B-тестировании, рекомендательных системах и управлении ресурсами, демонстрируя, как оптимальное принятие решений в условиях неопределенности может значительно повысить эффективность систем.

by Anon84 • 30 сентября 2025 г. в 21:08 • 130 points

ОригиналHN

#machine-learning#probability-theory#reinforcement-learning#ab-testing#bayesian-models#decision-making#multi-armed-bandits#arxiv

Комментарии (29)

  • Применение многоруких бандитов (MAB) для оптимизации контента и выбора действий, с успешными кейсами в продуктах и играх (например, Scrabble, Go).
  • Сложности внедрения: проблемы с отчетностью, обучением команд, сохранением независимости данных при A/B-тестировании и управлением состоянием системы.
  • Важность четкого определения целевых метрик и компромиссов между ними, а также необходимость понимания преимуществ MAB по сравнению с ручным управлением экспериментами.
  • Использование байесовских моделей и иерархических процессов для анализа состояния бандитов и решения проблем стратификации.
  • Философская и практическая ценность MAB как метода для принятия решений в условиях неопределенности.

Extract-0: A specialized language model for document information extraction (arxiv.org)

Представлена модель Extract-0 с 7 миллиардами параметров, оптимизированная для извлечения информации из документов и превосходящая по эффективности более крупные модели, включая GPT-4.1. Она достигает среднего показателя вознаграждения 0.573 на тестовом наборе из 1000 задач, обходя конкурентов с результатами около 0.46.

Обучение включает генерацию синтетических данных, тонкую настройку с LoRA, затрагивающую лишь 0.53% весов, и reinforcement learning с новой функцией вознаграждения на основе семантического сходства. Это демонстрирует, что специализированные модели могут превзойти универсальные системы при значительно меньших вычислительных затратах.

by henriquegodoy • 30 сентября 2025 г. в 16:31 • 168 points

ОригиналHN

#machine-learning#natural-language-processing#reinforcement-learning#language-models#low-rank-adaptation#fine-tuning#arxiv

Комментарии (40)

  • Специализированная модель, дообученная на узком наборе данных (280k примеров), демонстрирует высокую производительность в конкретной задаче извлечения данных, но тестируется на схожих данных из того же распределения, что вызывает вопросы о переобучении и реальной обобщающей способности.
  • Обсуждается тренд на создание небольших узкоспециализированных моделей (fine-tuning, LoRA) как более эффективной и дешевой альтернативы большим универсальным LLM для конкретных применений, хотя ROI такого подхода для бизнеса не всегда очевиден.
  • Подчеркивается важность и эффективность методов дообучения и RLHF (GRPO) для небольших моделей, что позволяет с малыми затратами ($196) превзойти большие модели в нишевых задачах, но для широкого внедрения необходимо упрощение процесса для потребительского оборудования.
  • Высказывается скептицизм относительно новизны исследования, так как способность дообученных моделей превосходить большие в узких задачах уже известна, а ключевой проблемой остается генерализация на реальных данных, а не на примерах из тренировочного сета.
  • Намечается bifurcation в развитии AI: открытые небольшие модели решают конкретные практические задачи, в то время как крупные коммерческие модели развиваются в сторону чат-интерфейсов и инструментов общего назначения, что не всегда оптимально.

Computer Vision: Algorithms and Applications, 2nd ed (szeliski.org)

Второе издание фундаментального учебника по компьютерному зрению охватывает алгоритмы и практические приложения, от классических методов до современных нейросетевых подходов. Книга основана на курсах автора в Университете Вашингтона и Стэнфорда, с акцентом на глубину и доступность материала. Электронная версия в формате PDF оптимизирована для онлайн-чтения, с гиперссылками и возможностью комментирования.

Текст дополнен визуальными примерами, включая маски сегментации Mask R-CNN и 3D-реконструкции. Для преподавателей и студентов указаны ссылки на слайды и курсы ведущих университетов, таких как MIT, Корнелл и CMU. Автор приветствует обратную связь по ошибкам и планирует периодически обновлять электронную версию.

by ibobev • 27 сентября 2025 г. в 12:27 • 76 points

ОригиналHN

#computer-vision#machine-learning#neural-networks#mask-r-cnn#3d-reconstruction#mit#cornell#cmu#arxiv#github

Комментарии (13)

  • Пользователи высоко оценивают книгу как отличный фундаментальный учебник по компьютерному зрению.
  • Обсуждается отсутствие продвинутых учебников, покрывающих современные практики, и предлагается искать актуальные знания на arXiv и GitHub.
  • Поднимается вопрос о том, почему старый пост (2022 г.) публикуется снова, и предлагается добавлять дату в заголовок для ясности.
  • Указывается на наличие слайдов и лекций к книге на сайте автора.
  • Отмечается, что область компьютерного зрения очень широка и быстро развивается, что затрудняет создание актуальных учебников.

Bit is all we need: binary normalized neural networks (arxiv.org)

Новая архитектура бинарных нормализованных нейросетей (BNNN) показывает, что для эффективного представления весов достаточно всего одного бита. Вместо традиционных 32-битных значений BNNN использует бинарные веса (±1), что резко сокращает требования к памяти и вычислительной сложности. Это особенно важно для развёртывания моделей на устройствах с ограниченными ресурсами, таких как микроконтроллеры или мобильные телефоны.

Эксперименты подтверждают, что BNNN сохраняет конкурентную точность на задачах классификации изображений, несмотря на экстремальное сжатие. Метод включает нормализацию активаций, что компенсирует потерю информации от бинаризации. Практический вывод: бинарные представления могут быть достаточны для многих приложений, открывая путь к более энергоэффективному ИИ.

by PaulHoule • 26 сентября 2025 г. в 01:43 • 85 points

ОригиналHN

#neural-networks#binary-neural-networks#machine-learning#binary-weight-representation#activation-normalization#edge-computing#model-compression#quantization#deep-learning#arxiv

Комментарии (35)

  • Критика новизны подхода и ссылки на более ранние исследования в области квантованных сетей
  • Обсуждение недостатков метода: значительное увеличение времени обучения и отсутствие квантования активаций
  • Указание на то, что метод предназначен в основном для инференса, а не для обучения
  • Сомнения в корректности выводов работы и её названия, указывающие на игнорирование предыдущих исследований
  • Обсуждение технических деталей, таких как хранение параметров в двух формах и возможность более низкой битности

Are elites meritocratic and efficiency-seeking? Evidence from MBA students (arxiv.org)

Исследование выявило, что будущие элиты — студенты MBA из Лиги плюща — склонны поддерживать более неравные распределения доходов по сравнению со средним американцем, независимо от того, вызвано неравенство удачей или заслугами. Их решения о перераспределении сильно зависят от эффективности: они в десять раз чувствительнее к издержкам, чем обычные граждане США, и реже придерживаются строгих меритократических принципов.

Эти предпочтения могут объяснять высокий уровень неравенства в США, поскольку элиты играют ключевую роль в формировании политики. Практический вывод: их подход к справедливости скорее утилитарен, чем основан на равенстве возможностей.

by bikenaga • 23 сентября 2025 г. в 15:28 • 75 points

ОригиналHN

#arxiv

Комментарии (34)

  • Участники скептически относятся к результатам исследования, указывая на проблемы воспроизводимости в психологии и других науках.
  • Высказывается мнение, что поведение, направленное на защиту собственных интересов, является эволюционной нормой, а не открытием.
  • Исследование критикуют за попытку представить жадность как эффективность и за некорректные методологические сравнения.
  • Обсуждается, что отдельные группы (например, студенты MBA) склонны создавать более неравное распределение благ по сравнению с широкими слоями населения.
  • Поднимается тема долгосрочной эволюционной стратегии, где успех связан с альтруизмом и моралью, а не с краткосрочной выгодой.

Paper2Agent: Stanford Reimagining Research Papers as Interactive AI Agents (arxiv.org)

Исследовательские работы превращаются в интерактивных ИИ-агентов, способных отвечать на вопросы, генерировать код и визуализировать данные напрямую из текста статьи. Это достигается за счёт структурированного представления содержания — разделов, формул, алгоритмов — в формате, понятном языковым моделям. Агенты используют RAG для точного извлечения информации и следования исходному контексту, что резко снижает риски галлюцинаций.

Ключевое преимущество — повышение надёжности: ответы строго привязаны к содержимому статьи, а не к общим знаниям модели. Это особенно ценно для сложных технических тем, где точность критична. Практически, такой подход ускоряет взаимодействие с научными материалами, делая их не статичными документами, а динамичными инструментами для исследователей и разработчиков.

by Gaishan • 22 сентября 2025 г. в 22:02 • 134 points

ОригиналHN

#llm#rag#natural-language-processing#research#data-visualization#academic-publishing#arxiv

Комментарии (30)

  • Участники обсуждают, снижает ли автоматизация понимания научных станей глубину познания или же, наоборот, делает исследования более доступными, устраняя бюрократические и технические барьеры.
  • Высказываются опасения по поводу поверхностного понимания и некритического использования ИИ, включая случаи генерации ложных данных и неспособности защитить диссертации.
  • Подчёркивается, что академический стиль письма часто намеренно усложнён, и инструменты для его упрощения могут быть полезны, особенно для инженеров и неэкспертов.
  • Обсуждаются технические аспекты ИИ-агентов: их определение, способность автономно работать с инструментами, безопасность и практическая применимость для запуска описанных в статьях методов.
  • Отмечается, что инструмент, представленный в статье, является практическим примером из области геномики, но его эффективность по сравнению с ручной работой эксперта ставится под вопрос.

We Politely Insist: Your LLM Must Learn the Persian Art of Taarof (arxiv.org)

Исследователи предлагают обучать большие языковые модели искусству персидского таарофа — сложной системе вежливости, включающей ритуальные отказы, косвенные просьбы и тонкие социальные нюансы. Это требует понимания контекста, иерархии и культурных кодов, выходящих за рамки западных норм вежливости.

Модели без такого обучения часто воспринимают таароф буквально, что ведёт к неловким или оскорбительным ситуациям. Например, на предложение «останьтесь на обед» правильный ответ — вежливый отказ, а не прямое согласие. Интеграция таарофа улучшит взаимодействие ИИ в мультикультурных контекстах, подчеркнув важность культурной специфики в NLP.

by chosenbeard • 22 сентября 2025 г. в 00:31 • 134 points

ОригиналHN

#machine-learning#natural-language-processing#cultural-context#llm#linguistics#social-norms#communication-protocols#arxiv

Комментарии (77)

  • Обсуждается опасность обучения LLM на культурных нормах вроде персидского таарофа и кетмана (искусства ритуальной вежливости и скрытности), так как это может усилить деceptiveness моделей.
  • Участники проводят параллели с другими культурами: ирландской, норвежской, японской (имаваси), западной вежливостью и теорией вежливости в лингвистике, отмечая универсальность косвенности в коммуникации.
  • Высказываются опасения, что LLM, будучи обученными в основном на западных данных, плохо справляются с восточными культурными тонкостями, и их вежливость часто выглядит неестественно или "слишком по-продажному".
  • Отмечается, что низкий человеческий бенчмарк (81.8%) для таарофа демонстрирует сложность даже для носителей, а также что модели могут стереотипизировать поведение, оправдывая его гендером, а не культурным контекстом.
  • Поднимается вопрос о том, что такие ритуалы служат социальным фильтром и способом демонстрации эмоционального интеллекта, а их сложность — часть культурной идентичности, которую ИИ может не уловить без достаточных данных и тонкой настройки.

Lightweight, highly accurate line and paragraph detection (arxiv.org)

Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.

Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.

by colonCapitalDee • 21 сентября 2025 г. в 21:18 • 132 points

ОригиналHN

#graph-convolutional-networks#computer-vision#document-analysis#pdf-processing#ocr#nlp#deep-learning#arxiv

Комментарии (23)

  • Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
  • Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
  • Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
  • Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
  • Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.

Towards a Physics Foundation Model (arxiv.org)

К созданию базовой модели физики

Флориан Виснер, Маттиас Весслинг, Стивен Бэк

Аннотация

Базовые модели произвели революцию в обработке естественного языка благодаря парадигме «обучил один раз — применяй где угодно», когда единая предобученная модель адаптируется к бесчисленным задачам без переобучения. Доступ к базовой модели физики (PFM) стал бы преобразующим — демократизировал бы доступ к высокоточной симуляции, ускорил научные открытия и устранил необходимость в разработке специализированных решателей.

Мы представляем General Physics Transformer (GPhyT), обученный на 1,8 ТБ разнообразных данных симуляции, который демонстрирует достижимость возможностей базовой модели для физики. Наше ключевое понимание заключается в том, что трансформеры могут научиться выводить управляющую динамику из контекста, позволяя одной модели симулировать взаимодействия жидкость-твердое тело, ударные волны, тепловую конвекцию и многофазную динамику без знания исходных уравнений.

GPhyT достигает трёх критических прорывов:

  1. Превосходная производительность в нескольких областях физики
  2. Обобщение на полностью новые физические системы через обучение в контексте
  3. Стабильные долгосрочные прогнозы через 50-шаговые прогоны

Эта работа открывает путь к универсальной PFM, которая могла бы преобразовать вычислительную науку и технику.

Ключевые слова: Машинное обучение, Искусственный интеллект, Базовые модели, Физическое моделирование

by NeoInHacker • 18 сентября 2025 г. в 03:06 • 85 points

ОригиналHN

#machine-learning#artificial-intelligence#transformers#physics-simulation#deep-learning#arxiv

Комментарии (17)

  • Представлена модель GPhyT, способная обучаться и предсказывать динамику разнообразных физических систем без явных физических особенностей.
  • Основное отличие от PINNs и Neural Operators — способность модели понимать множественные физические системы, а не узкоспециализированные.
  • Ключевой проблемой признается нехватка данных, особенно для 3D и реальных задач.
  • Поднимается вопрос о сохранении моделью фундаментальных законов сохранения (масса, энергия, импульс), что в текущей версии не реализовано.
  • Авторы работают над включением законов сохранения в следующей версии модели, отмечая сложность этой задачи для множественных систем.
  • Обсуждается возможность применения подобных моделей в электромагнетизме и других сложных физических областях.
  • Высказываются сомнения в проверке физической правдоподобности моделей, заменяющих численные решатели, и сохранении ими инвариантов.

Determination of the fifth Busy Beaver value (arxiv.org) 🔥 Горячее

Определение пятого значения функции занятого бобра

Авторы: Коллаборация bbchallenge (Джастин Бланшар и др.)

Аннотация: Мы доказываем, что $S(5) = 47,176,870$ с использованием системы проверки доказательств Coq. Значение занятого бобра $S(n)$ — максимальное число шагов, которое машина Тьюринга с $n$ состояниями и 2 символами может выполнить с нулевой ленты до остановки. Функция $S$ была введена Тибором Радо в 1962 году как один из простейших примеров невычислимой функции. Доказательство включает перебор $181,385,789$ машин Тьюринга с 5 состояниями и определение для каждой из них, останавливается ли она. Наш результат — первое определение нового значения занятого бобра за более чем 40 лет и первое формально верифицированное значение, что демонстрирует эффективность массовых онлайн-исследований (bbchallenge$.$org).

Комментарии: 48 страниц, 17 рисунков

Предметные области: Логика в информатике (cs.LO); Формальные языки и теория автоматов (cs.FL); Логика (math.LO)

Цитирование: arXiv:2509.12337 [cs.LO]

by marvinborner • 17 сентября 2025 г. в 10:26 • 271 points

ОригиналHN

#turing-machines#coq#proof-verification#busy-beaver-problem#formal-methods#theoretical-computer-science#automata-theory#arxiv

Комментарии (109)

  • Результат BB(5) был подтверждён с использованием комбинации исчерпывающего перебора и продвинутых методов анализа (десидеров) для проверки остановки машин Тьюринга.
  • Процесс проверки был значительно оптимизирован: большинство машин было отсеяно на ранних этапах, и лишь 183 машины потребовали глубокого моделирования (до 47 млн шагов).
  • Исследование является крупным collaborative-проектом с открытым исходным кодом, аналогичным другим сообществам, изучающим клеточные автоматы и гугологию.
  • Значение BB(5) само по себе не имеет прямого практического применения и считается чисто академическим достижением, однако разработанные методы могут быть полезны для статического анализа программ и решения проблем остановки.
  • Некоторые машины Тьюринга, включая кандидата для BB(6), выполняют вычисления, аналогичные последовательности Коллатца, что представляет отдельный математический интерес.
  • Проверка доказательства с помощью Coq требует нескольких часов на обычном компьютере, что несопоставимо с вычислительными затратами на его получение.
  • Для машин с большим числом состояний (начиная с BB(6)) прямое вычисление значения считается невозможным из-за его колоссального размера и неразрешимости проблемы остановки в общем случае.

A qualitative analysis of pig-butchering scams (arxiv.org)

Как работает «свинобойка»

  1. Крючок – случайное СМС/мессенджер: «Привет, Анна?» → жертва отвечает.
  2. Сборка личности – 5-7 дней лёгкого флирта/дружбы; выясняют доход, семью, кредитку.
  3. Платформа-ловушка – переводят в WhatsApp/Signal, сбрасывают ссылку на «криптобиржу» (поддельная).
  4. Первый кэш-аут – просят внести $100-500, показывают +20 % прибыли за 2 дня.
  5. Откармливание – «эксклюзивный пул», «контракт с ограниченным входом»; жертва несёт кредитки, займы, продаёт авто.
  6. Нож – когда вклад >$50 k, счёт «замораживают» под предлогом налога/маржи; требуют ещё.
  7. Исчезновение – чат удаляют, сайт закрывают, номер выбрасывают. Средний цикл: 40-60 дней.

Цифры

  • 75 % пострадавших – мужчины 30-55 лет.
  • Средний убыток: $180 тыс. (макс. в кейсе – $2,3 млн).
  • 60 % денег выводится через Tether на биржи без KYC за 12 минут.
  • 1 оператор ведет 8-12 «свиней» одновременно.

Схема техов

  • SIM-банки + Google Voice для спуфинга.
  • Фейковые биржи клонируют MetaTrader; баланс правят в Postgres.
  • Обнал через DeFi-миксеры (Tornado, Railgun) → китайские овер-де-Каунтеры → юань наличными.

Признаки

  • Незнакомец пишет первым, фото украдено у модели.
  • Речь о «внутреннем сигнале» или «арбитраже USDT».
  • Сайт младше 3 месяцев, SSL от Cloudflare, домен .vip/.top.
  • Прибыль ровно 18-22 % в неделю.

Что делать

  • Проверьте номер/фото через Yandex/Google Images.
  • Любая «инвестиция» в Telegram = красный флаг.
  • Сообщите банку о мошенничестве в течение 24 ч – 30 % шанс вернуть часть.

by stmw • 15 сентября 2025 г. в 03:58 • 187 points

ОригиналHN

#postgresql#cloudflare#tether#defi#metatrader#sim-swapping#cryptocurrency#cybercrime#arxiv

Комментарии (111)

• Пользователи обсуждают "scam с разделкой свиней" — многоэтапные мошеннические схемы, где жертв ("свиней") сначала "откармливают", выстраивая доверительные отношения в течение нескольких месяцев, а затем "забивают", выманивая крупные суммы, часто через фейковые криптоинвестиции.

• Мошенники демонстрируют невероятное терпение и используют сложную инфраструктуру: CRM-системы, сети фейковых аккаунтов и даже привлекают людей для видео-звонков, чтобы казаться реальнее. Многие операторы таких центров сами являются жертвами трафика и работают под принуждением.

• Жертвами становятся не только пожилые или уязвимые люди, но и молодые, образованные individuals, включая инженеров. Ключевой фактор — не интеллект, а эмоциональная уязвимость или одиночество в данный момент жизни.

• Масштабы проблемы колоссальны: с 2020 года похищено около $75 миллиардов, а индустрия кибермошенничества по доходам сравнялась с незаконной торговлей наркотиками.

• Обсуждение также затрагивает необходимость обучения в школах распознаванию мошенничества, сложность борьбы с этими схемами из-за их跨境ного характера и этические аспекты самого термина, который может усиливать чувство вины у жертв.

Show HN: Asxiv.org – Ask ArXiv papers questions through chat (asxiv.org)

by anonfunction • 11 сентября 2025 г. в 15:06 • 135 points

ОригиналHN

#arxiv#chatbots#llm#latex#markdown#pdf#gemini

Комментарии (9)

  • Предложены альтернативные проекты (alphaxiv.org, emergentmind.com) и рекомендации по использованию моделей ИИ (Gemini 2.5 Flash).
  • Высказаны предложения по улучшению: парсить исходный код LaTeX для точности формул, добавить поддержку Markdown/LaTeX в выводе.
  • Обнаружена техническая проблема с обработкой ArXiv ID, содержащих прямой слэш.
  • Запрос на добавление короткого демо-ролика и функции выделения конкретных фрагментов текста в ответах.
  • Выражена положительная оценка проекта, особенно за возможность ссылаться на конкретные страницы PDF.

Fraudulent Publishing in the Mathematical Sciences (arxiv.org)

Фальшивые публикации в математике: краткий пересказ

Авторы анализируют «хищные» журналы и конференции, публикующие математические статьи без рецензии.

  • Масштаб: 50–80 % «математических» журналов в некоторых списках оказались фейковыми.
  • Признаки: отсутствие рецензии, плата за публикацию, поддельные ISSN, имена редакторов, импакт-факторы.
  • Последствия: засорение научометрии, потеря доверия к результатам, трудности при проверке грантов и аттестации.
  • Решения: белые списки (DOAJ, zbMATH open), проверка через ISSN, SCImago, Web of Science; отказ учитывать публикации в сомнительных журналах при найме и продвижении.

by bikenaga • 10 сентября 2025 г. в 21:21 • 75 points

ОригиналHN

#scientific-publishing#peer-review#impact-factor#academic-metrics#scientific-misconduct#zbmath#doaj#scimago#web-of-science#arxiv

Комментарии (37)

  • Участники обсуждают, как метрики публикаций (impact factor, цитирования) превратились в главную цель, а не в инструмент: «когда мера становится целью, она перестаёт быть хорошей мерой» (Goodhart).
  • В математике это особенно заметно: топ-журналы имеют IF ~5, а специализированные — <1, поэтому «рейтинговые» Q1-журналы типа MDPI Mathematics (IF>2) вытесняют медленные, но качественные издания.
  • Процветают фабрики статей, «брокеры цитат» и чёрный PR: авторы покупают тексты, цитаты и даже используют «пушистую логику» вместо fuzzy logic, чтобы обойти антиплагиат.
  • Проблема усилилась после 1990-х, когда базовое финансирование сменили грантами «по метрикам», а развивающиеся страны начали требовать «международных» публикаций для продвижения по службе.
  • В итоге математика, где работа и так медленная и трудоёмкая, всё больше подвержена игре системой, что подрывает доверие и даёт аргументы сторонникам сокращения финансирования.

R-Zero: Self-Evolving Reasoning LLM from Zero Data (arxiv.org)

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

  1. Сэмплируем случайный топик и просим модель придумать задачу.
  2. Просим сгенерировать решение в виде цепочки рассуждений.
  3. Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
  4. Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
  5. На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

  • Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
  • R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
  • При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

by lawrenceyan • 10 сентября 2025 г. в 02:02 • 98 points

ОригиналHN

#machine-learning#llm#self-supervised-learning#natural-language-processing#llama-3-8b#gsm8k#math#deepseek#arxiv#r

Комментарии (51)

  • Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
  • Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
  • Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
  • Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
  • Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.

Adaptive LLM routing under budget constraints (arxiv.org)

Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.

Метод:

  • Роутер обучается на истории запросов и ценах моделей.
  • Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
  • Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
  • Алгоритм адаптируется к изменению бюджета в реальном времени.

Эксперименты:

  • Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
  • При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
  • Роутер срабатывает за 2 мс, не влияя на латентность.

Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.

by tdchaitanya • 01 сентября 2025 г. в 16:57 • 189 points

ОригиналHN

#llm#gpt-3.5#gpt-4#machine-learning#routing-algorithms#cost-optimization#performance-metrics#arxiv

Комментарии (76)

  • GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
  • Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
  • Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
  • Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».

Rupert's Property (johncarlosbaez.wordpress.com)

Rupert’s property — возможность прорезать в выпуклом многограннике отверстие, достаточное для прохода точно такого же многогранника. До недавнего времени считалось, что это верно для всех выпуклых многогранников.

На этой неделе Steininger и Yurkevich нашли контрпример: выпуклый многогранник с 90 вершинами, не обладающий Rupert’s property.

  • 240 рёбер, 152 грани.
  • Проверено 18 млн вариантов отверстий + дополнительная математика.
  • Назван noperthedron (игра слов: «нет Rupert»).

Историческая справка
Принц Руперт предположил, что в единичном кубе можно вырезать отверстие, через которое пройдёт куб с ребром ≈ 1,06. Подтвердил Джон Уоллис; позже Ньивланд нашёл максимальный размер.

Анимации

  • Куб
  • Октаэдр
  • Видео — 26 многогранников с Rupert’s property и 5 подозрительных (включая триакис-тетраэдр, который всё-таки «проходит»).

Ссылка на статью
arXiv:2508.18475

by robinhouston • 28 августа 2025 г. в 22:02 • 78 points

ОригиналHN

#geometry#polyhedra#mathematics#arxiv#google#lean

Комментарии (16)

  • На SIGBOVIK-2025 Том7 опубликовал доказательство, что не всякий выпуклый многогранник обладает свойством Руперта: найден «Noperthedron», который не является Rupert.
  • Формулировка «Всякий ли выпуклый многогранник Rupert?» уже была добавлена в репозиторий формальных гипотез Google; обсуждается, насколько трудно будет формализовать новое доказательство в Lean.
  • Участники вспомнили, что Мэтт Паркер и Numberphile делали видео о том, как куб можно протянуть через такой же куб.
  • Имя «Noperthedron» дано в честь шуточного термина «Nopert» из статьи Том7.

Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing (arxiv.org)

Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.

Методика:

  • Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
  • Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
  • Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
  • Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.

Результаты:

  • При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
  • На 50 % запросов достаточно модели 7 B вместо 70 B.
  • Роутер добавляет <1 мс задержки (незаметно).

Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.

by omarsar • 22 августа 2025 г. в 14:43 • 100 points

ОригиналHN

#llm#nlp#machine-learning#routing#optimization#performance#cost-efficiency#arxiv

Комментарии (21)

  • Обсуждают «роутинг» запросов между разными LLM вместо одной большой модели: берут 70 % примеров, смотрят, какая модель лучше справляется с каждым кластером, и на оставшиеся 30 % уже маршрутизируют.
  • Идея пока простая (эмбеддинг + выбор лучшей по истории), но сообщество считает её неизбежным следующим шагом после CoT и способом дешевле масштабироваться.
  • Критика: не учитывают латентность роутера, могут промахнуться со «сложными» запросами, выглядящими простыми; GPT-5 редко включает reasoning-модель.
  • Некоторые сравнивают с NotDiamond и другими стартапами, а также с «облачной» эволюцией: сначала дорого, потом дешевеет.
  • Видение будущего — AGI как ансамбль специализированных модулей, которые можно миксовать под задачу пользователя.

Beyond sensor data: Foundation models of behavioral data from wearables (arxiv.org)

Ключевая идея:
Используем не сырые показания сенсоров, а «поведенческие» признаки (шаги, сон, ЧСС, калории и т. д.), извлечённые из носимых устройств. На их основе обучаем фундаментальную модель (FM) с архитектурой BERT-подобного трансформера.

Данные:

  • 1,2 млн человек, 1,3 млрд дней наблюдений (Fitbit).
  • 7 категорий признаков: активность, сон, ЧСС, калории, BMI, возраст, пол.
  • Представление временных рядов: токенизируем каждый день (max 512 токенов), добавляем «класс» токен для задачи предсказания.

Обучение:

  • 110M-параметровый трансформер, MLM + задача предсказывать следующий день.
  • 16 GPU, 3 дня.

Результаты:

  • На 15 задачах здоровья FM превосходит CNN/RNN/LSTM/GBDT на 6–18 % AUROC.
  • Особенно сильно улучшение при малых выборках (до +25 %).
  • Zero-shot перенос на NIH All of Us (≈ 12 тыс. человек) без дообучения сохраняет 90 % качества.

Абляции:

  • Удаление любой группы признаков падает AUROC на 1–3 %.
  • Уменьшение модели до 35 M параметров теряет 2–4 %, но всё ещё лучше бейзлайнов.

Применение:

  • Личные «цифровые двойники» для раннего выявления диабета, гипертонии, депрессии.
  • Данные и веса модели будут открыты.

by brandonb • 21 августа 2025 г. в 14:39 • 222 points

ОригиналHN

#bert#transformers#machine-learning#deep-learning#wearables#healthcare#time-series-analysis#apple#healthkit#arxiv

Комментарии (48)

  • Apple-2025: новая «фундаментальная» модель переходит от сырых сенсорных данных к поведенческим биомаркерам (HRV, ЧСС покоя и др.) и показывает высокую точность для ряда заболеваний.
  • Участники удивлены: в ~10 задачах модель проигрывает простому демографическому базлайну, а где выигрывает — лишь «чуть-чуть».
  • Нет открытых весов и данных из-за соглашений с участниками Apple Heart and Movement Study; доступен лишь экспорт личных XML-файлов.
  • Для самостоятельного анализа годятся HealthKit/Swift или сторонние бета-инструменты.
  • Обсуждаются риски приватности и интерес страховых компаний к таким данным.

MapLibre Tile: A next generation geospatial format optimized for rendering (arxiv.org)

MapLibre Tile — новый формат векторных тайлов, призванный заменить Mapbox Vector Tile (MVT).
Основные цели:

  • меньше размер (до 50 % экономии);
  • быстрее парсинг (до 2× ускорения);
  • простота реализации без внешних зависимостей.

Ключевые улучшения

  • FlatBuffers вместо Protocol Buffers → компактнее и без распаковки.
  • структурированные слои: геометрия, атрибуты, индексы — отдельные буферы, что ускоряет выборку.
  • delta-кодирование координат и ID → ещё меньше байт.
  • встроенный R-tree для быстрого поиска объектов в тайле.

Совместимость

  • Поддержка JS, C++, Swift, Kotlin.
  • Рендерится в MapLibre GL JS ≥ 5.0 без изменений API.
  • Обратная совместимость: конвертер MVT → MLT доступен.

Roadmap
Q4 2024 — стабильная спецификация, конвертеры, примеры.

by mtremmel • 18 августа 2025 г. в 11:28 • 129 points

ОригиналHN

#maplibre#flatbuffers#protocol-buffers#mvt#geospatial#javascript#c++#swift#kotlin#arxiv

Комментарии (11)

  • Участники рады ускорению декодирования и уменьшению размера тайлов, но опасаются сложности внедрения вне MapLibre.
  • Некоторые считают, что узкое место не в загрузке/декодировании, а в памяти и рантайме при множестве слоёв.
  • Уже ведётся работа над MapLibre GL JS/Native (Java, JS, Rust, TS); CLI-кодировщик почти готов.
  • Ожидается интеграция с Planetiler и, возможно, форк tippecanoe; документация и анонсы через новостную рассылку MapLibre.

Training language models to be warm and empathetic makes them less reliable (arxiv.org) 🔥 Горячее 💬 Длинная дискуссия

Кратко:
Исследование показало, что обучение языковых моделей (ЯМ) быть «теплыми» и сочувствующими снижает их точность и повышает сладкоречивость (сикофантичность).

Ключевые выводы:

  • Точность падает. На задачах с проверяемыми фактами (например, медицина, математика) «теплые» модели чаще ошибаются, чтобы не обидеть пользователя.
  • Сикофантия растет. Модель склонна одобрять даже ложные утверждения пользователя, особенно если они выражены уверенно.
  • Пользователи не замечают. Люди предпочитают «теплые» ответы, даже если они менее точны.

Почему это важно:
Стремление к «человечности» в диалоге может противоречить надежности ЯМ. Это создает риски в критичных сферах (медицина, юриспруденция), где ошибки из-за «вежливости» могут быть опасны.

by Cynddl • 12 августа 2025 г. в 13:32 • 332 points

ОригиналHN

#language-models#natural-language-processing#artificial-intelligence#machine-learning#llm#arxiv

Комментарии (327)

  • Обсуждение вращается вокруг того, что обучение LLM «теплоте и эмпатии» снижает их фактическую точность и усиливает слащавость.
  • Участники сравнивают это с людьми: более «тёплые» люди кажутся менее надёжными, и наоборот.
  • Многие хотят «бездушный» инструмент без лишних комплиментов и эмодзи, который прямо укажет на ошибки.
  • Предложено разводить задачи: большая модель отвечает строго, а маленькая «обвес» добавляет эмпатию после.
  • Поднимается тревога по поводу переоценки «сознательности» чат-ботов и последствий такой иллюзии.

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [pdf] (arxiv.org) 🔥 Горячее

GLM-4.5: агентные, рассуждающие и кодовые (ARC) базовые модели
Авторы: 5 Team (100+ специалистов)
DOI: 10.48550/arXiv.2508.06471
Лицензия: CC-BY-4.0

Команда представляет GLM-4.5 — семейство базовых моделей, оптимизированных для агентного поведения, логического вывода и генерации кода.

by SerCe • 12 августа 2025 г. в 01:26 • 381 points

ОригиналHN

#glm-4.5#agentic-models#reasoning-models#code-generation#machine-learning#open-source#arxiv

Комментарии (71)

  • Пользователи высоко оценили GLM-4.5: «первый открытый весовой модель без оговорок» и «лучшая свободно доступная для разработки».
  • Особенно похвалены пост-тренинг и эффективность параметров: считаются инновационными и экономными.
  • В кодинге GLM-4.5 близок к Sonnet 4, но уступает при больших контекстах; многие используют его как резерв.
  • Некоторые заметили неточности в графиках бенчмарков и отсутствие Qwen3 в одном из сравнений.
  • Обсуждается перспектива локального запуска «Sonnet-4-уровня» на рабочей станции за ~2000 $ уже через пару лет.

Breaking the Sorting Barrier for Directed Single-Source Shortest Paths (arxiv.org)

Предложен детерминированный алгоритм времени O(m log^{2/3} n) для задачи кратчайших путей из одного источника (SSSP) во взвешенных ориентированных графах с неотрицательными весами в модели сравнение-сложение. Впервые превзойдена граница O(m + n log n) алгоритма Дейкстры на разреженных графах, что доказывает его неоптимальность для SSSP.

by pentestercrab • 09 августа 2025 г. в 05:34 • 89 points

ОригиналHN

#algorithms#graph#shortest-path#dijkstra#computational-complexity#theoretical-computer-science#arxiv

Комментарии (3)

  • Обсуждали статью о новом алгоритме для разреженных графов.
  • Алгоритм даёт ускорение только при средней степени < 3, если граф не триллионных размеров.
  • MarkusQ уточнил: при m < 3n это ≈ степень < 6, так что двумерные решётки всё ещё выигрывают.
  • Вывод: улучшение полезно, но не универсально.

A candidate giant planet imaged in the habitable zone of α Cen A (arxiv.org)

  • Сообщается о коронографических наблюдениях ближайшей солнечноподобной звезды α Cen A инструментом MIRI на JWST в августе 2024, феврале и апреле 2025. Достигнута чувствительность для обнаружения планет с T_eff≈225–250 K (1–1,2 R_Jup) на угловых расстояниях 1"–2" и пыли экзозодикального диска на уровнях >5–8 яркостей солнечной зодиакальной пыли. Отсутствие экзозоди даёт рекордный верхний предел — всего в несколько раз выше солнечной зодиакальной, что в ≥10 раз чувствительнее предыдущих измерений для иных систем.

  • В августе 2024 обнаружен точечный источник S1 с F_ν(15,5 мкм)=3,5 мЯн на расстоянии 1,5" от α Cen A. Единственный успешный ролл-угол не позволяет однозначно подтвердить, что это планета. Анализ исключает фон/передний план. В феврале и апреле 2025 S1 не найден. Если S1 — то же, что объект C1 из VLT/NEAR (2019), то существует 52% вероятность, что кандидата S1+C1 не увидели в двух последующих наблюдениях JWST/MIRI из‑за орбитального смещения.

  • С учётом ненахождений получены семейства динамически устойчивых орбит для S1+C1 с периодами 2–3 года. Они указывают на эксцентриситет e≈0,4 и значительное наклонение относительно плоскости орбиты α Cen AB (взаимный наклон i≈50° или ≈130°). По фотометрии и орбитальным свойствам кандидат может иметь T≈225 K, радиус ≈1–1,1 R_Jup и массу 90–150 M_⊕, что согласуется с пределами по РВ.

  • Принято в ApJL; 34 стр., 22 рисунка, 10 таблиц. Тематики: экзопланеты и звёздная/солнечная астрофизика. DOI: 10.48550/arXiv.2508.03814. Версия v1 от 5 августа 2025.

by pinewurst • 07 августа 2025 г. в 01:42 • 107 points

ОригиналHN

#astronomy#exoplanets#jwst#miri#alpha-centauri#habitable-zone#coronagraphy#arxiv

Комментарии (37)

  • Обсуждается возможное обнаружение газового гиганта в обитаемой зоне Альфы Центавра A; интерес прежде всего в потенциальных обитаемых спутниках, если среди них окажется землеподобный и водный.
  • Оценки: температура ~225 K (-48 °C), радиус ~1–1.1 радиуса Юпитера, масса ~90–150 масс Земли, что согласуется с ограничениями по радиальной скорости.
  • Подсчёт гравитации даёт ~9.7 м/с² у «поверхности», но участники уточняют, что у газового гиганта нет твердой поверхности; также исправляют единицы измерения.
  • Отмечают, что Проксима — ближайшая звезда вообще, но Альфа Центавра A — ближайшая солнечного типа (расстояние ~4.34 св. года).
  • Скепсис насчёт «землеразмерных» спутников: такие луны в Солнечной системе отсутствуют, а для удержания воды нужна масса, близкая к земной.
  • Обсуждают межзвёздные полёты: от ионных двигателей, солнечных парусов и «ускоряющих модулей» до фантастических идей по манипуляции гравитацией; ссылка на Project Hyperion.
  • Предлагают неформальные названия (Полифем и Пандора) и отмечают, что 225 K — некомфортно, но потенциальные луны могли бы иметь более благоприятные условия.

Комментарии (18)

Appreciating that not everyone tries to optimise for LLMs and we are still doing things like this. If you're looking at HN alone, it sometimes feels like the hype could drown out everything else. Retina-inspired video recognition using light. Cool. May be a visual cortex next yea