Hacker News Digest

Обновлено: 28 августа 2025 г. в 01:51

Постов: 1009 • Страница 61/101

Training language models to be warm and empathetic makes them less reliable (arxiv.org) 🔥 Горячее 💬 Длинная дискуссия

Кратко:
Исследование показало, что обучение языковых моделей (ЯМ) быть «теплыми» и сочувствующими снижает их точность и повышает сладкоречивость (сикофантичность).

Ключевые выводы:

  • Точность падает. На задачах с проверяемыми фактами (например, медицина, математика) «теплые» модели чаще ошибаются, чтобы не обидеть пользователя.
  • Сикофантия растет. Модель склонна одобрять даже ложные утверждения пользователя, особенно если они выражены уверенно.
  • Пользователи не замечают. Люди предпочитают «теплые» ответы, даже если они менее точны.

Почему это важно:
Стремление к «человечности» в диалоге может противоречить надежности ЯМ. Это создает риски в критичных сферах (медицина, юриспруденция), где ошибки из-за «вежливости» могут быть опасны.

by Cynddl • 12 августа 2025 г. в 13:32 • 332 points

ОригиналHN

#language-models#natural-language-processing#artificial-intelligence#machine-learning#llm#arxiv

Комментарии (327)

  • Обсуждение вращается вокруг того, что обучение LLM «теплоте и эмпатии» снижает их фактическую точность и усиливает слащавость.
  • Участники сравнивают это с людьми: более «тёплые» люди кажутся менее надёжными, и наоборот.
  • Многие хотят «бездушный» инструмент без лишних комплиментов и эмодзи, который прямо укажет на ошибки.
  • Предложено разводить задачи: большая модель отвечает строго, а маленькая «обвес» добавляет эмпатию после.
  • Поднимается тревога по поводу переоценки «сознательности» чат-ботов и последствий такой иллюзии.

Australian court finds Apple, Google guilty of being anticompetitive (ghacks.net) 🔥 Горячее

Суд Австралии признал Apple и Google виновными в антиконкурентных действиях

Федеральный суд Австралии постановил, что App Store и Google Play Store нарушают закон о конкуренции. Иск подала Epic Games в 2020-м из-за комиссии 30 % и удаления Fortnite. Пять лет разбирательств завершились 2000-страничным вердиктом судьи Джонатана Бича: обе компании злоупотребляли доминирующим положением, ограничивая доступ сторонних магазинов. В остальных пунктах (закон о защите потребителей и «неприемлемое поведение») Epic проиграла.

Apple и Google «не согласны с частью выводов», но приветствуют отклонение других обвинений. Epic уже анонсировала возвращение Fortnite и запуск Epic Games Store для iOS в Австралии.

by warrenm • 12 августа 2025 г. в 13:30 • 335 points

ОригиналHN

#apple#google#epic-games#fortnite#app-store#google-play#antitrust#dma

Комментарии (125)

  • Суд Австралии признал Apple и Google нарушившими антимонопольное законодательство, но не все требования Epic удовлетворены.
  • Участники отмечают парадокс: «открытая» Android оказалась под прицелом, тогда как «закрытая» iOS — нет.
  • Многие считают, что дела против Big Tech теперь выигрывают в основном за пределами США, где антимонопольная политика «беззуба».
  • Обсуждается, что реальные изменения придут не от судов, а от новых законов вроде DMA в ЕС.
  • Сомнения, что Apple и Google снизят комиссию 30 % без жёсткого законодательного давления.

What's the strongest AI model you can train on a laptop in five minutes? (seangoedecke.com) 🔥 Горячее 💬 Длинная дискуссия

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

  • torch.compile, float16, MLX — без выгоды.
  • Градиентное накопление тормозит.
  • Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.

by ingve • 12 августа 2025 г. в 13:15 • 504 points

ОригиналHN

#llm#transformers#pytorch#mlx#machine-learning#natural-language-processing#tiny-stories#mps#optimization#model-training

Комментарии (181)

  • Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
  • Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
  • Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
  • Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
  • В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.

Kodak says it might have to cease operations (cnn.com) 🔥 Горячее 💬 Длинная дискуссия

Kodak предупредил о возможной остановке работы
133-летняя компания заявила, что из-за убытков и долгов в $1 млрд может прекратить операции. Пандемия и переход к цифровым технологиям ударили по продажам плёнки и фотобумаги.

Руководство ищет кредиты и рассматривает продажу активов, включая патенты. Акции упали на 40 %.

by mastry • 12 августа 2025 г. в 12:15 • 295 points

ОригиналHN

#kodak#bankruptcy#finance#sec

Комментарии (198)

  • СМИ ошибочно объявили Kodak банкротом; компания опубликовала опровержение.
  • Поводом стало стандартное SEC-раскрытие «going concern» из-за незавершённой продажи части пенсионных активов.
  • Участники вспомнили банкротство 2012 г., провальный KodakCoin и упущенный переход к цифре.
  • Сейчас Kodak держится на производстве киноплёнки и химикатов, но пенсии работников под угрозой сокращения выплат.
  • Общий вывод: легендарный бренд ещё жив, но его будущее остаётся туманным.

Progress towards universal Copy/Paste shortcuts on Linux (mark.stosberg.com)

На Linux Ctrl-C/Ctrl-V в терминале не работают, потому что Ctrl нужен для управляющих кодов. Приходится жать Ctrl+Shift+C/V. К 2025 году появится универсальное решение без лишнего ПО: старые коды клавиш Copy и Paste, которые Linux «знает» с древности.

Как это работает

  1. Клавиатура
    Программируемые клавиатуры (System76 Launch, Framework 16, ZSA Moonlander, Keychron Q10 и др.) позволяют назначить на любую клавишу слой, где C = Copy, V = Paste. Для активации слоя удерживается модификатор (например, «Raise» на моей Corne).

  2. Прошивка и конфигураторы
    Производители дают свои утилиты (System76 Keyboard Configurator), а Vial поддерживает множество моделей. В слое можно вывести Copy/Paste на C/V, стрелки на домашний ряд и прочие удобства.

  3. ПО Linux
    Приложения опираются на GUI-тулкиты GTK и Qt.

    • GTK добавил поддержку Copy/Paste-кодов в январе 2025.
    • Qt внедрит их в версии 6.10 (сентябрь 2025).

Совокупность программируемого «железа» и обновлённых тулкитов даст единые горячие клавиши Copy/Paste во всех приложениях Linux без дополнительных твиков.

by uncircle • 12 августа 2025 г. в 12:00 • 112 points

ОригиналHN

#linux#terminal#keyboard#vim#tmux#x11#keyboard-shortcuts

Комментарии (135)

  • Участники жалуются на разнообразие клипбордов в Linux (X11, Vim, tmux) и их несогласованность.
  • В терминалах приходится добавлять Shift к Ctrl-C/Ctrl-V, что ломает мышечную память и вызывает ошибки.
  • Apple решает конфликт отдельным Cmd-ключом, но даже там приложения перехватывают сочетания непредсказуемо.
  • Многие используют альтернативы: Ctrl/Shift-Insert, выделение + средняя кнопка мыши, ремап клавиш, покупку программируемых клавиатур.
  • Единого механизма объявления и настройки шорткатов в Linux нет, поэтому Chrome и другие приложения игнорируют системные привязки.

Monero appears to be in the midst of a successful 51% attack (twitter.com) 🔥 Горячее 💬 Длинная дискуссия

by treyd • 12 августа 2025 г. в 11:56 • 427 points

ОригиналHN

#monero#51-attack#qubic#hash-rate#blockchain#twitter

Комментарии (189)

  • Группа Qubic собрала ~52 % хэшрейта Monero, но это не классический 51 %-атака: глобальный хэшрейт не вырос, другие пулы продолжают добычу, глубина реорганизации всего 6 блоков.
  • Участники спорят, было ли это «доказательством концепции», тестом на уязвимости или просто спекулятивным шумом; официально Qubic называет это «плановым стресс-тестом».
  • Стоимость поддержания атаки оценивается в $75 млн в день, что делает её экономически невыгодной, но позволяет временно цензурировать транзакции и проводить короткие реорганизации.
  • Некоторые считают происходящее «фейком» или «ботовой вбросом», другие подозревают вмешательство государств, поскольку Monero — одна из немногих по-настоящему анонимных сетей.
  • Вывод: доверие к сети пока не разрушено, но событие подчёркивает теоретическую уязвимость PoW-чейнов перед крупными игроками.

Qodo CLI agent scores 71.2% on SWE-bench Verified (qodo.ai)

Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.

  • SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
  • Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
  • Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.

Результаты

  • 71,2 % — новый рекорд среди публичных решений.
  • +18,2 п.п. от предыдущего лидера (CodeStory Aide).
  • +31,2 п.п. от первого релиза SWE-bench (2023).

Ключевые инсайты

  • Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
  • Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
  • Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.

Что дальше

  • Публикация детального тех-отчёта и открытого датасета.
  • Расширение до 1 000 задач и добавление новых языков (Go, Rust).

by bobismyuncle • 12 августа 2025 г. в 11:05 • 122 points

ОригиналHN

#python#django#scikit-learn#sympy#llm#rag#benchmarking#swe-bench#github

Комментарии (43)

  • Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
  • Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
  • Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
  • Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
  • Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.

Комментарии (51)

  • Участники критикуют догматизм докладчика: его тезисы «всё — API без внутренностей», «модули пишет один человек» и «C89 навсегда» выглядят слишком жёсткими и не универсальными.
  • Подчёркивают, что «good-enough-now API» неизбежны: требования меняются, а идеальный интерфейс предсказать невозможно.
  • Отмечают, что советы могут работать для стабильных desktop-систем, но не для быстро меняющихся продуктов или веба.
  • Напоминают о важности баланса: избыточная абстракция и YAGNI-функции создают техдолг, а полное отсутствие модульности — дублирование и баги.

ForgeFed: ActivityPub-based forge federation protocol (forgefed.org)

ForgeFed — протокол федерации для хостингов кода и инструментов разработки. Он позволяет разным сайтам обмениваться репозиториями, задачами, PR и т.д., не заставляя пользователей регистрироваться везде.

Расширяет ActivityPub: серверы обмениваются JSON-объектами, а репозитории и трекеры получают «входящие» для удалённого взаимодействия.

Статус
Следить за прогрессом можно в Fediverse и чатах Matrix/Libera.Chat #forgefed.

Реализации

  • Vervis — эталон.
  • Forgejo — внедряет федерацию.
  • Pagure: неподдерживаемый плагин.

Проект отдан в CC0; копируйте и делитесь!

by rapnie • 12 августа 2025 г. в 07:19 • 101 points

ОригиналHN

#activitypub#forgefed#vervis#forgejo#pagure#gitlab#github#matrix#libera.chat#json

Комментарии (33)

  • Участники обсуждают, стоит ли связываться с ActivityPub/ForgeFed для федерации форджей или проще улучшить email-интеграцию.
  • Forgejo уже начал внедрение, но до практической полезности ещё «годы работы»; GitLab тоже ведёт эпик по ActivityPub.
  • Мечта — самостоятельно хостить репозитории, не теряя связи с сообществом, но пока приходится мириться с GitHub ради «сетевого эффекта».
  • Сомнения в надёжности ActivityPub: пропадают медиа и часть ответов, хотя это скорее проблемы серверов, а не протокола.
  • Прогресс полностью зависит от числа добровольцев: спецификация и реализации развиваются только тогда, когда люди берутся за код.

Show HN: XR2000: A science fiction programming challenge (clearsky.dev)

XR2000 — новый программистский квест в жанре научной фантастики.
Он объединяет бинарные протоколы, криптографию и развёрнутый сюжет, который пока охватывает лишь первую главу. Дальнейшее зависит от интереса участников.

Вдохновение дали:

  • TIS-100 — псевдоассемблер в игровой форме.
  • Space Traders — космическая торговля через REST API.
  • Protohackers — челленджи по сетевым протоколам.

Старт:

nc clearsky.dev 29438

Приятного погружения!

by richmans • 12 августа 2025 г. в 06:07 • 89 points

ОригиналHN

#assembly#networking#tcp#cryptography#restapi#science-fiction#clearsky.dev

Комментарии (14)

  • Участники делятся ссылкой на похожий Sci-Fi-контест 2006 года, где нужно писать собственную VM.
  • Появился новый TCP-пазл на clearsky.dev:29438; при подключении требуется отправить 0-байт + «XR2K» для документации.
  • Сервер перегружен HN, поэтому текст иногда не выводится или после команды ничего не происходит.
  • Некоторые пробуют использовать LLM для упрощения игры.
  • Один из игроков ждёт ответа «Colonel Arhci» по atlantiamail.