Hacker News Digest

Обновлено: 28 ноября 2025 г. в 08:55

Постов: 4635 • Страница 299/464

UTF-8 is a brilliant design (iamvishnu.com) 🔥 Горячее 💬 Длинная дискуссия

UTF-8 — гениальное решение: 1–4 байта на символ, полная совместимость с 7-битным ASCII.
Старший бит первого байта сразу говорит, сколько байт идёт дальше:

Паттерн 1-го байта Длина Пример
0xxxxxxx 1 ASCII
110xxxxx 2
1110xxxx 3
11110xxx 4

Продолжения всегда 10xxxxxx.
Программа читает байт, по префиксу понимает длину, выделяет «полезные» биты, получает кодовую точку Unicode и выводит символ.

Пример:
хинди «अ» = 11100000 10100100 10000101U+0905.

Файл Hey👋 Buddy (13 байт):
H e y 👋 B u d d y
👋 кодируется 4 байтами 11110000 10011111 10010001 10001011U+1F44B.

by vishnuharidas • 12 сентября 2025 г. в 18:30 • 772 points

ОригиналHN

#utf-8#unicode#ascii#encoding#character

Комментарии (305)

  • UTF-8 — гениальное, простое и обратно-совместимое с ASCII решение, придуманное Кеном Томпсоном и Робом Пайком за ужином.
  • Продолжение-байты 10xxxxxx позволяют за O(1) найти границы символа, не парся весь поток.
  • Критика: Unicode «раздулся» (комбинирующие символы, эмодзи, 25-байтовые «графемы»), а UTF-8 не сам компактен для нелатиницы.
  • Спор о «переполнении»: 4 байт хватает на 21 бит → 2 097 152 кодовых точек; 5-6 байт запрещены специально.
  • Некоторые считают, что красота UTF-8 — не комитетное изобретение, а удачный частный хак, вышедший в мировой стандарт.

EU court rules nuclear energy is clean energy (weplanet.org) 🔥 Горячее 💬 Длинная дискуссия

Суд ЕС признал атом «зелёным»
Австрийский иск против включения ядерной энергии в «зелёную» таксономию ЕС отклонён.

  • Германия, Нидерланды, Бельгия и др. сворачивают антиядерные законы.
  • Даже Fridays for Future смягчили позицию.
  • Greenpeace продолжает бой, несмотря на научные данные: у атома минимальный жизненный циклный ущерб и рекордная безопасность.

Мы вмешались в дело Greenpeace против Комиссии и готовы в суде, на улице и в парламентах отстаивать факты: без ядерной энергии нет быстрого и справедливого выхода из кризиса.

by mpweiher • 12 сентября 2025 г. в 18:18 • 938 points

ОригиналHN

#nuclear-energy#eu#greenpeace#fridays-for-future

Комментарии (940)

  • ЕС официально признал атомную энергетику (вместе с природным газом) «чистой», открыв доступ к «зелёным» субсидиям.
  • Сторонники ядерной энергии радуются: высокая плотность энергии, низкие углеродные выбросы, безопасность при правильной эксплуатации.
  • Критики считают решение лоббистским: реакторы дорогие, строятся десятилетиями, а отходы всё ещё без окончательного хранилища.
  • В Германии и ряде других стран общественное мнение остаётся ярко антиядерным; перезапуск закрытых блоков выглядит маловероятным.
  • Обсуждение сводится к спору: «дорого и поздно» vs «дешёвые ВИЭ не решают проблему базовой нагрузки без газа/угля».

An embarrassing failure of the US patent system: Nintendo's latest patents (pcgamer.com)

  • Юрист по игровым IP: патенты Nintendo на механики Pokémon — «позорный провал системы США», выдавать их «нельзя было ни при каких условиях».
  • Речь о свежих заявках: захват монстров в покеболы, торговля ими, опыт за победу — всё описано как «изобретение».
  • По мнению специалиста, это абстрактные идеи, не соответствуют критериям новизны и непредсказуемости.
  • Если патенты устоят, другим студиям придётся лицензировать базовые JRPG-элементы или рисковать судом.

by rsecora • 12 сентября 2025 г. в 18:11 • 77 points

ОригиналHN

#patents#intellectual-property#gaming#nintendo#pokemon#jrpg

Комментарии (41)

  • Пользователи удивлены, что механика геймплея может быть запатентована: это всё равно что запатентовать детективный сюжет в литературе.
  • Патент Nintendo описывает «замену существ на поле боя через ловящий снаряд»; большинство считают его слишком широким, но не охватывающим весь жанр «саммонинг+бой».
  • Есть опасение, что цель — не дать существовать «покемоноподобным» играм в принципе, и Palworld стала первой мишенью.
  • Предлагают ввести анти-SLAPP для патентов: быстрое прекращение очевидно абсурдных исков с возмещением расходов ответчику.
  • Многие уверены: из-за обилия prior art (шахматы, JRPG, D&D-саммон) патент легко опровергнуть, если у ответчика хватит денег на суды.

How FOSS Projects Handle Legal Takedown Requests (f-droid.org)

Как FOSS-проекты справляются с юридическими требованиями удаления контента

1. Не будь лёгкой мишенью
Публикуйте политику приёма претензий: требуйте письменного обращения на юр.языке и ссылку на местный закон. 90 % «писем страха» исчезают после этого.

2. Процесс на autopilot

  • e-mail: legal@ / abuse@
  • в пакете: основание, юрисдикция, доказательства, личность заявителя
  • внутренний чек-лист: достаточность, пропорциональность, подсудность
    Всё фиксируется, чтобы не убрать лишнего.

3. Играйте юрисдикцией
Европейские гражданско-правовые страны проще отбрасывают иностранные «письма». Отвечайте только на судебные решения по месту регистрации проекта.

4. Уведомляйте и давайте ответить

  • Автора уведомляют (если нет гаг-ордера).
  • Дают 14 дней на возражения.
  • Спорные материалы пересматривают; при удовлетворении претензии удаляют, но оставляют внутреннюю запись и возможность апелляции.

5. Прозрачность = защита
Публикуйте каждый запрос (если закон не запрещает). Примеры: GitHub, российский реестр Роскомнадзора. Публичность снижает злоупотребления.

Итог
Чёткая процедура + прозрачность + уважение к юрисдикции = минимум паники и риска для команды.

by mkesper • 12 сентября 2025 г. в 17:22 • 133 points

ОригиналHN

#f-droid#github#dmca#fair-use#open-source

Комментарии (12)

  • Одна FOSS-организация требует, чтобы все претензии приходили обычной почтой на национальном языке со ссылкой на местное законодательство — 90 % жалоб сразу исчезают.
  • Разработчики ведут публичные реестры блокировок (GitHub-репо, коммиты = логи), спорить можно через issue; спорят единицы.
  • F-Droid даёт 14 дней на ответ; если автор приводит лицензию или fair-use, претензия пересматривается.
  • Платформы перекладывают апелляцию на разработчика, хотя те не контролируют маркет; это следствие желания укрыться под «safe harbor» DMCA.
  • Участники напомнили: агрессивные blocklists и fail2ban всё ещё спасают от трафика злоумышленников.

QGIS is a free, open-source, cross platform geographical information system (github.com) 🔥 Горячее

QGIS — бесплатная, открытая кроссплатформенная ГИС (Linux, Windows, macOS).

by rcarmo • 12 сентября 2025 г. в 16:57 • 544 points

ОригиналHN

#qgis#gis#postgresql#postgis#geoserver#gdal#kepler#maplibre#github

Комментарии (120)

  • QGIS хвалят как мощный, бесплатный и расширяемый заменитель ArcGIS: открывает мульти-ГБ TIFF, живёт на Linux, ставится из Conda.
  • Пользователи черпают открытые данные (лидар, зоны затопления, границы участков), строят NDVI-карты ферм, анализируют PostGIS и визуализируют harvest-данные.
  • Слабые стороны: «90-х» UI, крутая кривая обучения, медленный старт, нет нативной ARM/нотаризованной сборки под macOS (ждут v4).
  • Экосистема шире: GDAL, PostGIS, Geoserver, Kepler/MapLibre, LizMap, MapStore и др.; QGIS лишь «интегратор» всех этих инструментов.
  • В корпоративе ArcGIS всё ещё царит (40-50 % рынка, удобные группы/роли), но многие компании переходят на QGIS ради экономии и гибкости.

Vector database that can index 1B vectors in 48M (vectroid.com)

Зачем и как мы сделали Vectroid

Почти все векторные БД заставляют выбирать: скорость, точность или цена. Мы решили, что жертвы не нужны, и собрали serverless-решение, где всё хорошо одновременно.

Ключевая идея:

  • нагрузка скачет ⇒ ресурсы выделяем динамически;
  • алгоритм HNSW жрёт память, но его можно «сплющить» квантованием и развернуть обратно при необходимости.

Что умеет Vectroid

  • Поиск по HNSW: 90 % recall при 10 QPS и P99 = 34 мс (MS Marco, 138 M векторов).
  • Индексация 1 M векторов в минуту, 1 B — за 48 мин.
  • Записи становятся видны почти сразу после вставки.
  • Масштаб до миллиардов векторов в одном пространстве.
  • Пишущая и читающая части масштабируются отдельно, данные живут в GCS/S3, индексы подгружаются лениво и выгружаются при простое.

Архитектура
Два независимых микросервиса: ingest и query. Все слои (вставка, индекс, поиск) масштабируются отдельно, память экономится квантованием и покадровой выгрузкой.

Попробовать бесплатно — 100 ГБ индексов навсегда.

by mathewpregasen • 12 сентября 2025 г. в 16:56 • 80 points

ОригиналHN

#hnsw#vector-databases#serverless#gcs#s3#clickhouse#vector-search#quantization

Комментарии (41)

  • Предложена идея «векторного движка» как лёгкой встраиваемой библиотеки для быстрого построения и поиска эмбеддингов, без переизобретения велосипеда в каждом продукте.
  • Участники спорят о масштабируемости: 1 млрд 4096-мерных векторов теоретически невозможно держать в одной VRAM-карте (4 Т скаляров), но можно разбить на кластеры или сжать квантованием.
  • Ключевой вызов — не алгоритм (HNSW/IVF), а распределённая архитектура: отдельное масштабирование записи и чтения, баланс цена-точность-латентность.
  • Уже есть похожие open-source решения (USearch в ClickHouse, TurboPuffer), но новые SaaS-продукты (Vectroid и др.) обещают серверлесс, объектное хранилище и «редисо-подобный» кэш.
  • Часть аудитории критикует закрытость кода и риск вендор-локина; стартапы отвечают, что opensource пока замедляет релизы, а вектора легко экспортировать.

Removing newlines in FASTA file increases ZSTD compression ratio by 10x (log.bede.im) 🔥 Горячее

Режим --long в Zstandard значительно улучшает сжатие геномных последовательностей, но требует удаления символов новой строки внутри записей.

Специализированные методы сжатия ДНК, такие как MiniPhy, достигают коэффициента сжатия (CR) 91, но работают медленно. Zstandard со стандартными настройками сжимает в 10 раз быстрее, но с CR всего 3.

Использование --long без удаления переносов дало скромное улучшение — CR 3.8. После удаления переносов (seqtk seq -l 0) CR вырос до 11. С максимальным размером окна (--long=31) CR достиг 31, уменьшив размер данных с 2.46ТБ до 80ГБ при увеличении времени сжатия на 80% по сравнению со стандартными настройками.

Хотя --long не дотягивает до специализированных методов, он предлагает хороший баланс между скоростью и эффективностью сжатия для больших файлов с повторяющимися последовательностями. Главное — предварительно удалить переносы строк.

by bede • 12 сентября 2025 г. в 16:25 • 269 points

ОригиналHN

#zstandard#compression#fasta#genomics#bioinformatics#dataformats#parquet

Комментарии (104)

  • Удаление незначащих переносов строк в формате FASTA значительно улучшает сжатие Zstd, так как они нарушают поиск длинных совпадений.
  • Zstd — байтовый компрессор, не учитывающий семантику данных, поэтому случайные переносы строк снижают его эффективность.
  • Использование больших размеров окна (--long) в Zstd улучшает сжатие геномных данных, но требует больше памяти и совместимых настроек при распаковке.
  • FASTA и FASTQ критикуются как неэффективные форматы, но остаются популярными из-за простоты и широкой поддержки.
  • Для обработки больших геномных данных часто рекомендуется конвертировать FASTA/FASTQ в бинарные или колоночные форматы (например, Parquet).
  • Создание специализированных словарей или препроцессинг данных могут значительно улучшить сжатие для специфичных структур.
  • Геномные данные обладают высокой избыточностью из-за общих последовательностей у разных видов, что эффективно используется компрессорами.
  • Многие инструменты биоинформатики используют внутренние бинарные форматы, но FASTA остаётся стандартом для обмена данными.
  • Проблемы с устаревшими форматами и инструментами в биоинформатике частично связаны с трудностями финансирования их поддержки.

VaultGemma: The most capable differentially private LLM (research.google)

  • VaultGemma — самая мощная языковая модель с дифференциальной приватностью.
  • Обучена на Gemma 2 2B, добавлен шум и обрезка градиентов; ε=9 за одну эпоху.
  • На 4 из 5 тестов MMLU Pro теряет ≤1 % точности по сравнению с базовой.
  • Код и веса открыты: Hugging Face.

by meetpateltech • 12 сентября 2025 г. в 16:14 • 84 points

ОригиналHN

#gemma#differential-privacy#machine-learning#llm#google#hugging-face

Комментарии (16)

  • Google выпустила VaultGemma-1B — «дифференциально-приватную» версию Gemma: веса можно скачать и запустить локально.
  • Обучение с DP-шумом даёт математическую гарантию: вероятность утечки любого конкретного примера ≤ e^ε (ε≈2) + крошечное δ; модель «почти не замечает» отдельные строки.
  • Польза — юридическая защита: слабее иск о нарушении авторского права и меньше рисков PII-утечки, поэтому можно масштабировать данные, включая медицинские или потоки повседневной активности.
  • Пока это скорее PoC и исследование, чем готовый продукт; Google может применять DP и для рекламных моделей.
  • Пользователь получает обычную 1B-модель, но с официальным сертификатом «не запомнила» тренировочные тексты — достаточно для локального запуска без доверия к облаку.

Corporations are trying to hide job openings from US citizens (thehill.com) 🔥 Горячее 💬 Длинная дискуссия

by b_mc2 • 12 сентября 2025 г. в 16:13 • 563 points

ОригиналHN

#h-1b#perm#wage-theft#meta#apple

Комментарии (416)

  • Компании годами прячут вакансии в газетах 2-го круга или TV-ночью, чтобы «доказать» отсутствие американских кандидатов и легально взять дешёвый H-1B.
  • Участники считают это системным wage-theft: импорт рабсилы подавляет зарплаты и выталкивает местных инженеров, которым даже интервью не дают.
  • Предлагают фиксировать очередь H-1B по зарплате (Dutch-auction), требовать 60-дневного пост-анонса любого найма или разрешать только выпускникам американских вузов.
  • Кто-то объясняет: «мы уже выбрали человека, но PERM заставляет публиковать объявление»; другие отвечают: если процесс изначально лживый — не ведитесь и не работайте на таких работодателей.
  • Итог: закон соблюдается по букве, но не по духу; штрафы в пару миллионов — копейки для Meta/Apple, поэтому злоупотребления растут и ждут либо профсоюзов, либо уголовной ответственности топ-менеджеров.

OpenAI Grove (openai.com)

by manveerc • 12 сентября 2025 г. в 16:05 • 148 points

ОригиналHN

#openai#ycombinator

Комментарии (139)

  • Участники видят в «инкубаторе для людей без идей» признак того, что у OpenAI закончились собственные продуктовые идеи и она теперь ловит чужие.
  • Само словосочетание «pre-idea individuals» вызывает насмешку: «идеи и так стоят копейку, а тут даже идеи нет».
  • Многие уверены, что программа — дешёвый способ заманить талантливых разработчиков в орбиту компании без зарплаты и акций.
  • Критики считают, что OpenAI превращается в YC-конкурента, cannibalizing экосистему «псевдо-родителя» и подрывая доверие инвесторов.
  • Подавляющее большинство комментариев — скептические или откровенно негативные; форуму Y Combinator это лишь добавляет очков за свободу слова.