Hacker News Digest

Тег: #perl

Постов: 2

Curious about the training data of OpenAI's new GPT-OSS models? I was too (twitter.com)

by flabber • 09 августа 2025 г. в 21:10 • 216 points

ОригиналHN

#openai#gpt-oss#perl#neuralese#twitter#llm

Комментарии (51)

  • Пост критикуют за отсутствие научной строгости: «10 млн случайных примеров» не описаны, а «классификация» языков программирования выглядит ошибочной.
  • Автор, по мнению комментаторов, просто прогнал детектор языков и выдал график, из-за чего Perl кажется «переобученным»; на деле это лишь гибкость языка.
  • Многие цепочки начинаются на английском, но быстро скатываются в «neuralese» — внутренний, человеку нечитаемый «язык» модели, возникающий при отсутствии ограничений на читаемость.
  • «Neuralese» — это не технический термин, а образное обозначение плотного латентного представления, которое модель использует для собственных рассуждений.
  • Пустой промпт выводит модель из распределения и демонстрирует, на каких данных она реально «подсела».

A spellchecker used to be a major feat of software engineering (2008) (prog21.dadgum.com) 💬 Длинная дискуссия

1984: словарь в 256 КБ

Представьте: вам поручили написать спеллчекер для MS-DOS-текстового редактора. У части пользователей всего 256 КБ ОЗУ — и туда должны поместиться редактор, сам документ, ОС и ещё словарь. Сегодня /usr/share/dict/words весит 2,5 МБ и содержит 235 000 слов; тогда это был нереальный объём.

Сжатие трие, вырезание редких слов, кастомная БД на гибком диске 360 КБ — всё это требовало месяцев инженерной работы и гениальных структур данных.

Сейчас

Загрузить словарь в хеш-таблицу — 3–5 строк на Perl или Python; поиск слова — встроенная операция. Всё.

by Bogdanp • 09 августа 2025 г. в 01:07 • 167 points

ОригиналHN

#ms-dos#perl#python#hash-tables

Комментарии (176)

  • Пользователи жалуются, что встроенный спелл-чекер iPhone (и Android) часто хуже человеческого глаза и LLM: «No Guesses Found» при очевидных ошибках.
  • Причины: жёсткие ограничения по скорости и памяти, отсутствие контекста, излишняя буквальность алгоритмов.
  • Многие отказались от встроенных средств и ищут слова в Google или используют LLM.
  • Участники вспоминают, как в 80-е спелл-чекер был прорывом, но требовал переключения дискет и выдавал лишь список ошибок без подсказок.
  • Сегодня задача «проверить орфографию» тривиальна, а вот «предложить правильное» по-прежнему требует сложной инженерии.