Комментарии (51)
- Пост критикуют за отсутствие научной строгости: «10 млн случайных примеров» не описаны, а «классификация» языков программирования выглядит ошибочной.
- Автор, по мнению комментаторов, просто прогнал детектор языков и выдал график, из-за чего Perl кажется «переобученным»; на деле это лишь гибкость языка.
- Многие цепочки начинаются на английском, но быстро скатываются в «neuralese» — внутренний, человеку нечитаемый «язык» модели, возникающий при отсутствии ограничений на читаемость.
- «Neuralese» — это не технический термин, а образное обозначение плотного латентного представления, которое модель использует для собственных рассуждений.
- Пустой промпт выводит модель из распределения и демонстрирует, на каких данных она реально «подсела».
A spellchecker used to be a major feat of software engineering (2008) 💬 Длинная дискуссия
1984: словарь в 256 КБ
Представьте: вам поручили написать спеллчекер для MS-DOS-текстового редактора. У части пользователей всего 256 КБ ОЗУ — и туда должны поместиться редактор, сам документ, ОС и ещё словарь. Сегодня /usr/share/dict/words
весит 2,5 МБ и содержит 235 000 слов; тогда это был нереальный объём.
Сжатие трие, вырезание редких слов, кастомная БД на гибком диске 360 КБ — всё это требовало месяцев инженерной работы и гениальных структур данных.
Сейчас
Загрузить словарь в хеш-таблицу — 3–5 строк на Perl или Python; поиск слова — встроенная операция. Всё.
Комментарии (176)
- Пользователи жалуются, что встроенный спелл-чекер iPhone (и Android) часто хуже человеческого глаза и LLM: «No Guesses Found» при очевидных ошибках.
- Причины: жёсткие ограничения по скорости и памяти, отсутствие контекста, излишняя буквальность алгоритмов.
- Многие отказались от встроенных средств и ищут слова в Google или используют LLM.
- Участники вспоминают, как в 80-е спелл-чекер был прорывом, но требовал переключения дискет и выдавал лишь список ошибок без подсказок.
- Сегодня задача «проверить орфографию» тривиальна, а вот «предложить правильное» по-прежнему требует сложной инженерии.