Hacker News Digest

13 октября 2025 г. в 19:39 • blog.burkert.me • ⭐ 115 • 💬 77

OriginalHN

#gpt-5#claud-4.5#llm#base64#rot13#nlp#text-processing#natural-language-processing

LLMs are getting better at character-level text manipulation

Революция в ИИ: языковые модели учатся работать с отдельными символами

Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).

Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.

Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.