Тег: #rot13 — Hacker News Digest

LLMs are getting better at character-level text manipulation (blog.burkert.me)

Революция в ИИ: языковые модели учатся работать с отдельными символами

Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).

Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.

Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.

by curioussquirrel • 13 октября 2025 г. в 19:39 • 115 points

Оригинал • HN

#gpt-5 #claud-4.5 #llm #base64 #rot13 #nlp #text-processing #natural-language-processing

Комментарии (77)

LLM-ы продолжают «проверять» на задачах, для которых они не были разработаны (подсчет символов, разбор слов, игра в Quartiles), что вызывает дискуссии о ценности и ограничениях моделей.
Пользователи отмечают, что модели не могут подсчитать количество символов или применять детерминированные алгоритмы, но в то же время признают, что LLM не предназначены для таких задач.
Некоторые участники обсуждения выдвигают идею, что вместо того, чтобы «тестировать» модели на их способности выполнять такие задачи, следует разработать инструменты, которые могли бы выполнять такие операции, если это необходимо.
Обсуждение также затрагивает вопрос о том, что именно является «врагом» в таких ситуациях: ограничения модели, их обучение или ожидания пользователей.

Scream cipher (sethmlarson.dev) 🔥 Горячее

В Unicode существует больше символов, обозначающих «латинскую заглавную букву A», чем букв в английском алфавите. Это наблюдение вдохновило на создание «шифра крика» — замены каждой буквы на один из вариантов A с диакритическими знаками. Например, фраза «SCREAM CIPHER» превращается в «ǠĂȦẶAẦ ĂǍÄẴẶȦ», что выглядит как набор кричащих символов.

Функции SCREAM и unscream реализуют прямое и обратное преобразование, сохраняя при этом регистр и игнорируя не-буквенные символы. Такой подход демонстрирует игривое использование Unicode для создания визуально эффектного, но семантически тривиального шифрования.

by alexmolas • 18 сентября 2025 г. в 09:22 • 284 points

Оригинал • HN

#unicode #encryption #python #javascript #racket #rot13 #cryptography

Комментарии (97)

Представлена кодировка zalgo256 с использованием комбинирующих символов Unicode для создания "кричащего" шифра, аналогичного моноалфавитной замене.
Обсуждаются юмористические и практические аспекты шифра, включая сравнение с ROT13, отсылки к XKCD и потенциальное применение для обхода ограничений длины строк.
Участники делятся своими реализациями на разных языках (Python, JS, Racket) и идеями по скрытию данных с помощью невидимых символов или эмодзи.
Поднимаются вопросы безопасности, указывается на отсутствие криптостойкости и обсуждаются технические детали работы с графемными кластерами в Unicode.
Шифр вызвал оживлённую реакцию, включая шутки о "песчаных людях" из Star Wars и создание чат-ботов для кодирования.