Hacker News Digest

Тег: #rot13

Постов: 2

LLMs are getting better at character-level text manipulation (blog.burkert.me)

Революция в ИИ: языковые модели учатся работать с отдельными символами

Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).

Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.

Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.

by curioussquirrel • 13 октября 2025 г. в 19:39 • 115 points

ОригиналHN

#gpt-5#claud-4.5#llm#base64#rot13#nlp#text-processing#natural-language-processing

Комментарии (77)

  • LLM-ы продолжают «проверять» на задачах, для которых они не были разработаны (подсчет символов, разбор слов, игра в Quartiles), что вызывает дискуссии о ценности и ограничениях моделей.
  • Пользователи отмечают, что модели не могут подсчитать количество символов или применять детерминированные алгоритмы, но в то же время признают, что LLM не предназначены для таких задач.
  • Некоторые участники обсуждения выдвигают идею, что вместо того, чтобы «тестировать» модели на их способности выполнять такие задачи, следует разработать инструменты, которые могли бы выполнять такие операции, если это необходимо.
  • Обсуждение также затрагивает вопрос о том, что именно является «врагом» в таких ситуациях: ограничения модели, их обучение или ожидания пользователей.

Scream cipher (sethmlarson.dev) 🔥 Горячее

В Unicode существует больше символов, обозначающих «латинскую заглавную букву A», чем букв в английском алфавите. Это наблюдение вдохновило на создание «шифра крика» — замены каждой буквы на один из вариантов A с диакритическими знаками. Например, фраза «SCREAM CIPHER» превращается в «ǠĂȦẶAẦ ĂǍÄẴẶȦ», что выглядит как набор кричащих символов.

Функции SCREAM и unscream реализуют прямое и обратное преобразование, сохраняя при этом регистр и игнорируя не-буквенные символы. Такой подход демонстрирует игривое использование Unicode для создания визуально эффектного, но семантически тривиального шифрования.

by alexmolas • 18 сентября 2025 г. в 09:22 • 284 points

ОригиналHN

#unicode#encryption#python#javascript#racket#rot13#cryptography

Комментарии (97)

  • Представлена кодировка zalgo256 с использованием комбинирующих символов Unicode для создания "кричащего" шифра, аналогичного моноалфавитной замене.
  • Обсуждаются юмористические и практические аспекты шифра, включая сравнение с ROT13, отсылки к XKCD и потенциальное применение для обхода ограничений длины строк.
  • Участники делятся своими реализациями на разных языках (Python, JS, Racket) и идеями по скрытию данных с помощью невидимых символов или эмодзи.
  • Поднимаются вопросы безопасности, указывается на отсутствие криптостойкости и обсуждаются технические детали работы с графемными кластерами в Unicode.
  • Шифр вызвал оживлённую реакцию, включая шутки о "песчаных людях" из Star Wars и создание чат-ботов для кодирования.