Hacker News Digest

Тег: #neuralese

Постов: 1

Curious about the training data of OpenAI's new GPT-OSS models? I was too (twitter.com)

by flabber • 09 августа 2025 г. в 21:10 • 216 points

ОригиналHN

#openai#gpt-oss#perl#neuralese#twitter#llm

Комментарии (51)

  • Пост критикуют за отсутствие научной строгости: «10 млн случайных примеров» не описаны, а «классификация» языков программирования выглядит ошибочной.
  • Автор, по мнению комментаторов, просто прогнал детектор языков и выдал график, из-за чего Perl кажется «переобученным»; на деле это лишь гибкость языка.
  • Многие цепочки начинаются на английском, но быстро скатываются в «neuralese» — внутренний, человеку нечитаемый «язык» модели, возникающий при отсутствии ограничений на читаемость.
  • «Neuralese» — это не технический термин, а образное обозначение плотного латентного представления, которое модель использует для собственных рассуждений.
  • Пустой промпт выводит модель из распределения и демонстрирует, на каких данных она реально «подсела».