Analyzing the memory ordering models of the Apple M1

Цель: сравнить на M1 две модели упорядочения памяти: «слабый» ARM и x86-совместимый TSO, используемый эмулятором Rosetta 2.
Метод: прогон SPEC2017 CPU FP и синтетические тесты.
Результат: TSO медленнее ARM на 8,9 % в среднем; пиковые потери до 30 % на синтетике.
Причина: чаще срабатывают барьеры памяти и дорогие атомарные инструкции ARMv8.3.

На M1 кэш-линия выдаётся как 128 Б в macOS, но 64 Б в Linux и измерениях — разница вызвала удивление.
Авторы включают режим x86-TSO на ARM и фиксируют среднее падение производительности 9 % (SPEC) и до 2× в синтетике.
Участники спорят: 9 % кажется огромным, возможно, реализация TSO у Apple не оптимальна.
Напоминают, что x86 всё ещё быстрее ARM в высокопроизводительных задачах, возможно, за счёт других оптимизаций.
Обсуждают, стоит ли Apple дальше улучшать TSO или выкинуть эту совместимость в новых чипах.