Тег: #performance-optimization

High-performance 2D graphics rendering on the CPU using sparse strips [pdf] (github.com) 🔥 Горячее

—

by PaulHoule • 10 ноября 2025 г. в 22:05 • 267 points

#graphics-rendering #2d-rendering #cpu #performance-optimization #benchmarking #false-sharing #uma #github

Комментарии (34)

Структура Strip занимает 8 байт, но автор утверждает, что 259×64+7296 ≈ 24 КБ, что вызывает сомнения в правильности подсчёта памяти.
Участники обсуждения предполагают, что речь идёт о кэш-линии в 64 байта и false-sharing, а не о фактическом размере структуры.
Появился вопрос о том, какие именно бенчмарки корректности используются, и как можно было бы проверить корректность рендеров.
Также обсуждалось, что вывод рендерера является растровое изображение, что требует копирования на GPU, что может быть не нужно на UMA-системах.

Error ABI (matklad.github.io)

Статья рассматривает проблемы ABI (Application Binary Interface) при обработке ошибок в программировании. Распространённое мнение, что заполнение информации об ошибках "бесплатно" из-за их редкости, неверно. Наивное составление ошибок из алгебраических типов данных (ADT) ухудшает "счастливый путь" выполнения кода. Объекты ошибок, рекурсивно составленные из перечислений, tend to be large, увеличивая size_of<Result<T, E>>, что заставляет функции по всей стеку вызовов использовать возврат больших структур через память. "Вирусность" ошибок означает, что даже одна большая ошибка на редко выполняемом пути ухудшает производительность везде.

Поэтому зрелые библиотеки обработки ошибок скрывают их за тонким указателем, как в Rust (failure и anyhow), но это требует глобального аллокатора, что тоже не бесплатно. Автор предлагает три подхода к возврату результатов: стандартный (как пользовательский тип), более умный (ABI как у T с зарезервированным регистром для E) и радикальный (полное совпадение ABI с -> T и разворот стека для ошибок). Последний, по мнению автора, может быть оптимальным, несмотря на отсутствие надёжных бенчмарков. Вывод: обработка ошибок должна быть специальной для компилятора, особенно в языках со средним уровнем абстракций.

by todsacerdoti • 10 ноября 2025 г. в 02:31 • 79 points

	fio	Zig
write	4.08 ГБ/с	3.80 ГБ/с
read	7.33 ГБ/с	7.00 ГБ/с

High-performance 2D graphics rendering on the CPU using sparse strips [pdf] (github.com) 🔥 Горячее

Error ABI (matklad.github.io)

I built the same app 10 times: Evaluating frameworks for mobile performance (lorenstew.art)

Why your social.org files can have millions of lines without performance issues (en.andros.dev)

How memory maps (mmap) deliver faster file access in Go (info.varnish-software.com)

SourceFS: A 2h+ Android build becomes a 15m task with a virtual filesystem (source.dev)

The death of thread per core (buttondown.com)

The future of Python web services looks GIL-free (blog.baro.dev)

Cache-Friendly B+Tree Nodes with Dynamic Fanout (jacobsherin.com)

86 GB/s bitpacking with ARM SIMD (single thread) (github.com)

PEP 810 – Explicit lazy imports (pep-previews--4622.org.readthedocs.build) 🔥 Горячее 💬 Длинная дискуссия

What .NET 10 GC changes mean for developers (roxeem.com) 🔥 Горячее 💬 Длинная дискуссия

Safe zero-copy operations in C# (ssg.dev)

Optimizing a 6502 image decoder, from 70 minutes to 1 minute (colino.net)

Baldur's Gate 3 Steam Deck – Native Version (larian.com) 🔥 Горячее 💬 Длинная дискуссия

Context Engineering for AI Agents: Lessons (manus.im)

Wild performance tricks (davidlattimore.github.io)

Default musl allocator considered harmful to performance (nickb.dev)

Hitting Peak File IO Performance with Zig (steelcake.com)

Speeding up Unreal Editor launch by not spawning unused tooltips (larstofus.com)

How is Ultrassembler so fast? (jghuff.com)

Скорость

Ключевые оптимизации

Исключения

Быстрые структуры

Парсинг

Кодогенерация

Память

Платформенные трюки

Итог

How to make things slower so they go faster (gojiberries.io)

Going faster than memcpy (squadrick.dev)

Разбор memcpy

Способ 1: простой REP MOVSB

Automerge 3.0 (automerge.org) 🔥 Горячее

Разбор `memcpy`

Способ 1: простой `REP MOVSB`