Heartbeats in Distributed Systems (arpitbhayani.me)

В распределенных системах одна из фундаментальных задач — определение работоспособности узлов. Механизмы сердцебиений (heartbeats) решают эту проблему, отправляя периодические сигналы для подтверждения активности узлов. В отличие от монолитных приложений, где всё работает в одном процессе, распределенные системы охватывают множество машин, сетей и дата-центров, что усложняет мониторинг. Сердцебиения помогают различать действительно неработающие узлы и те, что временно замедлены из-за перегрузки сети.

Основные компоненты системы сердцебиений: отправитель, который регулярно генерирует сигналы; получатель, отслеживающий время последнего сигнала; интервал отправки (обычно 1-10 секунд); и порог таймаута (обычно в 2-3 раза больше интервала). Кодовые примеры показывают реализацию как отправителя, так и монитора. Интервалы и таймауты требуют баланса между быстрым обнаружением сбоев и устойчивостью к временным задержкам сети.

by sebg • 13 ноября 2025 г. в 13:43 • 131 points

Heartbeats in Distributed Systems (arpitbhayani.me)

Making Democracy Work: Fixing and Simplifying Egalitarian Paxos (arxiv.org)

How I fell in love with Erlang (boragonul.com) 🔥 Горячее 💬 Длинная дискуссия

Myths Programmers Believe about CPU Caches (2018) (software.rajivprab.com)

Synadia and TigerBeetle Commit $512k USD to the Zig Software Foundation (synadia.com) 🔥 Горячее

Corrosion (fly.io)

Gleam OTP – Fault Tolerant Multicore Programs with Actors (github.com)

Launch HN: LlamaFarm (YC W22) – Open-source framework for distributed AI (github.com)

NFS at 40 – Remembering the Sun Microsystems Network File System (nfs40.online)

Dbos: Durable Workflow Orchestration with Go and PostgreSQL (github.com)

Consistent hashing (eli.thegreenplace.net)

LLM Observability in the Wild – Why OpenTelemetry Should Be the Standard (signoz.io)

Stategraph: Terraform state as a distributed systems problem (stategraph.dev)

Почему мы создаём Stategraph: состояние Terraform как проблема распределённых систем

Патология файлового состояния

Состояние как граф: естественное представление

Управление параллелизмом через правильные абстракции

PgEdge Goes Open Source (pgedge.com)

I solved a distributed queue problem after 15 years (dbos.dev)

CRDT: Text Buffer (madebyevan.com)

The Raft Consensus Algorithm (2015) (raft.github.io)

Making reliable distributed systems in the presence of software errors (2003) [pdf] (erlang.org)

Don't “let it crash”, let it heal (zachdaniel.dev)