LLM Observability in the Wild – Why OpenTelemetry Should Be the Standard
Разработчики сталкиваются с хаосом при отладке LLM-агентов в продакшене из-за фрагментации стандартов observability. Например, OpenAI предлагает детальные трейсы, но они привязаны к её фреймворку и не позволяют фильтровать отдельные спаны. New Relic поддерживает OpenTelemetry, но интерфейс громоздок для оперативного дебаггинга. Phoenix с OpenInference даёт богатые AI-специфичные спаны, но не полностью совместим с OpenTelemetry и не имеет SDK для Ruby, что критично для таких проектов, как Chatwoot.
Ключевая проблема — противостояние универсального OpenTelemetry (широкая поддержка языков, но базовые типы спанов) и специализированного OpenInference (богатые AI-типы, но слабая экосистема). OpenInference лишь поверхностно совместим с OpenTelemetry, приводя к «unknown» спанам при прямом использовании. Это вынуждает команды выбирать между созданием кастомных SDK, потерей контекста или сменой стека, замедляя разработку. OpenTelemetry остаётся прагматичным выбором из-за зрелости и кросс-языковой поддержки, но требует расширения семантики под AI-workflow.
Комментарии (34)
- Разработка систем наблюдения (observability) для многозадачных LLM-агентов, включая метрики сложности задач и успешности выполнения.
- Обсуждение стандартов и инструментов (OpenTelemetry, Phoenix, Clickhouse) для отслеживания семантических ошибок и трассировки выполнения агентов.
- Критика подхода к оценке через ИИ из-за проблемы "курицы и яйца" и предложения использовать стандартные системы мониторинга.
- Вопросы о практическом применении длинных промптов не-техническими пользователями и динамической маршрутизации в агентах.
- Дискуссия о необходимости совмещения стандартных решений (реляционные БД) с OpenTelemetry для богатой семантики в распределённых системах.
Nexus: An Open-Source AI Router for Governance, Control and Observability
Nexus — открытый AI-роутер, который объединяет MCP-серверы и маршрутизирует запросы между LLM, добавляя безопасность и управление.
Что делает
- Агрегация MCP: один вызов вместо множества подключений к разным MCP-серверам.
- Умный роутинг LLM: выбирает модель по типу задачи, цене, задержке и доступности.
- Безопасность и наблюдаемость: единые политики, логирование, отказоустойчивость.
Плюсы
- Простота: одна точка интеграции вместо сети подключений.
- Масштабируемость: новые MCP или LLM добавляются без изменения кода.
- Надёжность: автоматический fallback при сбоях.
- Прозрачность: мониторинг и аналитика в реальном времени.
Дальше
- Продвинутые алгоритмы роутинга, дашборды, кастомные правила, rate-limiting и расширенная безопасность.
Попробуйте Nexus уже сейчас и упростите архитектуру своих AI-приложений.
Комментарии (21)
- Grafbase выпустил Nexus — open-source «AI Router», объединяющий MCP-серверы и LLM через один endpoint.
- Основной фокус: enterprise-уровень governance, контроль и observability.
- Участники сравнивают с коммерческим nexos.ai и open-source OpenRouter/LiteLLM.
- Ключевое отличие — агрегация MCP-серверов и возможность self-host.
- Название вызвало шутки про «Torment Nexus» и старый телефон Nexus.