В эпоху растущей сложности дата-центров Huawei Cloud представила RD-Probe — инструмент, который революционизирует мониторинг сетей, обеспечивая максимальный охват и оперативное обнаружение сбоев.
Технологический контекст
Современные облачные дата-центры представляют собой сложнейшую инфраструктуру. Например:
- В одном облачном регионе AWS существует 1087 возможных путей передачи данных.
- Между регионами этот показатель достигает 10 176 путей.
- В ЦОД Huawei Cloud функционируют более 100 000 коммутаторов и 1 миллион серверов.
Эффективный мониторинг такой экосистемы — крайне трудная задача.
Особенности RD-Probe
RD-Probe отличается от традиционных инструментов мониторинга благодаря инновационному подходу.
- L2-мониторинг: RD-Probe отслеживает состояние L2-портов, а не L3, что позволяет получать более точные данные.
- Подход «черного ящика»: Коммутаторы рассматриваются как закрытые системы. Инструмент интегрируется с существующими системами мониторинга, не полагаясь исключительно на телеметрию коммутаторов.
- Двухэтапный алгоритм: Система сочетает случайное и детерминированное зондирование, что минимизирует нагрузку на сеть при максимальном охвате.
Аппаратное обеспечение RD-Probe
Для обработки данных используется кластер из 16 узлов с высокопроизводительными процессорами:
- Узлы генерации трафика: 8-ядерные процессоры с 64 ГБ RAM.
- Узлы обработки данных: 48 узлов с 16-ядерными CPU и 32 ГБ RAM.

Результаты использования RD-Probe
Через месяц эксплуатации RD-Probe в облачном регионе Huawei Cloud выявили многочисленные проблемы, включая:
- Сбойный чип в ядре сети, из-за которого периодически терялся трафик.
- Неисправное SerDes-соединение, вызывавшее нарушения в передаче данных.
- Проблемы с BGP-маршрутизацией и балансировкой нагрузки.
RD-Probe увеличил охват мониторинга с 80,9% до 99,5%, что позволило находить ошибки до того, как они могли повлиять на работу пользователей.
Преимущества RD-Probe
- Высокая точность: Инструмент фиксирует малейшие сбои, недоступные для традиционного мониторинга.
- Эффективность: RD-Probe обнаруживает проблемы до их влияния на пользователей.
- Гибкость: Интеграция с существующими системами мониторинга позволяет использовать RD-Probe в уже работающих дата-центрах.
Планы на будущее
Huawei Cloud планирует внедрение RD-Probe в других облачных регионах. При этом инструмент будет совершенствоваться для работы с более сложными сценариями мониторинга, включая:
- Расширение возможностей анализа серверного трафика.
- Интеграцию с ИИ для предсказательной диагностики.
- Автоматизацию устранения обнаруженных проблем.
Заключение
RD-Probe стал важным шагом в развитии технологий мониторинга сетей. Увеличив точность диагностики и охват мониторинга, Huawei Cloud вновь подтвердила свой статус лидера в области инноваций для облачных технологий.
Инструмент не только улучшает стабильность сетей в дата-центрах, но и формирует новые стандарты в отрасли. В ближайшем будущем RD-Probe станет неотъемлемой частью инфраструктуры современных облачных сервисов.