OceanStor Russia

Huawei Cloud представляет RD-Probe — революционный инструмент мониторинга для ЦОД

В эпоху растущей сложности дата-центров Huawei Cloud представила RD-Probe — инструмент, который революционизирует мониторинг сетей, обеспечивая максимальный охват и оперативное обнаружение сбоев.

Технологический контекст

Современные облачные дата-центры представляют собой сложнейшую инфраструктуру. Например:
  • В одном облачном регионе AWS существует 1087 возможных путей передачи данных.
  • Между регионами этот показатель достигает 10 176 путей.
  • В ЦОД Huawei Cloud функционируют более 100 000 коммутаторов и 1 миллион серверов.
Эффективный мониторинг такой экосистемы — крайне трудная задача.

Особенности RD-Probe

RD-Probe отличается от традиционных инструментов мониторинга благодаря инновационному подходу.
  • L2-мониторинг: RD-Probe отслеживает состояние L2-портов, а не L3, что позволяет получать более точные данные.
  • Подход «черного ящика»: Коммутаторы рассматриваются как закрытые системы. Инструмент интегрируется с существующими системами мониторинга, не полагаясь исключительно на телеметрию коммутаторов.
  • Двухэтапный алгоритм: Система сочетает случайное и детерминированное зондирование, что минимизирует нагрузку на сеть при максимальном охвате.

Аппаратное обеспечение RD-Probe

Для обработки данных используется кластер из 16 узлов с высокопроизводительными процессорами:
  • Узлы генерации трафика: 8-ядерные процессоры с 64 ГБ RAM.
  • Узлы обработки данных: 48 узлов с 16-ядерными CPU и 32 ГБ RAM.

Результаты использования RD-Probe

Через месяц эксплуатации RD-Probe в облачном регионе Huawei Cloud выявили многочисленные проблемы, включая:
  1. Сбойный чип в ядре сети, из-за которого периодически терялся трафик.
  2. Неисправное SerDes-соединение, вызывавшее нарушения в передаче данных.
  3. Проблемы с BGP-маршрутизацией и балансировкой нагрузки.
RD-Probe увеличил охват мониторинга с 80,9% до 99,5%, что позволило находить ошибки до того, как они могли повлиять на работу пользователей.

Преимущества RD-Probe

  1. Высокая точность: Инструмент фиксирует малейшие сбои, недоступные для традиционного мониторинга.
  2. Эффективность: RD-Probe обнаруживает проблемы до их влияния на пользователей.
  3. Гибкость: Интеграция с существующими системами мониторинга позволяет использовать RD-Probe в уже работающих дата-центрах.

Планы на будущее

Huawei Cloud планирует внедрение RD-Probe в других облачных регионах. При этом инструмент будет совершенствоваться для работы с более сложными сценариями мониторинга, включая:
  • Расширение возможностей анализа серверного трафика.
  • Интеграцию с ИИ для предсказательной диагностики.
  • Автоматизацию устранения обнаруженных проблем.

Заключение

RD-Probe стал важным шагом в развитии технологий мониторинга сетей. Увеличив точность диагностики и охват мониторинга, Huawei Cloud вновь подтвердила свой статус лидера в области инноваций для облачных технологий.
Инструмент не только улучшает стабильность сетей в дата-центрах, но и формирует новые стандарты в отрасли. В ближайшем будущем RD-Probe станет неотъемлемой частью инфраструктуры современных облачных сервисов.