Автоматическое определение и описание сетевой инфраструктуры суперкомпьютеров
Воеводин Вад.В., Стефанов К.С.

С каждым годом наблюдается рост производительности суперкомпьютерных систем. Это достигается, в частности, за счет увеличения числа вычислительных узлов, усложнения иерархии подсистемы памяти и коммуникационной сети и т.д., что является одной из основных причин снижения надежности и эффективности функционирования системы. Как следствие, все более актуальной становится задача обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Для решения данной задачи в НИВЦ МГУ ведется разработка системы ``Октотрон'', основная цель которой заключается в обеспечении максимальной сохранности оборудования и максимально полного его использования. Система ``Октотрон'' работает на основе модели вычислительной системы, которая должна отражать основные компоненты суперкомпьютера и их взаимосвязь. В данной модели должно присутствовать, в частности, описание коммуникационных сетей суперкомпьютера. Зачастую подобное описание устроено очень непросто, поэтому возникла необходимость в автоматизации этого процесса. В настоящей статье приведено описание разрабатываемого инструментария для определения топологии сетей Ethernet и Infiniband в суперкомпьютерных системах. Для построения топологии Ethernet-сети выполняется сбор SNMP-данных (Simple Network Management Protocol data) со всех доступных узлов, которые затем преобразуются на основе предлагаемого набора правил для получения более точного результата. Информация об Infiniband-сети получается на основе данных от менеджера подсети. Обсуждаются результаты работы инструментария на примере сетей суперкомпьютеров "Ломоносов" и "Чебышев", установленных в МГУ им. М.В. Ломоносова. Статья рекомендована к публикации Программным комитетом Международной суперкомпьютерной конференции "Научный сервис в сети Интернет: многообразие суперкомпьютерных миров" (http://agora.guru.ru/abrau2014)

Ключевые слова: суперкомпьютеры, параллельные вычисления, топология суперкомпьютерных систем, коммуникационные сети, определение топологии сетей, Ethernet, Infiniband, протокол SNMP.

Название статьи, аннотация и ключевые слова на английском языке

  • Воеводин Вад.В. – Научно-исследовательский вычислительный центр Московского государственного университета им. М.В. Ломоносова, Ленинские горы, 119992, Москва; науч. сотр., e-mail: vadim@parallel.ru
  • Стефанов К.С. – Научно-исследовательский вычислительный центр Московского государственного университета им. М.В. Ломоносова, Ленинские горы, 119992, Москва; ст. науч. сотр., e-mail: cstef@parallel.ru