Разыграть козырную карту

Суперкомпьютер – один из козырей университета. Он предоставляет уникальные возможности для быстрых и точных расчетов любой научной работы – но достаточно ли мы этим пользуемся? Чтобы выяснить это, наш корреспондент отправился в отдел высокопроизводительных вычислений ИКИТ СФУ, где его встретила небольшая, но дружная команда: начальник комплекса кандидат технических наук Дмитрий Александрович Кузьмин, выпускница ИКИТ Юлия Валиуллина и два магистранта второго года обучения Антон Бугай и Степан Маколов. Именно они занимаются обслуживанием суперкомпьютера и нас, его пользователей.

О нём много говорят, о нём несколько раз писали и он – один из символов нашего университета. Кому я пишу такие дифирамбы? Ответ очевиден – суперкомпьютер. Приобретённый в 2007 году, он для простых смертных до сих пор окутан покровом тайны.

Инициатива покупки исходила от директора ИВМ СОРАН академика В.В. Шайдурова и, конечно, была поддержана руководством СФУ. Новый университет строился с размахом, со словом «кризис» тогда ассоциировались только компьютерные игры, и университет стал обладателем современного, высокопроизводительного вычислительного комплекса фирмы IBM.

Около года шли монтажно-установочные работы, около года происходила настройка и «притирка» оборудования, «софта» и специалистов. Сформировался отдел высокопроизводительных вычислений. И потянулись – на четвертый этаж сверкающего новизной корпуса ИКИТ – первые пользователи…

Сам компьютер (4 стойки с вычислительными узлами + управляющая) поселили в специально отведённом для него просторном помещении со всеми удобствами – кондиционирование, автоматическая система пожаротушения, система контроля и управления. Всё выглядит весьма футуристически и внушительно – провода, мигающие лампочки, тихая прохлада кондиционированного воздуха. От случайностей с отключением электричества эту сверхсложную систему предохраняет система бесперебойного питания.

Администраторы Степан, Антон и Юлия – типичные представители инновационного поколения – общаются с компьютером прямо со своего рабочего места по сети. А в случае необходимости IP-телефон соединит их с непосредственным начальством, так что возникающие проблемы решаются оперативно и быстро. Например, у меня на регистрацию ушло от силы полчаса со всеми формальностями.


Думаете, это ноутбук? Нет, это пульт управления суперкомпьютером

– Дмитрий Александрович, что для Вас суперкомпьютер?
– Сложная, требующая особого внимания система. Ведь это практически 230 серверов и поддерживающее их безукоризненную работу сложное сетевое оборудование. Кроме поддержки работы вычислительных мощностей приходится решать уйму посторонних задач – система мониторинга, кондиционеры (без которых кластер нагрел бы помещение до 800С за полчаса работы, после чего вышел из строя), обеспечение бесперебойного питания, постоянное обновление BIOS различных узлов. Всё это требует высокой квалификации и самоотдачи. Пока нам очень помогает то, что мы находимся на трёхлетней гарантии компании IBM. Наши заявки на обслуживание и замену бракованных деталей рассматриваются в течение недели – от нас требуется лишь обнаружить неполадку и потом, при замене оборудования (например, вышедшей из строя материнской платы), – снова наладить работу вычислительного узла.
– Суперкомпьютер – достаточно устойчивая система, или он легко может отказаться работать?
– На момент ввода суперкомпьютера в эксплуатацию отсутствовала система контроля за инженерным состоянием помещения. Это создавало ряд проблем в поддержании работоспособности. Сейчас развернута система мониторинга, позволяющая отслеживать работу кластера. Например, при повышении температуры в серверной администраторам будет послано SMS-уведомление, а в случае превышения критических параметров происходит автоматическое отключение кластера.
– «Детские болезни» роста дают о себе знать?
– В целом от «болезней» мы почти избавились. Почти – потому что ресурсы кластера пока задействованы не полностью, и что-то ещё может проявиться.
– Насколько он загружен сейчас?
– 20-30% от максимальной производительности. Всё упирается, с одной стороны, в оперативную память, а с другой – в ограниченный объём дискового пространства, которое мы можем предоставить для хранения данных (научные коллективы требуют по 200-400 гигабайт, а у нас пока всего 4 Тб).
– Кто сейчас работает с кластером?
– Наши математики, физики – в пакетах MatLAb и ANSIS соответственно. Например, группа сотрудников кафедры вычислительной техники (руководитель д.ф.-м.н. В.Д. Кошур) запросила 60 ядер — они создают улучшенный метод нейросетевой аппроксимации инверсных зависимостей (проект заявлен на грант РФФИ). Доцент кафедры информатики Института математики СФУ Е.Д. Карепова проводит на нашем кластере занятия по дисциплине «Параллельное программирование» (80 ядер). Параллельными вычислениями занимаются магистры под руководством профессора д.т.н. А.И. Легалова. Есть взаимодействие с СО РАН – учёные академии наук очень заинтересованы в ресурсах нашего суперкомпьютера. Есть сотрудничество ИКИТ с Аграрным университетом в рамках проекта по гранту Президента России «Решение алгебраической проблемы о совпадении бернсайдовых групп и универсальных конечных бернсайдовых групп». На нас даже выходят московские институты, впрочем, с очень жесткими требованиями к устойчивости системы.
– А как осуществляется работа на кластере?
– Работаете со своего компьютера в удалённом режиме, используя логин и пароль, данные нами. Закачиваете задачу на выделенные вам вычислительные узлы, машина ее считает, потом скачиваете себе результаты. Для пользователя Linux по SSH-протоколу просто получаете доступ на удалённый терминал. Для поклонников Microsoft придётся поставить какой-нибудь терминальный клиент (мы предоставляем нашим пользователям полную поддержку, есть и подробная инструкция, и набор программ, необходимых для взаимодействия с кластером).
– В каком программном обеспечении ведутся расчёты?
– Из коммерческих сейчас у нас стоят MatLab и ANSIS. Из Open Source – набор библиотек OpenMPI. В принципе, вы можете писать на Си или фортране свои собственные программы и считать на них.
– В условиях кризиса развитие кластера не приостановилось?
– Ситуация сложная. Денег пока не то чтобы не выделяют: всё в стадии заявок. Хотелось бы довести загрузку кластера до 60-70%, но для этого необходимо увеличение оперативной памяти, расширение дискового пространства и улучшение системы кондиционирования, что требует значительных затрат.
– Грустно, что наш суперкомпьютер, еще не развернувшись в полную мощность, начинает устаревать. А его нельзя обновлять?
– Можно и нужно. Причём делается это сугубо индивидуально для каждого компьютера в зависимости от его слабых мест. Ахиллесова пята нашего кластера – оперативная память на вычислительных узлах. Сейчас у нас один вычислительный узел имеет 8 ядер и 4 гигабайта RAM, а для многих вычислительных задач 500 Мб на ядро – очень мало.
На момент покупки в 2007 году суперкомпьютер СФУ входил в топ-500 лучших мира – 183-е место. Но следует отдавать себе отчёт в том, что подобного рода комплексы – прежде всего борьба кошельков. Проходит год, меняются технологии, и за ту же цену вы можете позволить себе лучшие комплектующие и готовые системы. На текущий момент наш суперкомпьютер покинул топ-500, но в российском рейтинге по-прежнему занимает престижное 9 место.
Но обновление оборудования – это один из путей развития. Другой путь – участие в системе распределённых вычислений GRID. Впервые опробованная в ЦЕРНе (там, где коллайдер), эта система быстро завоевала популярность по всему миру. Каждый компьютер системы как бы становится вычислительным узлом. Ресурсы такого комплекса ограничены только пропускной способностью сети и количеством участников.

ИНСТРУКЦИЯ

Руководитель научной группы пишет служебную записку на имя директора ИКИТ СФУ Г.М. Цибульского «Прошу предоставить доступ к суперкомпьютеру СФУ... и пр.» в свободной форме. В служебной указываются имена членов группы, её научные интересы, примерное количество требуемых ресурсов, программа, которая вам нужна, и контактная информация. С вами связываются и предоставляют логин и пароль для доступа на кластер. Затем – установка программного обеспечения (если требуется), его отладка (на это может уйти неделя) – и вы можете приступать.

Вычисления децентрализованы – вы просто оставляете заявку на ресурсы, но не будете знать, где вычислялась ваша задача – на узлах кластера СФУ или в каком-нибудь университете Европы.
– Вы планируете с кем-то интегрироваться?
– Есть такой международный проект Egee (Enabling Grids for E-sciencE). В нём участвует большинство европейских вузов и ведущие российские. Думаю, у нас есть большие перспективы войти в эту систему. Я очень надеюсь, что кластер СФУ будет не просто одним из символов университета, но и реально действующим кирпичиком в фундаменте красноярской науки.

И в завершение разобью один весьма популярный в СФУ миф – что кластер недоступен простым смертным. Отнюдь. Из приложенной инструкции (справа) наглядно видно, что прикоснуться к супертехнике может практически каждый.

Александр ЛЕШОК

Похожие материалы