ТГТУ каф.Программного обеспечения (ПОВТ)  
           Адрес: (г.Тверь, просп. Ленина, 25)  
Телефон / факс: (4822) 44-93-94  
e-mail:common@tstu.tver.ru  
     ИССЛЕДОВАНИЕ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ 
        НА КЛАСТЕРЕ
ТГТУ

 

Примеры параллельных вычислительных систем

Разнообразие параллельных вычислительных систем поистине огромно. В каком-то смысле каждая такая система уникальна. В них устанавливаются различные аппаратные составляющие: процессоры (Intel, Power, AMD, HP, Alpha, Nec, Cray, ѕ), сетевые карты (Ethernet, Myrinet, Infiniband, SCI, ѕ). Они функционируют под управлением различных операционных систем (версии Unix/Linux, версии Windows, ѕ) и используют различное прикладное програм-мное обеспечение. Кажется, что найти между ними что-то общее практически невозможно. Конечно же, это не так, и ниже мы попытаемся с общих пози-  ций сформулировать некоторые известные варианты классификаций параллельных вычислительных систем, но прежде рассмотрим несколько примеров.

Виды суперкомпьютеров

Суперкомпью́тер (англ. supercomputer, СуперЭВМ) — вычислительная машина, значительно превосходящая по своим техническим параметрам большинство существующих компьютеров. Как правило, современные суперкомпьютеры представляют собой большое число высокопроизводительных серверных компьютеров, соединённых друг с другом локальной высокоскоростной магистралью для достижения максимальной производительности в рамках подхода распараллеливания вычислительной задачи.

TOP500 — проект по составлению рейтинга и описаний 500 самых мощных общественно известных компьютерных систем мира. Проект был запущен в  1993 году и публикует обновлённый список суперкомпьютеров дважды в год (в июне и ноябре). Этот проект направлен на обеспечение надёжной основы  для выявления и отслеживания тенденций в области высокопроизводительных вычислений. Россия по данным на июнь 2010 года занимает 7 место по  числу установленных систем (11 суперкомпьютеров в списке). Лидирует по этому показателю США — 282 системы.

Виды систем суперкомпьютеров:

Одним из критериев, используемых для классификации компьютеров, может выступать количество потоков и данных, обрабатываемых в один момент времени. Согласно систематике Флинна, выделяют четыре класса: скалярные однопроцессорные системы: одиночный поток команд - одиночный поток данных (SISD) одиночный поток команд - множественный поток данных (SIMD) множественный поток команд - множественный поток данных (MIMD)
множественный поток команд - одиночный поток данных (МISD)

Tianhe-1A China’s National University of Defense Technology (c 2010.11) Тяньхэ-1А — суперкомпьютер, спроектированный Национальным университетом оборонных технологий Китайской Народной Республики. Скорость вычислений, производимых суперкомпьютером, составляет 2,507 петафлопс, что по данному показателю ставит его на первое место среди ЭВМ подобного класса (на октябрь 2010 года), оставляя позади суперкомпьютер Cray XT5 (1,76 петафлопс), расположенный в Национальной лаборатории Оук-Риджа в США[1].
Тяньхэ-1А использует 7168 графических процессоров Nvidia Tesla M2050 и 14336 серверных процессоров Intel Xeon. Согласно заявлениям компании Nvidia, суперкомпьютер использует электрическую энергию в три раза эффективнее, чем иные электронные вычислительные машины подобного класса. Суперкомпьютер, построенный исключительно на базе центральных процессоров (CPU), при сравнимой скорости вычислений потреблял бы более 12 МВт электрической энергии.


Cray Jaguar (с 2009.11 - 2010.10) Jaguar — суперкомпьютер класса массивно-параллельных систем, размещен в Национальном центре компьютерных исследований в Оук-Ридже, штат Теннеси (National Center for Computational Sciences (NCCS)).
Суперкомпьютер имеет массово-параллельную архитектуру, то есть состоит из множества автономных ячеек (англ. nodes). Все ячейки делятся на два раздела (англ. partitions): XT5 и XT4 моделей Cray XT5 и XT4, соответственно.
Раздел XT5 содержит 18 688 вычислительных ячеек, а также вспомогательные ячейки для входа пользователей и обслуживания. Каждая вычислительная ячейка содержит 2 четырехъядерных процессора AMD Opteron 2356 (Barcelona) с внутренней частотой 2,3 ГГц, 16 ГБ памяти DDR2-800, и роутер SeaStar 2+. Всего раздел содержит 149 504 вычислительных ядер, более 300 ТБ памяти, более 6 ПБ дискового пространства и пиковую производительность 1,38 петафлопс.
Раздел XT4 содержит 7832 вычислительных ячеек плюс вспомогательные ячейки для входа пользователей и обслуживания. Ячейка содержит 4-ядерный процессор AMD Opteron 1354 (Budapest) с внутренней частотой 2,1 ГГц, 8 ГБ памяти DDR2-800 (в некоторых ячейках — DDR2-667) и роутер SeaStar2. Всего раздел содержит 31 328 вычислительных ядер, более 62 ТБ памяти, более 600 ТБ дискового пространства и пиковую производительность 263 TFLOPS.


IBM Roadrunner (с 2008.06 - 2009.11) Roadrunner — суперкомпьютер в Лос-Аламосской национальной лаборатории в Нью-Мексико, США. Разработан в расчёте на пиковую производительность в 1,026 петафлопа (достигнута в июне 2008 года) и 1,105 петафлопа (ноябрь 2008 года). Был самым производительным суперкомпьютером в мире и в 2009 году. IBM построила этот компьютер для Министерства энергетики США по гибридной схеме из 6480 двухъядерных процессоров AMD Opteron и 12 960 процессоров IBM Cell 8i в специальных стойках TriBlade, соединённых с помощью Infiniband.
Roadrunner работает под управлением Red Hat Enterprise Linux совместно с Fedora и управляется по xCAT. Он занимает приблизительно 12 000 кв.футов (1100 м²) и весит 226 тонн. Энергопотребление — 3,9 МВт. Вступил в строй в июне 2008 года. Стоимость IBM Roadrunner составила 133 миллиона долларов.


IBM Blue Gene/L (2004.11 - 2008.06) Blue Gene — проект компьютерной архитектуры, разработанный для создания нескольких суперкомпьютеров и направленный на достижение скорости обработки данных, превышающей 1 петафлопс. На данный момент успешно достигнута скорость почти в 500 терафлопс. Является совместным проектом фирмы IBM (подразделение Rochester MN и исследовательский центр Томаса Уотсона), Ливерморской национальной лаборатории, Министерства энергетики США (которое частично финансирует проект) и академических кругов. Предусмотрено четыре этапа проекта: Blue Gene/L, Blue Gene/C, Blue Gene/P и Blue Gene/Q. Проект был награждён Национальной Медалью США в области технологий и инноваций 18 сентября 2009 года. Blue Gene/L — это первый компьютер серии IBM Blue Gene, разработанный совместно с Ливерморской национальной лабораторией. Его теоретическая пиковая производительность составляет 360 терафлопс, а реальная производительность, полученная на тесте Linpack, около 280 терафлопс. После апгрейда в 2007 году реальная производительность увеличилась до 478 терафлопс при пиковой производительности в 596 терафлопс. В ноябре 2006 года 27 компьютеров из списка TOP500 имели архитектуру Blue Gene/L.


NEC Earth Simulator (2002.06 — 2004.11) Earth Simulator — самый быстрый суперкомпьютер в мире с 2002 по 2004 года. Система разработана Японским агентством аэрокосмических исследований и Японским институтом ядерных исследований в 1997 для исследования эффекта глобального потепления и решения проблем геофизики.Также, Earth Simulator можно считать самым дорогим компьютером, его стоимость оценивается в $500 млн.
Суперкомпьютер находится в исследовательском центре Earth Simulator Center, расположенном в Иокогаме, Япония. Он имеет производительность 35.86 Тфлопс.Earth Simulator создан на базе архитектуры NEC SX-6. Он состоит из 640 узлов, по 8 векторных процессоров и 16 ГБ памяти на каждом; всего 5120 процессоров. Используется операционная система ES OS на основе SUPER-UX.


IBM ASCI White (2000.11 — 2002.06) Разумеется, корпорация IBM вложила миллионы долларов в ASCI White не для того только, чтобы та неплохо играла в шахматы. Ученые предлагают этой машине задачи с гигантскими объемами вычислений, и она справляется с ними быстрее любого другого компьютера в мире.


Intel ASCI Red (1997.06 — 2000.11) В июне специалисты Национальной лаборатории Сандия остановили ASCI Red — первый в мире суперкомпьютер, производительность которого превысила отметку 1 трлн. операций в секунду. ASCI Red, запущенный около девяти лет тому назад, до сих пор входит в «топ 500» самых быстрых систем мира, однако он будет демонтирован, чтобы освободить место для более совершенных своих собратьев. ASCI Red возглавлял список Top500.org на протяжении семи его выпусков — с июня 1997-го по июнь 2000 года. Мощность суперкомпьютера непрерывно наращивалась, в конце «жизни» составив 3,1 TFLOPS.


Hitachi CP-PACS (1996.11 — 1997.06) Hitachi, суперкомпьютер CP-PACS/2048 которой производительностью 368,2 Гфлопс был установлен в японском наукограде Цукуба.


Hitachi SR2201 (1996.06 — 1996.11) Hitachi SR2201 – 0,6 Тфлопс

Классификация вычислительных систем


Примеры топологий сети передачи данных

Структура линий коммутации между процессорами вычислительной системы (топология сети передачи данных) определяется, как правило, с учетом возможностей эффективной технической реализации. Немаловажную роль при выборе структуры сети играет и анализ интенсивности информационных потоков при параллельном решении наиболее распространенных вычислительных задач. К числу типовых топологий обычно относят следующие схемы коммуникации процессоров:
Полный граф (completely-connected graph или clique) – система, в которой между любой парой процессоров существует прямая линия связи. Такая топология обеспечивает минимальные затраты при передаче данных, однако является сложно реализуемой при большом количестве процессоров;
Линейка (linear array или farm) – система, в которой все процессоры перенумерованы по порядку и каждый процессор, кроме первого и последнего, имеет линии связи только с двумя соседними (с предыдущим и последующим) процессорами. Такая схема является, с одной стороны, просто реализуемой, c другой стороны, соответствует структуре передачи данных при решении многих вычислительных задач (например, при организации конвейерных вычислений);
Кольцо (ring) – данная топология получается из линейки процессоров соединением первого и последнего процессоров линейки;
звезда (star) – система, в которой все процессоры имеют линии связи с некоторым управляющим процессором. Данная топология является эффективной, например, при организации централизованных схем параллельных вычислений;
Решетка (mesh) – система, в которой граф линий связи образует прямоугольную сетку (обычно двух- или трехмерную). Подобная топология может быть достаточно просто реализована и, кроме того, эффективно использована при параллельном выполнении многих численных алгоритмов (например, при реализации методов анализа математических моделей, описываемых дифференциальными уравнениями в частных производных);
гиперкуб (hypercube) – данная топология представляет собой частный случай структуры решетки, когда по каждой размерности сетки имеется только два процессора (т.е. гиперкуб содержит 2N процессоров при размерности N).

Характеристики топологии сети

В качестве основных характеристик топологии сети передачи данных наиболее широко используется следующий ряд показателей:
Диаметр – показатель, определяемый как максимальное расстояние между двумя процессорами сети (под расстоянием обычно понимается величина кратчайшего пути между процессорами). Эта величина может характеризовать максимально необходимое время для передачи данных между процессорами, поскольку время передачи обычно прямо пропорционально длине пути;
Связность (connectivity) – показатель, характеризующий наличие разных маршрутов передачи данных между процессорами сети. Конкретный вид данного показателя может быть определен, например, как минимальное количество дуг, которое надо удалить для разделения сети передачи данных на две несвязные области;
Ширина бинарного деления (bisection width) – показатель, определяемый как минимальное количество дуг, которое надо удалить для разделения сети передачи данных на две несвязные области одинакового размера;
Стоимость – показатель, который может быть определен, например, как общее количество линий передачи данных в многопроцессорной вычислительной системе.

 

 
Лекции