Современные суперкомпьютерные технологии решения больших задач

Содержание

Слайд 2

Слайд 3

Характеристики суперкомпьютеров ∙ IBM RoadRunner, 6562 AMD Opteron DC + 12240

Характеристики суперкомпьютеров

∙ IBM RoadRunner, 6562 AMD Opteron DC + 12240 IBM Cell,
1105

Tflop/s, ОП = 98 TB
∙ SGI Altix Ice 8200, 51200 CPUs, Intel Xeon 2.66 GHz QC,
487 Tflop/s, ОП = 51 TB, диски = 900 TB
∙ IBM Blue Gene, 212992 CPUs, PowerPC 440,
478 Tflop/s, ОП = 74 TB
∙ Cray XT4, 38642 CPUs, AMD Opteron 2.3 GHz QC,
266 Tflop/s, ОП = 77 TB, диски = 340 ТB

G = 109, T = 1012, P = 1015

Слайд 4

Суперкомпьютер СКИФ МГУ - Чебышев Создан МГУ, ИПС РАН и компанией

Суперкомпьютер СКИФ МГУ - Чебышев

Создан МГУ, ИПС РАН и компанией “Т-Платформы”

при поддержке компании Интел в рамках суперкомпьютерной программы СКИФ-ГРИД Союзного государства
Слайд 5

Суперкомпьютер СКИФ МГУ - Чебышев 60 Tflop/s, 1250 процессоров Intel Xeon (*4 ядра)

Суперкомпьютер СКИФ МГУ - Чебышев

60 Tflop/s, 1250 процессоров Intel Xeon (*4

ядра)
Слайд 6

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 7

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 8

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 9

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 10

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 11

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 12

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 13

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 14

Суперкомпьютер СКИФ МГУ - Чебышев

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 15

60 Tflop/s, Linpack = 47,17 Tflop/s (750.000×750.000) 625 узлов, 1250 ×

60 Tflop/s, Linpack = 47,17 Tflop/s (750.000×750.000)
625 узлов, 1250 × Intel

Xeon E5472 3.0 GHz (Harpertown), 5000 ядер,
InfiniBand DDR × GE × ServNet+IPMI, Panasas 60 TB, 98 м2

Суперкомпьютер СКИФ МГУ - Чебышев

Слайд 16

Высокопроизводительные компьютерные системы (основные классы)

Высокопроизводительные
компьютерные системы
(основные классы)

Слайд 17

Высокопроизводительные компьютерные системы (степень параллелизма) 1 102 104 106 Степень параллелизма

Высокопроизводительные
компьютерные системы
(степень параллелизма)

1

102

104

106

Степень
параллелизма

Слайд 18

Высокопроизводительные компьютерные системы (степень параллелизма) 1 102 104 106 Степень параллелизма Многоядерность

Высокопроизводительные
компьютерные системы
(степень параллелизма)

1

102

104

106

Степень
параллелизма

Многоядерность

Слайд 19

Высокопроизводительные компьютерные системы (степень параллелизма) 2 – 4 – 8 –

Высокопроизводительные
компьютерные системы
(степень параллелизма)

2 – 4 – 8 – 12 …

102

104

106

Степень


параллелизма

Многоядерность

Слайд 20

Многоядерные процессоры: это навсегда 80-ядерный процессор Intel

Многоядерные процессоры: это навсегда

80-ядерный процессор Intel

Слайд 21

Высокопроизводительные компьютерные системы (основные классы) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды

Высокопроизводительные
компьютерные системы
(основные классы)

Компьютеры с общей памятью

Компьютеры с распределенной памятью

Распределенные вычислительные

среды
Слайд 22

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Слайд 23

FPGA Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

FPGA

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Слайд 24

FPGA Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

FPGA

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Слайд 25

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

Слайд 26

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru) РВС-5: установка в НИВЦ МГУ в

Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru)

РВС-5: установка в НИВЦ МГУ в середине

2009 года Разработчик – НИИ МВС ЮФУ, г.Таганрог
Слайд 27

Графические процессоры и HPC (http://gpu.parallel.ru)

Графические процессоры и HPC (http://gpu.parallel.ru)

Слайд 28

Графические процессоры и HPC (http://gpu.parallel.ru)

Графические процессоры и HPC (http://gpu.parallel.ru)

Слайд 29

Графические процессоры и HPC (http://gpu.parallel.ru)

Графические процессоры и HPC (http://gpu.parallel.ru)

Слайд 30

Свойства распределенных вычислительных сред Масштабность. Распределенность. Динамичность. Неоднородность. Различная административная принадлежность.

Свойства распределенных вычислительных сред
Масштабность.
Распределенность.
Динамичность.
Неоднородность.
Различная административная принадлежность.

Слайд 31

СВОЙСТВА ВЫЧИСЛИТЕЛЬНЫХ СРЕД Класс и свойства задач Структура процесса вычислений Программирование

СВОЙСТВА ВЫЧИСЛИТЕЛЬНЫХ СРЕД

Класс и
свойства
задач

Структура
процесса
вычислений

Программирование
вычислительных
сред

Выполнение
распределенных
программ

Использование вычислительных сред

Слайд 32

Система метакомпьютинга X-COM (http://x-com.parallel.ru)

Система метакомпьютинга X-COM (http://x-com.parallel.ru)

Слайд 33

Решение больших задач в распределенных вычислительных средах Центр “Биоинженерия” РАН. Определение

Решение больших задач в распределенных вычислительных средах

Центр “Биоинженерия” РАН. Определение скрытой

периодичности в генетических последовательностях.
Решена за 63 часа, ≈ 2 года на 1 CPU.
8 городов,10 организаций, 14 кластеров, 407 CPUs, Linux/Win.
Режим работы узлов среды: монопольно.
ПензГУ. Дифракция электромагнитного поля на тонких проводящих экранах.
300 CPUs, решена за 4 дня , ≈ 3.2 года на 1 CPU.
4 кластера СКЦ НИВЦ МГУ. Linux.
Режим работы: монопольно + по незанятости.
ИБМХ РАМН, Гематологический центр РАМН. Поиск молекул-ингибиторов
для заданных белков-мишеней (тромбин).
270 CPUs, решена за 11 дней, ≈ 4.5 года на 1 CPU.
2 города, 3 кластера, учебный класс. Linux/Win.
Режим работы: монопольно + по незанятости + системы очередей.
Слайд 34

Система метакомпьютинга X-COM (http://x-com.parallel.ru)

Система метакомпьютинга X-COM (http://x-com.parallel.ru)

Слайд 35

Куда мы планируем двигаться дальше? Следующий компьютер Московского университета будет установлен

Куда мы планируем двигаться
дальше?

Следующий компьютер
Московского университета будет
установлен к концу 2009

года,
производительность: 0.5 Pflops
Слайд 36

Скорости растут, КПД падает…

Скорости растут, КПД падает…

Слайд 37

Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2.66GHz) КПД процессора

Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2.66GHz)

КПД процессора на задаче:

4% !!!

Реальная производительность,
Mflops

Слайд 38

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА ↓ АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ ↓ АНАЛИЗ ЭФФЕКТИВНОСТИ

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА

АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ

АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ

ПО

АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО

АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА

Анализ эффективности программ

Слайд 39

Реальная производительность, Mflops Анализ эффективности программ

Реальная производительность,
Mflops

Анализ эффективности программ

Слайд 40

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА ↓ АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ ↓ АНАЛИЗ ЭФФЕКТИВНОСТИ

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА

АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ

АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ

ПО

АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО

АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА

Анализ эффективности программ

Слайд 41

Что снижает производительность современных кластеров? Закон Амдала Латентность передачи по сети

Что снижает производительность современных кластеров?

Закон Амдала
Латентность передачи по сети

Пропускная способность каналов передачи данных
Особенности использования SMP-узлов
Балансировка вычислительной нагрузки
Возможность асинхронного счета и передачи данных
Особенности топологии коммуникационной сети
Слайд 42

Топология FatTree: СКИФ МГУ “Чебышев”

Топология FatTree: СКИФ МГУ “Чебышев”

Слайд 43

Что снижает производительность современных кластеров? Закон Амдала Латентность передачи по сети

Что снижает производительность современных кластеров?

Закон Амдала
Латентность передачи по сети

Пропускная способность каналов передачи данных
Особенности использования SMP-узлов
Балансировка вычислительной нагрузки
Возможность асинхронного счета и передачи данных
Особенности топологии коммуникационной сети
Производительность отдельных процессоров
...
Слайд 44

Что влияет на производительность узлов кластеров? использование суперскалярности, неполная загрузка конвейерных

Что влияет на производительность узлов кластеров?

использование суперскалярности,
неполная загрузка конвейерных

функциональных устройств,
пропускная способность кэшей, основной памяти, каналов передачи данных,
объем кэш-памяти различных уровней и основной памяти,
степень ассоциативности кэш-памяти различных уровней,
несовпадение размера строк кэш-памяти различных уровней,
несовпадение степени ассоциативности кэш-памяти различных уровней,
стратегия замещения строк кэш-памяти различных уровней,
стратегия записи данных, принятая при работе с подсистемами памяти,
расслоение оперативной памяти (структура банков),
частота работы оперативной памяти,
частота FSB,
ширина FSB,
несоответствие базовых частот: процессора, FSB и оперативной памяти,
влияние “NUMA” в серверах с архитектурой ccNUMA,
влияние “cc” в серверах с архитектурой ccNUMA,
влияние ОС (менеджер виртуальной памяти, накладные расходы на сборку мусора и выделение памяти).
Слайд 45

Производительность на базовых операциях Производительность, Mflops

Производительность на базовых операциях

Производительность, Mflops

Слайд 46

Масштабирование по частоте CPU? Производительность, Mflops

Масштабирование по частоте CPU?

Производительность, Mflops

Слайд 47

Реальное масштабирование на практике… Производительность, Mflops

Реальное масштабирование на практике…

Производительность, Mflops

Слайд 48

Реальное масштабирование на практике… Clowertown – 1,6 GHz 1,066 GHz Clowertown

Реальное масштабирование на практике…

Clowertown – 1,6 GHz 1,066 GHz Clowertown – 2,66 GHz 1,333

GHz CPU / FSB – это число тактов процессора на каждый такт работы системной шины: для Clowertown 1,6 GHz – это 1,5 для Clowertown 2,66 GHz – это 2 1,5 / 2 = 0,75 – замедление работы с памятью (2,66 / 1,6 ) * 0,75 = 1,24 – реальное ускорение

CPU FSB

Слайд 49

Теория и практика масштабирования Производительность, Mflops

Теория и практика масштабирования

Производительность, Mflops

Слайд 50

Эффективность, % КПД работы процессоров …

Эффективность, %

КПД работы процессоров …

Слайд 51

КПД работы процессоров …

КПД работы процессоров …

Слайд 52

Процессоры и массивы…

Процессоры и массивы…

Слайд 53

Простой пример. Исходный текст for ( i = 1; i

Простой пример. Исходный текст

for ( i = 1; i < N;

i++) { for ( j = 1; j < N; j++) { for ( k = 1; k < N; k++) { DSUM[i][k] = DSUM[i][k] + S[k] * A[k][j][i] + P[i][j] * A[k][j][i–1] + P[i][k] * A[k][j–1][i] + P[j][k] * A[k–1][j][i]; } } }
Слайд 54

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, Intel -fast)

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, Intel -fast)

Слайд 55

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, PGI)

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, PGI)

Слайд 56

Сравнение компиляторов: Intel и PGI (простой пример, PGI/Intel)

Сравнение компиляторов: Intel и PGI (простой пример, PGI/Intel)

Слайд 57

Характеристики работы программно-аппаратной среды Количество задач в состоянии счёта на узле

Характеристики работы программно-аппаратной среды

Количество задач в состоянии счёта на узле
Число

переключений контекста
Процент использования CPU программами пользователя
Процент использования CPU системой
Процент использования CPU программами с приоритетом nice
Процент простоя CPU
Длина очереди процессов на счёт
Объём памяти, занятой под системные кэши
Объём памяти, свободной
Объём памяти, используемой
Общий объём памяти
Количество принятых пакетов по сети Ethernet; Количество отправленных пакетов по сети Ethernet; Количество принятых байт по сети Ethernet; Количество отправленных байт по сети Ethernet; Количество ошибок типа carrier (отсутствие сигнала) в Ethernet; Количество ошибок типа collision (коллизия при передаче) в Ethernet; Количество ошибок типа drop (потеря пакета) в Ethernet; Количество ошибок типа err (прочие ошибки) в Ethernet; Количество ошибок типа fifo (переполнение буфера) в Ethernet; Количество ошибок типа frame (приём неверно сконструированного пакета) в Ethernet;
Количество принятых блоков по NFS; Количество отправленных блоков по NFS; Число авторизаций на NFS сервере; Число операций на NFS сервере; Число перепосылок при общении с NFS сервере;
Количество блоков, считанных из файла подкачки (paging); Количество блоков, записанных в файл подкачки (paging); Количество блоков, считанных из файла подкачки (swaping); Количество блоков, записанных в файл подкачки (swaping)
Чтение с локального жёсткого диска; Запись на локальный жёсткий диск;
Свободное место в /tmp
Слайд 58

Исследование динамических свойств программ

Исследование динамических свойств программ

Слайд 59

Исследование динамических свойств программ

Исследование динамических свойств программ

Слайд 60

Исследование динамических свойств программ

Исследование динамических свойств программ

Слайд 61

Исследование динамических свойств программ

Исследование динамических свойств программ

Слайд 62

Сертификация эффективности параллельных программ • Эффективность последовательная • Эффективность параллельная Объекты

Сертификация эффективности параллельных программ

• Эффективность последовательная • Эффективность параллельная Объекты исследования: Задача – Алгоритм

– Программа – Системное ПО – Компьютер Необходимы методика, технологии и программные инструменты сертификации эффективности и для пользователей, и для администраторов больших машин Необходима развитая инфраструктура ПО для решения задачи отображения программ и алгоритмов на архитектуру современных вычислительных систем
Слайд 63

Параллелизм – новый этап развития компьютерного мира ОБРАЗОВАНИЕ! ОБРАЗОВАНИЕ! ОБРАЗОВАНИЕ!

Параллелизм – новый этап развития компьютерного мира

ОБРАЗОВАНИЕ!

ОБРАЗОВАНИЕ!

ОБРАЗОВАНИЕ!

Слайд 64

Учебный процесс и образование

Учебный процесс и образование

Слайд 65

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Слайд 66

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Слайд 67

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Слайд 68

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Слайд 69

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Коллективный банк тестов “СИГМА” (по параллельным вычислениям)

Слайд 70

Учебный процесс и образование

Учебный процесс и образование