Серверы суперкомпьютеры

Содержание

Слайд 2

§1 Архитектуры параллельных компьютеров 1. За счёт чего выросла производительность

§1 Архитектуры параллельных компьютеров

1. За счёт чего выросла производительность

Слайд 3

конвейер прогноз ветвлений и т. д. параллелизм много процессоров, банков памяти,

конвейер
прогноз ветвлений и т. д.
параллелизм
много процессоров, банков

памяти, УВВ
внутри процессора: много конвейеров, кэшей, буферов
Слайд 4

Основная проблема – взаимодействие паралл. работающих устройств проц-ы память УВВ

Основная проблема – взаимодействие паралл. работающих устройств

проц-ы

память

УВВ

Слайд 5

2. Топология диаметр – расстояние (в этапах) между наиболее удалёнными узлами

2. Топология

диаметр – расстояние (в этапах) между наиболее удалёнными узлами

Слайд 6

размерность – число цепочек, пересекающихся в каждом узле 0: - звезда

размерность – число цепочек, пересекающихся в каждом узле

0:

- звезда

-

полное межсоединение

- толстое дерево

Слайд 7

1: - кольцо - решётка - 2М тор 2:

1:

- кольцо

- решётка

- 2М тор

2:

Слайд 8

3: - куб 4: 4М куб 3М тор

3:

- куб

4:

4М куб

3М тор

Слайд 9

Чем больше размерность, тем меньше задержки, поскольку отношение диаметра к числу узлов уменьшается

Чем больше размерность, тем меньше задержки, поскольку отношение диаметра к числу

узлов уменьшается
Слайд 10

Connection Machine 2

Connection Machine 2

Слайд 11

3. Маршрутизация от источника: источник определяет весь путь заранее и прикрепляет

3. Маршрутизация

от источника: источник определяет весь путь заранее и прикрепляет

к пакету список номеров портов

2

4

3

7

данные

Слайд 12

пространственная: по осям на нужное число узлов не создаёт тупиковых ситуаций

пространственная: по осям на нужное число узлов

не создаёт тупиковых ситуаций

Слайд 13

4. Организация памяти совместная: единое физическое адресное пространство распределённая: физически раздельное, логически единое

4. Организация памяти

совместная: единое физическое адресное пространство

распределённая: физически раздельное, логически единое

Слайд 14

Обмен данными при распред. организации: проц. определяет, у кого есть нужные

Обмен данными при распред. организации:
проц. определяет, у кого есть нужные

ему данные
посылает запрос
блокируется до получения ответа
передача данных
продолжение работы
Слайд 15

Совместную память легко программировать, но трудно сделать (гигабайты) Распределённую – наоборот Комбинации

Совместную память легко программировать, но трудно сделать (гигабайты)
Распределённую – наоборот

Комбинации

Слайд 16

§2 Расширяемый связный интерфейс – РСИ 1. Назначение Scalable Coherent Interface

§2 Расширяемый связный интерфейс – РСИ

1. Назначение

Scalable Coherent Interface –

SCI

суперкомпьютеры
САУ (реального времени)
сверхнадёжные компьютеры

Слайд 17

Примеры: управление ядерным реактором крылатая ракета танк-робот комплекс ПВО прогноз погоды, землетрясений научные расчёты

Примеры:
управление ядерным реактором
крылатая ракета
танк-робот
комплекс ПВО
прогноз погоды,

землетрясений
научные расчёты
Слайд 18

2. Организация а) Основной элемент РСИ – «узел» Ключ Проходной FIFO

2. Организация

а) Основной элемент РСИ – «узел»

Ключ

Проходной FIFO

Дешифратор адреса

Выходной FIFO

Входной FIFO

Прикладные

схемы узла РСИ
Слайд 19

Пакет поступает на дешифратор адреса Если адрес в пакете = адресу

Пакет поступает на дешифратор адреса
Если адрес в пакете =

адресу узла, то направляем пакет во входной буфер FIFO и затем на обработку
Слайд 20

Иначе пакет попадает в проходной FIFO и, если ключ открыт, выходит

Иначе пакет попадает в проходной FIFO и, если ключ открыт,

выходит из узла
ключ закрыт, когда прикладная схема выводит созданный ею пакет
Слайд 21

б) Простейшая структура РСИ – «колечко» 1 2 N N ∈

б) Простейшая структура РСИ – «колечко»

1

2

N

N ∈ (2, 65536)

Пакеты бегут в

одном направлении
Слайд 22

Много узлов в колечке невыгодно Большие системы состоят из колечек, связанных переключателями Н-р, «звезда» c N=2

Много узлов в колечке невыгодно

Большие системы состоят из колечек, связанных переключателями

Н-р,

«звезда» c N=2
Слайд 23

Колечко N=4 Звезда N=2

Колечко N=4

Звезда N=2

Слайд 24

в) Двойной узел Узел+ Прикладные схемы Узел- вх- вых- вх+ вых+

в) Двойной узел

Узел+

Прикладные схемы

Узел-

вх-

вых-

вх+

вых+

Слайд 25

Из двойных узлов компонуют резервированные колечки «Гигаринг»

Из двойных узлов компонуют резервированные колечки «Гигаринг»

Слайд 26

В случае разрыва одного колечка, работает оставшееся Н-р:

В случае разрыва одного колечка, работает оставшееся

Н-р:

Слайд 27

Если разрушены один-два узла, то колечко просто укорачивается Живучесть системы

Если разрушены один-два узла, то колечко просто укорачивается

Живучесть системы

Слайд 28

г) Дворник колечка удаляет повреждённые пакеты управляет синхронизацией узлов полностью очищает колечко при крупных сбоях

г) Дворник колечка

удаляет повреждённые пакеты
управляет синхронизацией узлов
полностью очищает

колечко при крупных сбоях
Слайд 29

д) Инициализация системы при включении питания каждый узел запускает свой тактовый

д) Инициализация системы

при включении питания каждый узел запускает свой тактовый

генератор
в каждом колечке избирается дворник
он даёт узлам предварительные адреса
Слайд 30

программа высшего уровня активизирует переключатели между колечками затем присваивает каждому узлу уникальный адрес

программа высшего уровня активизирует переключатели между колечками
затем присваивает каждому

узлу уникальный адрес
Слайд 31

3. InfiniBand Наследник РСИ: обработка пакетов в узле менеджеры подсетей –

3. InfiniBand

Наследник РСИ:
обработка пакетов в узле
менеджеры подсетей –

дворники
менеджер системы

Но колечки не обязательны

1x = 2 Гбит/с в каждом направлении

Слайд 32

Схема кодирования 8В/10В: 8 разрядов данных + 2 разряда для синхронизации Распараллеливание на уровне байтов

Схема кодирования 8В/10В: 8 разрядов данных + 2 разряда для синхронизации


Распараллеливание на уровне байтов

Слайд 33

Пропускная способность

Пропускная способность

Слайд 34

1x-1x 4x-1x 4x: 16 жил Медные кабели до 17 м

1x-1x

4x-1x

4x: 16 жил

Медные кабели до 17 м

Слайд 35

Сетевая карта на 40 Гбит/с Для PCI Express 2.0: (5 млрд.

Сетевая карта на 40 Гбит/с

Для PCI Express 2.0: (5 млрд. транзакций/c)

⇒ дуплексный обмен в MPI-приложениях ≈ 6460 МБ/с (по одному порту с задержкой не более 1 мс)