Параллельные архитектуры с неоднородным доступом к памяти. NUMA-системы

Содержание

Слайд 2

Основные классы современных параллельных компьютеров Симметричные мультипроцессорные системы Symmetric Multiprocessing - SMP

Основные классы современных параллельных компьютеров

Симметричные мультипроцессорные системы
Symmetric Multiprocessing - SMP

Слайд 3

Массивно-параллельные системы Massive Parallel Processing - MPP

Массивно-параллельные системы
Massive Parallel Processing - MPP

Слайд 4

NUMA-архитектура Non-Uniform Memory Architecture

NUMA-архитектура
Non-Uniform Memory Architecture

Слайд 5

Особенности NUMA Каждая группа процессоров имеет свою собственную память. Каждый ЦП

Особенности NUMA

Каждая группа процессоров имеет свою собственную память.
Каждый ЦП может иметь

доступ к памяти, связанной с другими группами.
Доступ к локальной памяти происходит быстрее, чем к памяти, связанной с другими узлами NUMA.
Слайд 6

Работа с памятью Доступ процессорного элемента к собственной локальной памяти оказывается

Работа с памятью

Доступ процессорного элемента к собственной локальной памяти оказывается в

5-10 раз быстрее, чем доступ к общему блоку памяти и к блокам локальной памяти других процессорных элементов.
Отношение времен доступа к внешней и локальной памяти называется коэффициентом NUMA.
Чем выше коэффициент NUMA, тем больше издержки на доступ к памяти других узлов.
Слайд 7

Когерентность кэша В многопроцессорных системах несколько процессорных узлов работают одновременно, поэтому

Когерентность кэша

В многопроцессорных системах несколько процессорных узлов работают одновременно, поэтому возможна

ситуация параллельного доступа к одной ячейке памяти.
Механизм уведомления всех узлов об изменении значения в общей памяти называется протоколом когерентности (memory coherence protocol).
Слайд 8

В класс NUMA входят системы без кэширования nc-NUMA (No Caching NUMA)

В класс NUMA входят системы без кэширования nc-NUMA (No Caching NUMA)

и системы с согласованной кэш-памятью cc-NUMA (Coherent Cache NUMA).
Примеры cc-NUMA: HP 9000 V-class в SCA-конфигурациях, SGI Origin2000, Sun HPC 10000, IBM/Sequent NUMA-Q 2000, SNI RM600.
Слайд 9

Масштабируемость Главный выигрыш от использования NUMA — это масштабируемость. Масштабируемость NUMA-систем

Масштабируемость

Главный выигрыш от использования NUMA — это масштабируемость.
Масштабируемость NUMA-систем ограничивается объемом

адресного пространства, возможностями аппаратуры поддержки когерентности кэшей и возможностями операционной системы по управлению большим числом процессоров.
Слайд 10

Операционная система Обычно вся система работает под управлением единой ОС. Но

Операционная система

Обычно вся система работает под управлением единой ОС. Но возможны

также варианты динамического "подразделения" системы, когда отдельные "разделы" системы работают под управлением разных ОС.
Слайд 11

Модель программирования Программирование происходит в модели общей памяти — POSIX threads,

Модель программирования

Программирование происходит в модели общей памяти — POSIX threads, OpenMP.
OpenMP

реализует параллельные вычисления с помощью многопоточности, в которой «главный» поток создает набор подчиненных потоков и задача распределяется между ними.
Задачи, выполняемые потоками параллельно, также как и данные, требуемые для выполнения этих задач, описываются с помощью специальных директив препроцессора соответствующего языка — прагм.
Слайд 12

Примеры суперкомьютеров NUMA-Q 2000 Производитель : IBM (ранее – Seqent) Класс

Примеры суперкомьютеров

NUMA-Q 2000
Производитель : IBM (ранее – Seqent)
Класс архитектуры :

cc-NUMA, используется для организации сложных информационных систем.
Модификации: Model E410/E330/E320/E300/E200
Процессоры: Intel Pentium III Xeon (700 MHz в модели E410)
Узел: от 4 до 64 процессоров, до 64 GB оперативной памяти; узел состоит из базовых плат по 4 процессора (quads), соединенных между собой коммутатором IQ-Link.
Масштабируемость: Возможна организация кластеров, включающих до 4 узлов
Системное ПО: Используется операционная система DYNIX/ptx - версия UNIX от Sequent. Внутри одной системы могут одновременно исполняться UNIX и Windows NT.
Слайд 13

SGI Origin2000 Производитель : Silicon Graphics Класс архитектуры: cc-NUMA Процессор: 64-разрядные

SGI Origin2000
Производитель : Silicon Graphics
Класс архитектуры: cc-NUMA
Процессор: 64-разрядные RISC-процессоры MIPS

R10000, R12000/300MHz .
Модуль: Основной компонент системы - модуль Origin, включающий от 2 до 8 процессоров MIPS R10000 и до 16GB оперативной памяти.
Масштабируемость: Поставляются системы Origin2000, содержащие до 256 процессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей.
Коммутатор: Модули системы соединены с помощью сети CrayLink, построенной на маршрутизаторах MetaRouter.
Системное ПО: Используется операционная система SGI IRIX.
Средства программирования: Поставляется распараллеливающий компилятор Cray Fortran 90. Поддерживается стандарт OpenPM.