Скорость
работы разреженного прямого решателя
(sparse direct solver)
в системе ИСПА
при решении задач большой размерности.
Александр
Александрович Мухин
Принцип работы разреженного прямого решателя в системе
ИСПА описан в статье “Новый разреженный прямой решатель (sparse direct solver) в системе ИСПА”.
Но время идет и программа развивается. В данной статье
рассмотрим скорость работы нового разреженного метода факторизации матриц,
реализованный в системе ИСПА для задач очень большой размерности, когда размер
матрицы существенно превышает размер оперативной памяти. Для решения подобных
задач в системе был использован механизм виртуально-страничной памяти
операционной системы WINDOWS (64 разряда).
Решение будем проводить на компьютере с процессором Intel I7 – 3930, 64 Гб оперативной памяти. Операционная система WINDOWS 7 (64 разряда). Для проверки точности и правильности проведенных расчетов
будем рассчитывать энергию деформации.
Геометрическая модель мостового перегружателя представлена
на рис. 1. Генерацию конечно-элементных
моделей будем проводить используя автоматический генератор
4-х узловых тонких оболочек.
Рис 1.
Рассмотрим модель
представленную на рис. 2. Модель
содержит 1 895 046 узлов и 1
926 356 элементов (10 244 866 уравнений). Количество закрепленных
степеней свободы – 10.
Время автоматической генерации 4-х узловых тонких
оболочек такой модели составляет 27 сек.
Рис 2.
На рисунке 3 показан фрагмент данной модели, чтобы
читатель смог понять подробность конечно-элементной сетки.
Рис 3.
Время полной численной факторизации матрицы жесткости
составляет - 46 сек. Для решения потребовалось 33.2 Гбайт оперативной памяти.
Скорость решения – 76 Гфл/cек.
Энергия деформации = 3.775973e+006.
Теперь сгенерируем ту же самую модель, но с более мелкой
сеткой. Модель содержит
5 615 360 узлов и 5
676 746 элементов (30 250 636
уравнений).
Время автоматической генерации 4-х узловых тонких
оболочек такой модели составляет 1 мин 15 сек.
На рисунке 4 показан фрагмент данной модели, чтобы
читатель смог понять подробность конечно-элементной сетки.
Рис 4.
Время полной численной факторизации матрицы жесткости
составляет - 28 мин. Для решения потребовалось 108 Гбайт виртуальной памяти.
Скорость решения – 11 Гфл/cек. Энергия деформации =
3. 772410e +006.
Сгенерируем ту же самую модель, но с еще более мелкой
сеткой. Модель содержит 7 571 226 узлов и 7 643 792 элементов (40 742 550
уравнений).
Время автоматической генерации 4-х узловых тонких
оболочек такой модели составляет 1 мин 42 сек.
На рисунке 5 показан
фрагмент данной модели.
Рис 5.
Время полной численной факторизации матрицы жесткости
составляет - 42 мин. Для решения потребовалось 149 Гбайт виртуальной памяти.
Скорость решения – 11. Гфл/cек. Энергия деформации =
3.778617e +006.
Подведем итоги. Энергия деформации проведенных расчетов
совпадает один в один. Это означает, что численная факторизация матриц
размерности 30-40 миллионов неизвестных, в системе ИСПА, проводится без потери
точности решения.
Тактовая частота процессора Intel I7 – 3930 составляет 3.2 Ггц. Шесть ядер в сумме
дают – 19.2 Ггц. Если за один такт делать одну
операцию с плавающей точкой, на каждом ядре, то скорость вычислений составит 19.2 Гфл/cек. А средняя
скорость численной факторизации в системе ИСПА, если вся матрица размещена в
оперативной памяти составляет 76 Гфл/cек (76 миллиардов операций с плавающей точкой в
секунду). Это означает, в системе ИСПА используются расширенные регистры. Для
данного процессора стандарт AVX.
Если оперативной памяти недостаточно для проведения
расчета, то включается механизм виртуально-страничной памяти и средняя скорость
решения составляет 11 Гфл/cек.
Вывод.
Система ИСПА позволяет проводить расчеты очень большой
размерности с большой скоростью и без потери точности решения.
Октябрь