dock08

Использование параллельных вычислений в задаче докинга

Оферкин И.В.

Студент физического факультета, Автор выражает глубокую признательность своему научному руководителю, с.н.с. кафедры биофизики Иванову П.С., а также Сулимову А.В. за доступ к кластеру и советы в организации работы.

Московский государственный университет имени М.В.Ломоносова, Москва, Россия E–mail: _jackdaw_@mail.ru

Одним из методов исследования белковых комплексов является компьютерное моделирование. Результаты такого моделирования находят применение не только в фундаментальных задачах сравнения белковых комплексов по их энергетическим характеристикам (например, с целью установления их эволюционной и функциональной близости), но и в ряде практических задач, таких как моделирование докинга в целях разработки лекарственных препаратов-лигандов, ингибирующих активный центр патогенного белка.

До недавних пор решение подобных задач заметно осложнялось высокими требованиями к вычислительным ресурсам. Современные кластерные архитектуры позволяют обойти это препятствие, но лишь при условии эффективного распараллеливания вычислений.

Основной вычислительной сложностью, возникающей при решении задачи докинга, является нахождение самого энергетически выгодного положения лиганда в активном центре белка. Математически это условие аналогично задаче поиска множества энергетических минимумов возле исходных конформаций белковых комплексов при их функциональном сравнении – в обоих случаях требуется найти локальный или глобальный минимум функции многих переменных. Одним из способов поиска глобального минимума является генетический алгоритм. Это вероятностный итерационный алгоритм, в котором по достаточно большому набору предыдущих вариантов пространственных конфигураций (положений лигандов) строится некоторым образом улучшенный их набор (следующее поколение конфигураций). Для статистического подтверждения корректности работы алгоритма он может быть запущен несколько раз с нуля с последующим сравнением результатов разных запусков. При параллельных вычислениях на системах с локальной или распределенной памятью используется два варианта расчетов. Первый вариант основан на одновременном запуске нескольких экземпляров генетического алгоритма, осуществляемом с минимальными накладными затратами на синхронизацию процессов. Второй вариант представляет собой параллельную обработку массива пространственных конфигураций для генерации нового поколения конфигураций, при этом накладные расходы на синхронизацию процессов увеличиваются.

Существенными параметрами, влияющими на величину ускорения параллельной реализации алгоритма относительно последовательной, являются размер задачи, времена задержки и скорость передачи данных между процессами, устойчивость и однородность работы вычислительных узлов.

В работе осуществлено распараллеливание программы докинга SOL [1], входящей в программный комплекс проектирования лекарств Keenbase, в среде MPI. В качестве результатов приведены характеристики соответствующих расчетов на суперкомпьютере МГУ и выявленные особенности таких расчетов.

Литература

2. Романов А.Н., Кондакова О.А., Григорьев Ф.В., Сулимов А.В., Лущекина С.В., Мартынов Я.Б., Сулимов В.Б. Компьютерная разработка лекарств: программа докинга SOL // Вычислительные методы и программирование, 2008, Т. 8, С.213-233.