Название проекта
Разработка научных принципов на основе когнитивных технологий для планирования действий многоцелевых робототехнических систем при взаимодействии с человеком и классификации объектов окружающего пространства по визуальным данным низкого качества.
Проект №21-79-10392, 2021-2023.
Конкурс 2021 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.
Аннотация проекта
Главная цель «Индустрии 5.0» — это возможность совместной работы человека и машины путем взаимодействия человеческого интеллекта и когнитивных вычислений для улучшения средств и повышения эффективности производства. Ожидается, что комбинированное, человеческое и компьютеризированное оборудование выведет производство на новый уровень скорости и совершенства. Взаимодействие умных машин и людей, должно привести к появлению нового поколения роботов и технологий, в котором возможности человеко-машинных коммуникаций значительно возрастут. В последние годы взаимодействие человека и робота было расширено и конечной целью является то, что связь между людьми и машинами должна стать похожа на коммуникацию человека с человеком. Согласно стратегии развития в рамках концепции «Индустрия 5.0», основным элементом которой, является непосредственное взаимодействие человек-робот для решения различных, в том числе уникальных (персонализированных) задач, требует анализа положения человека и частей его тела в динамике.
Предлагаемая НИР направлена на решение важной фундаментальной проблемы: распознавание объектов и интеллектуальный анализ действий человека по визуальной информации в автоматизированных системах обработки больших данных.
В системе HRC (Human-Robot Collaboration) операторы и роботы объединяются и сотрудничают для выполнения сложных задач в разнообразных сценариях, неоднородных и динамических условиях. Целью такого сотрудничества является: 1) обеспечение безопасности в совместном рабочем пространстве; 2) повышение эффективности производства. Для достижения этих целей роботы должны иметь возможность точно идентифицировать действий оператора и для обеспечения безопасного взаимодействия между человеком и роботом. Развитие данного направления показывает актуальность разработки систем, позволяющих осуществлять взаимодействие человека и робота в единой гибкой системе, и как следствие, организовать гибкие методы автоматизации и реконфигурацию производственных процессов на основе анализа потока видеоданных, полученных с датчиков различной природы, в том числе сенсоров вне видимого диапазона.
Одним из ведущих направлений анализа данных является развитие теории обработки цифровых многомерных сигналов, позволяющей решать задачу анализа сигналов в интеллектуальных системах видеонаблюдения без прямого участия человека на основе методов компьютерного зрения. Анализ выявил ограничения известных методов алгоритмов, повышающих вероятность обнаружения объектов наблюдения на визуальных данных низкого качества, связанные с необходимой априорной информации о видах искажений и невозможностью совместной обработки комплексированной информации с сенсоров различных спектральных диапазонов, что позволило создать обоснованные предпосылки к созданию новых методов и алгоритмов на основе когнитивных технологий для планирования действий многоцелевых робототехнических систем при взаимодействии с человеком и классификации объектов окружающего пространства по визуальным данным низкого качества.
Такие теоретические исследования позволят создать основу для разработки когнитивной системы при взаимодействии человека и робота, что приведет к улучшению эффективности и техники выполнения действий, особенно в тех случаях, где требуется точная моторика движений при управлении колоборативными комплексами, снизит уровень травматизма при попадании объектов в область рабочего инструмента, позволит вести подсчет выполняемых действий, подсчитать затраченную энергию, контролировать состояние здоровья во время выполнения действий.
Научная новизна предлагаемого проекта состоит в том, что решается задача распознавания объектов и действий на основе выделения признаков в виде положения объектов сцены, динамики движений (механистических представлений), температурных характеристик, изменений формы и цвета с целью повышения точности планирования действий многоцелевых робототехнических систем при взаимодействии с человеком и классификации объектов окружающего пространства в рамках концепции «Индустрия 5.0» на основе глубинного обучения в пространстве гиперкомплексных чисел (кватернионов и октонионов) по анализу визуальных данных с нескольких сенсоров, полученных в условиях плохой видимости и недостаточного освещения на промышленных объектах сложной конфигурации.
Планируемые задачи
Этап 1 (2021-2022):
1) Анализ литературных источников, систематизация информации и классификация методов интеллектуального анализа данных при обработке цифровых многомерных сигналов применительно к задаче коллаборативной робототехники.
2) Разработка математической модели и методов комплексирования видеоданных с различных сенсоров на основе пространств кватернионов и октонионов.
3) Разработка и исследование методов оценки качества видеоданных с использованием нейронных сетей глубокого обучения применительно к задаче взаимодействия робототехнических систем с человеком в условиях ухудшения визуального качества и потере участков изображений.
4) Разработка и исследование методов первичной обработки видеоданных с различных сенсоров с использованием нейронных сетей глубокого обучения для решения задачи повышения контрастности и детализации изображений.
5) Разработка и исследование методов первичной обработки видеоданных с различных сенсоров с использованием нейронных сетей глубокого обучения для решения задачи реконструкции и восстановления искаженных данных.
6) Разработка математической модели и анализ оптических свойств объектов с неламбертовыми поверхностями.
7) Разработка и исследование методов поиска и восстановления утраченных областей трёхмерных моделей, полученных системами технического зрения в робототехнических системах.
8) Разработка и исследование алгоритмов получения трехмерных моделей объектов на основе методов глубинного обучения.
Этап 2 (2022-2023):
1) Разработка и исследование метода сегментации видеоданных с использованием нейронных сетей глубокого обучения в пространстве кватернионов и октонионов на наборы объектов, фона, статических и динамических текстур.
2) Разработка системы технического зрения, использующая принципы дополненной реальности для идентификации объектов, находящихся в зоне непрямой видимости.
3) Разработка алгоритмов классификации объектов окружающего пространства по визуальным данным низкого качества с различных сенсоров.
4) Разработка критериев построения оптимальной траектории сканирующей системы на основе анализа оптических свойств поверхности сканируемых объектов.
5) Определение типов действий и получение базы данных с целью планирования реакции многоцелевых робототехнических систем при взаимодействии с человеком.
6) Разработка библиотеки команд, характеризующих определенные движения коллаборативного робототехнического комплекса на основе выбранных информативных признаков.
7) Разработка и исследование методов построения биомеханической трехмерной модели скелета человека для распознавания действий в коллаборативных многоцелевых робототехнических системах.
8) Разработка и исследование методов распознавания действий и сценариев поведения человека на основе применения глубинных нейросетевых архитектур в пространстве кватернионов и октонионов с описанием формата входных данных, слоев, функций активаций и функций потерь.
Этап 3 (2023-2024):
1) Разработка методов и алгоритмов распознавания специфических сценариев поведения человека с целью повышения безопасности при взаимодействии с робототехническими комплексами.
2) Разработка когнитивных алгоритмов адаптации действий многоцелевых робототехнических систем при взаимодействии с человеком с целью изменения поведения на более подходящее для текущей ситуации.
3) Разработка иерархической архитектуры управления роботизированными системами с обучением, позволяющей комбинировать различные целевые алгоритмы.
4) Разработка методик практического применения предложенных подходов при организации гибких производственных ячеек, при прямом, на основе классификации объектов окружающего пространства и взаимодействия с человеком по визуальным данным низкого качества, для различных практических приложений, включая, медицинскую и промышленную робототехнику.
5) Разработка и исследование комплекса программных решений создания энергоэкономичных систем управления механикой движения антропоморфных коллаборативных робототехнических комплексов.
Результаты этапа 1 (2021-2022)
Описание выполненных в отчетном периоде работ и полученных научных результатов:
Проведен анализ литературных источников, выполнена систематизация информации и классификация методов интеллектуального анализа данных при обработке цифровых многомерных сигналов применительно к задаче коллаборативной робототехники. Сравнительный анализ методов распознавания изображений показал, что в настоящее время не реализованы помехоустойчивые, пригодные для практического использования методы распознавания действий в видеопотоке вне коммерческих коллаборативных робототехнических комплексов. Современные методы должны удовлетворять следующим требованиям: инвариантность к проективным преобразованиям объекта и выполняемым действиям; вычислительная сложность должна быть минимально достижимой для применения решения задач в режиме реального времени. Кроме того, системы управления робототехническими комплексами на основе жестовых команд демонстрируют ограниченность в условиях наличия посторонних объектов в зоне наблюдения, слабом освещении, быстром выполнении жестовых команд.
В рамках решения задачи построения метода комплексирования данных сенсоров видимого диапазона света с данными, полученными с датчиков различной физической природы, использован поход, основанный на получении новой модели многоспектрального сигнала в пространстве гиперкомплексных чисел (кватернионы и октонионы). В случае представления цветного изображения каждый из трех мнимых слагаемых заменяется каналом цвета (спектральным каналом). Использована мультипликативная специфика конечномерных гиперкомплексных алгебр при умножении элементов при представлении преобразований 3-D пространства кватернионными вращениями.
Для объединения информации предложен метод для слияния разнородных данных, основанный на глубинной нейронной сети, которая состоит из трех частей: кодировщик, слияние и декодер. В качестве стратегии адаптивного объединения используется новый алгоритм объединения изображений видеопоследовательности видимого спектра и карт глубины на основе параметризованной модели логарифмической обработки изображений.
Разработаны методы оценки качества видеоданных с использованием нейронных сетей глубокого обучения применительно к задаче взаимодействия робототехнических систем с человеком в условиях ухудшения визуального качества и потере участков изображений. Входом метрики визуального качества служит динамическое изображение, трехмерный массив элементов растра, расположенных в узлах сетки кадров видеопоследовательности соответственно. Функция вычисления дескриптора представляет собой отображение из пространства блоков видеопоследовательности в признаковое пространство. Вычисление дескриптора производится таким образом, чтобы «похожим» блокам видеопоследовательности соответствовали близкие, в смысле эвклидова расстояния, точки признакового пространства. В качестве функции потерь в предложенном методе используется одиночная дивергенция между совместной вероятностью пространстве дескрипторов и совместной вероятностью в пространстве низкой размерности. Минимизация функции потерь производится методом градиентного спуска с учетом момента первого порядка.
Для решения задачи повышения контраста и детализации видеоданных при плохих условиях освещения предлагается метод объединении локальной и глобальной обработки в частотной области. Предлагается использовать метод усиления и модификации частот в спектральной области на каждом непересекающемся блоке в скользящем окне с разными размерами. Данный подход заключается в поиске похожих блоков с различными масштабами и дальнейшим нелинейным изменением коэффициентов Фурье в пространстве 3D. Комбинирование полученных изображений осуществляется на основе выбора весов с помощью глубинного обучения.
Разработан метод первичной обработки видеоданных с различных сенсоров с использованием нейронных сетей глубокого обучения для решения задачи реконструкции и восстановления искаженных данных. Подход основан на модифицированном алгоритме поиска похожих блоков, использующем концепцию кватернионов. Предлагаемый метод позволяет корректно восстанавливать границы объектов на изображении карты глубины при восстановлении трехмерных сцен, что способствует повышению точности планирования траектории движения исполнительных механизмов робототехнических и мехатронных систем. Высокая эффективность предложенного метода обусловлена использованием концепции кватернионов для вычисления функции приоритета, а также применением предварительно обученной нейронной сети для формирования наиболее похожего блока. Данный метод восстановления трехмерных сцен может быть использован как для реконструкции RGB-изображений, так и карты глубины.
Разработана математическая модель оптических свойств объектов с неламбертовыми поверхностями. С целью моделирования сложных оптических свойств поверхностей сцены входное изображение рассматривается как сумма ламбертовой и зеркальной составляющих. Для этого вводится уравнение собственного разложения, основанное на уравнении рендеринга, в котором каждый пиксель входного изображения представляется как интеграл произведения функций падающего освещения и отражательной способности поверхности. В общем случае отражательная способность поверхности является четырехмерной функцией, определяемой как двунаправленная функция распределения отражательной способности (BRDF). При моделировании оптических свойств поверхностей используется u-net подобная сеть для получения дескрипторного описания, адекватно моделирующая оптические свойства сканируемой поверхности.
Разработаны методы и алгоритмы реконструкции видеоданных с целью поиска и восстановления утраченных областей пикселей, полученных системами технического зрения в робототехнических системах. Для реконструкции пикселей используется полносверточная сеть кодер-декодер обучения по прецедентам. Задача реконструкции изображений рассматривается как задача регрессии, которая осуществляет с помощью трехмерной сверточной нейронной сети, имеющей две части: кодирующую и декодирующую. Для решения задачи реконструкции изображений предлагается использовать полносверночную глубокую нейронную сеть U-образной формы с прямыми связями.
Для построения 3-D сцены предлагается осуществлять выбор точки фиксации кадра, с минимизацией количества утраченных элементов, с использованием нейросетевого алгоритма определения следующего лучшего вида, учитывающего оптические свойства поверхности на основе анализа изображения. С целью моделирования сложных оптических свойств поверхностей сцены входное изображение рассматривается как сумма ламбертовой и зеркальной составляющих.
Разработаны алгоритмы получения трехмерных моделей объектов на основе методов глубинного обучения. Предлагаемый метод трехмерного сканирования сцены с неламбертовыми эффектами освещения позволяет получать трехмерные модели сцены в виде облака точек.
Перечень публикаций за отчетный период по результатам проекта:
1) Shrayfel I., Mikhailov A., Semenishchev E., Marchuk V., Mikhailova I., Malcev I. A method for reducing the noise component for smooth monotonic signals and an algorithm for its application for prediction problems and detection of local stationary regions in images. Proc. SPIE, Target and Background Signatures VII, Volume 11865, Paper number 118650N, 2021; https://doi.org/10.1117/12.2600694
2) Semenishchev E., Voronin V., Alepko A., Zelensky A., Agaian S. Development of methods for parallel processing of series of images obtained by a machine vision system in various electromagnetic ranges. Proc. SPIE, Optical Instrument Science, Technology, and Applications II, Volume 11876, Paper number 118760P, 2021; https://doi.org/10.1117/12.2600693
3) Zelensky A., Semenishchev E., Alepko A., Abdullin T., Ilyukhin Y., Voronin V. Using neuro-accelerators on FPGAs in collaborative robotics tasks. Proc. SPIE, Optical Instrument Science, Technology, and Applications II, Volume 11876, Paper number 118760O, 2021; https://doi.org/10.1117/12.2600582
4) Semenishchev E., Voronin V., Zelensky A., Alepko A., Agaian S. Improving the accuracy of combining pairs of thermal images based on the analysis of visual information. Proc. SPIE, Electro-Optical and Infrared Systems: Technology and Applications XVIII and Electro-Optical Remote Sensing XV, Volume 11866, Paper number 118660C, 2021; https://doi.org/10.1117/12.2600585
5) Zelenskii A., Gapon N., Voronin V., Semenishchev E., Khamidullin I., Cen Y. Robot navigation using modified SLAM procedure based on depth image reconstruction. Proc. SPIE, Artificial Intelligence and Machine Learning in Defense Applications III, Volume 11870, Paper number 118700H, 2021; https://doi.org/10.1117/12.2600736
6) Зеленский А.А., Гапон Н.В., Жданова М.М., Воронин В.В., Илюхин Ю.В. Метод восстановления карты глубины в задачах управления роботами и мехатронными системами. Мехатроника, автоматизация, управление. 2022;23(2):104-112. https://doi.org/10.17587/mau.23.104-112
7) Zelensky A., Voronin V., Gapon N., Semenishchev E., Egipko V., Khamidullin I. 3D reconstruction for SLAM using multisensor fusion and block-based inpainting. Proc. SPIE Photonics Europe 12138, Optics, Photonics and Digital Technologies for Imaging Applications VII, 121380X (17 May 2022); https://doi.org/10.1117/12.2625905
8) Voronin V., Frantc V., Semenishchev E., Zhdanova M., Zelensky A., Agaian S. 3D shape object reconstruction with non-Lambertian surface from multiple views based on deep learning. Proc. SPIE 12100, Multimodal Image Exploitation and Learning 2022, 121000S (27 May 2022); https://doi.org/10.1117/12.2623130
9) Zelensky A., Voronin V., Zhdanova M., Gapon N., Tokareva O., Semenishchev E. Multi-level deep learning depth and color fusion for action recognition. Proc. SPIE Photonics Europe 12138, Optics, Photonics and Digital Technologies for Imaging Applications VII, 121380Y (17 May 2022); https://doi.org/10.1117/12.2626000
10) Voronin V., Zelensky A., Zhdanova M., Semenishchev E., Frantc V., Siryakov A. Quality assessment with deep learning for imaging applications. Proc. SPIE 12100, Multimodal Image Exploitation and Learning 2022, 121000P (27 May 2022); https://doi.org/10.1117/12.2619801
11) Зеленский А.А., Абдулин Т.Х., Жданова М.М., Воронин В.В., Грибков А.А. Проблема обеспечения производительности доверенных систем управления с глубинным обучением. Advanced Engineering Research. 2022; 22(1), стр. 57-66. https://doi.org/10.23947/2687-1653-2022-22-1-57-66
Результаты этапа 2 (2022-2023)
Описание выполненных в отчетном периоде работ и полученных научных результатов:
Разработан метод разделения полученного объединённого видео контента на наборы статических, динамических текстур и фона, с целью поиска и идентификации объектов и человека по анализу динамической составляющей видеопотока на основе теории графов и глубинного обучения. Для реализации поиска границ и базовых точек разработан метод, основанный на последовательном анализе каждого из изображений сцены и построения объединённой границы для каждого из объектов.
На основе разработанных на первом этапе методов и алгоритмов реконструкции видеоданных с целью поиска и восстановления утраченных областей пикселей решена задача разработки метода, использующего принципы дополненной реальности для идентификации объектов, находящихся в зоне непрямой видимости. Для реконструкции пикселей используется полносверточная сеть кодер-декодер обучения по прецедентам. Задача реконструкции изображений рассматривается как задача регрессии, которая осуществляться с помощью трехмерной сверточной нейронной сети, имеющей две части: кодирующую и декодирующую. Для решения задачи реконструкции используется полносверночная глубокая нейронная сеть U-образной формы с прямыми связями.
Метод классификации объектов, находящихся в кадре, основан на комбинации линейной машины опорных векторов и сверточных нейронных сетей. Разработан алгоритм для привязки систем координат CAD модели и трёхмерных структур заготовки, в том числе с неламбертовыми поверхностями, который основан на техническом зрении и глубинном обучении. Основной функцией данного подхода является адаптация процесса для всех обрабатываемых элементов деталей, то есть принятие решения о необходимости доработки по результатам анализа размеров 3D CAD модели изделия и определения конфигурации робототехнической ячейки. Разработана математическая модель системы сканер-объект для получения трехмерных моделей объектов с неламбертовыми поверхностями, включая критерии построения оптимальной траектории сканирующей системы на основе анализа оптических свойств поверхности сканируемого объекта. Разработан алгоритм определения и восстановления ошибок, возникающих при построении трёхмерных моделей на основе нейронной сети для получения трехмерной модели объектов с неламбертовыми поверхностями. Разработаны критерии построения оптимальной траектории сканирующей системы на основе анализа оптических свойств поверхности сканируемого объекта.
Для распознавания типов действий с целью планирования реакции многоцелевых робототехнических систем при взаимодействии с человеком разработан метод, основанный на глубинном обучении. Частотный спектр после фильтрации ядрами Габора в области 3D, вычисленный для видеопоследовательности эффективно описывает как сцену, так и информацию о движении. Применение текстурного дескриптора плотной разности микроблоков в трехмерном пространстве позволяет сохранить временные характеристики и обеспечит более информативное описание сцены и действий. Предлагается объединение изображений видеопоследовательности видимого спектра и карт глубины на основе параметризованной модели логарифмической обработки изображений (ЛОИ), которая заменяет линейную арифметику (сложение, вычитание и умножение), что более точно характеризует нелинейность компьютерной арифметики изображений. Модель ЛОИ удовлетворяет закону Вебера, а именно: интенсивность ощущения чего-либо прямо пропорциональна логарифму интенсивности раздражителя, и характеристикам насыщенности зрительной системы человека.
Метод построения биомеханической трехмерной модели скелета человека для распознавания действий в коллаборативных многоцелевых робототехнических системах основан на рекуррентной нейронной сети с построением карты внимания, что позволяет объединять промежуточные представления функций для изучения контекстной информации и улучшения окончательных прогнозов тепловой карты. Основная цель представленной нейронной сети – предсказание ключевых (суставных) точек скелета человека. Моделирование тепловых карт ключевых точек и частей тела позволяет получить дополнительную информацию и помогает определить ограничения тела. Обучение представленной сети будет выполнено с использованием обратного распространения ошибки и стохастического градиентного спуска. На основе разработанной нейронной сети сгенерирован скелет человеческого тела с 16 ключевыми точками суставов (правая щиколотка, правое колено, правое бедро, левое бедро, левое колено левая щиколотка, торс, шея, подбородок, макушка головы, правое запястье, правый локоть, правое плечо, левое запястье, левый локоть, левое плечо). Для каждого кадра видеопоследовательности строится скелет человека и выделяются координаты особых точек. Для анализа позы и распознавания действий человека использован набор геометрических признаков, который информативно описывает расстояния между суставами тела человека. Геометрические признаки позы человеческого тела содержат информацию о расстоянии между определенными суставами, которая может характеризовать особенности представленной позы. На заключительном этапе дескрипторы подаются в классификатор для выполнения категоризации действий, выполняемых на видеопоследовательности. Данный этап можно характеризовать двумя подходами: объединение скелетного дескриптора и плотной разности микроблоков в единый вектор и его классификация, или классификация каждого из дескрипторов по отдельности с последующем объединением результатов, с присвоением весов каждому из них. Предлагается последовательно объединять дескрипторы в единый вектор признаков и произвести классификацию итогового дескриптора. Для классификации итогового дескриптора использована нейронная сеть.
По результатам проводимых научных исследований создан научно-технический задел в области цифровой обработки изображений и построения алгоритмов реализации методов обработки в системах автоматизированного управления и технического зрения, являющиеся неотъемлемыми элементами разрабатываемого комплекса. Разработка алгоритмов выявления особенностей поведения человека позволяет создать научно-технический задел для широкого круга практического применения, а также программные модули, которые могут быть использованы в медицине, строительстве, робототехнике, системах безопасности, социальных программах и др.
Перечень публикаций за отчетный период по результатам проекта:
1. Roman Sizyakin, Viacheslav Voronin, Aleksandr Zelensky, Aleksandra Pižurica, "Virtual restoration of paintings using adaptive adversarial neural network," J. Electron. Imaging 31(4), 043025 (2022), doi: 10.1117/1.JEI.31.4.043025
2. Zelensky A., Voronin V., Zhdanova M., Siryakov A., Egipko V., Urunov S., Semenishchev E. Video segmentation on static and dynamic textures using a quaternion framework. Proc. SPIE 12276, Artificial Intelligence and Machine Learning in Defense Applications IV, 122760M (28 October 2022); doi: 10.1117/12.2641697.
3. Voronin V., Zhdanova M., Khamidullin I., Tokareva O., Zelensky A., Semenishchev E. Block-based multi-scale haze image enhancement method for surveillance application. Proc. SPIE 12275, Counterterrorism, Crime Fighting, Forensics, and Surveillance Technologies VI, 122750K (28 October 2022); https://doi.org/10.1117/12.2641136.
4. Voronin V., Gapon N., Khamidullin I., Tokareva O., Zelensky A., Semenishchev E. A vision system using depth inpainting for virtual content reconstruction in Augmented Reality. Proc. SPIE 12275, Counterterrorism, Crime Fighting, Forensics, and Surveillance Technologies VI, 122750M (28 October 2022); https://doi.org/10.1117/12.2642007.
5. Voronin V., Zhdanova M., Gapon N., Alepko A., Zelensky A., Semenishchev E. Deep visible and thermal image fusion for enhancement visibility for surveillance application. Proc. SPIE 12271, Electro-optical and Infrared Systems: Technology and Applications XIX, 122710P (2 November 2022); doi: 10.1117/12.2641857.
6. Зеленский А.А., Абдулин Т.Х., Жданова М.М., Воронин В.В. Технология виртуального сопряжения в процессе имитационного моделирования сложнофункциональных модулей систем управления промышленных роботов и многокоординатных мехатронных систем. Известия Юго-Западного государственного университета. 2022; 26(1): 92-115. https://doi.org/10.21869/2223-1560-2022-26-1-92-115.
7. Voronin V., Zhdanova M., Gapon N., Semenishchev E., Zelensky A. Action recognition from thermal videos using skeleton information and 3D local binary dense micro-block difference Proceedings of SPIE, Multimodal Image Exploitation and Learning, 2023.
8. Gapon N., Voronin V., Sizyakin R., Zhdanova M., Semenishchev E., Zelensky A. Defect detection and removal for depth map quality enhancement in manufacturing with deep learning Proceedings of SPIE, Dimensional Optical Metrology and Inspection for Practical Applications XII, 2023.
9. Voronin V., Tokareva O., Gapon N., Naumov I., Zelensky A., Semenishchev E. Image haze removal using block-based multi-scale enhancement method Proceedings of SPIE, Multimodal Image Exploitation and Learning, 2023.
10. Egipko V., Voronin V., Gapon N., Zhdanova M., Semenishchev E., Zelensky A. Real-time robotic hand control using human gesture recognition Proceedings of SPIE, Real-Time Image Processing and Deep Learning, 2023.
11. Voronin V., Gapon N., Naumov I., Zelensky A., Semenishchev E. Scanning trajectory optimization for industrial robot based on the scanned objects surface optical properties Proceedings of SPIE, Dimensional Optical Metrology and Inspection for Practical Applications XII, 2023.
Результаты этапа 3 (2023-2024)
Описание выполненных в отчетном периоде работ и полученных научных результатов:
Разработаны методы и алгоритмы распознавания специфических сценариев поведения человека с целью повышения безопасности при взаимодействии с робототехническими комплексами. Проведены исследования по классификации сценариев поведения человека в том числе: определение зон пересечения с исполнительными механизмами роботов, определение посторонних предметов. Разработан алгоритм комплексирования мультимодальных изображений на основе параметризованной модели логарифмической обработки изображений и глубинных нейронных сетей. Предложенная реализация позволяет минимизировать влияние внешних фактор на качество видео контента: плохое освещение, потеря информации при передаче данных, шум и др.
Метод распознавания действий, основанный на комбинированном дескрипторе описания действий человека на сложно структурированных видеопоследовательностях и динамическом фоне, позволяет обеспечивать отслеживание множественных гипотез для различных сценариев распознавания жестов при взаимодействии человека и робота. Глобальный дескриптор для описания действий человека основан на бинарной разности между микроблоками, обеспечивающий инвариантность признаков распознавания по отношению к масштабным и яркостным преобразованиям полутоновых изображений, кроме того, бинарные вычисления позволят значительно снизить вычислительные затраты.
Метод планирования действий многоцелевых робототехнических систем при взаимодействии с человеком основан на основе теории графов с анализом последовательности действий и операций, выполняемых индивидом в совокупности с данными, получаемыми об изменении показателей его активности, температуры, положении и находящихся рядом с ним объектах. Разработана иерархическая архитектура управления роботизированными системами с обучением, позволяющей комбинировать различные целевые алгоритмы. Предлагается новый подход адаптации весов для функции потерь. С этой целью вводится коэффициент пропорциональности, который используется для выравнивания порядка потерь с помощью вычисления коэффициентов аппроксимации для полинома первого порядка, полученного методом наименьших квадратов. Вводится коэффициент наклона аппроксимирующей кривой, который позволяет оценить трендовую динамику функции потерь. В зависимости от значения этой кривой корректируются веса в функции потери, что позволяет достичь компромисса между различными целевыми задачами.
Проведены исследования разработанного алгоритма по возможностям реализации, адаптации и рекомендаций использования этапов обработки. Рассмотрена возможность реализации алгоритма без использования данных о глубине, в таком случае на вход подается только информация от датчика видимого спектра и пропускается второй этап объединения данных. В некоторых случаях нецелесообразно использовать каждый этап представленного алгоритма, так как необходимо найти баланс между вычислительными ресурсами, временными затратами и качеством классификации. Данная особенность позволяет обеспечить универсальность разработанному алгоритму, поскольку разнообразность и сложность задач распознавания, специфичность особенностей, выполняемых действий, не позволяет реализовать один универсальный подход к их решению.
Разработан подход для построения системы распознавания и сопровождения объектов, который объединяет в себе совокупность различных методик анализа визуальной информации, относящихся к различным классам. Разработан новый алгоритм улучшения визуального качества изображений для систем промышленного контроля, основанный на многомасштабной обработке изображений на основе карты внимания. Предлагаемый метод основан на частотной коррекции коэффициентов набора изображений с последующим их объединением на основе пирамиды Лапласа. Разработан алгоритм распознавания объектов на основе глубокого обучения в режиме реального времени в дополненной реальности. Предлагается новая архитектура нейронной сети для эффективной семантической сегментации изображений в задаче построения дополненной реальности.
Предложен комплекс программных решений создания энергоэкономичных систем управления механикой движения антропоморфных коллаборативных робототехнических комплексов в модуле виртуального сопряжения для имитационного моделирования управления промышленным роботом в среде ROBOGuid. Система управления мехатронным объектом представляет собой интерфейс взаимодействия человека и робота, который принимает команды от оператора в виде жестов. Система использует элементы технического зрения для бесконтактного получения входных данных от пользователя. Разрабатываемый алгоритм управления подразумевает два режима работы: командный и манипулятивный режимы. Командный режим осуществляет выполнения базовых команд, которые не связаны с конкретными движениями манипулятора, но на которых строится вся структура управления, каждой жестовой команде соответствует определенная функциональная команда робота. При манипулятивном режиме функции рабочего органа робота, схожи с функциями руки человека.
По результатам проводимых научных исследований создан научно-технический задел в области цифровой обработки изображений и построения алгоритмов реализации методов обработки в системах автоматизированного управления и технического зрения, являющиеся неотъемлемыми элементами разрабатываемого комплекса. Разработка алгоритмов выявления особенностей поведения человека позволяет создать научно-технический задел для широкого круга практического применения, а также программные модули, которые могут быть использованы в медицине, строительстве, робототехнике, системах безопасности, социальных программах и др.
Перечень публикаций за отчетный период по результатам проекта:
1. M. Zhdanova, V. Voronin, O. Tokareva, E. Semenishchev, A. Zelensky, N. Gapon. 3D dense micro-block difference descriptor for gastrointestinal disease detection Proceedings of SPIE, Proc. SPIE 12770, Optics in Health Care and Biomedical Optics XIII, 127703S https://doi.org/10.1117/12.2691162 (2023 г.)
2. V. Voronin, M. Zhdanova, O. Tokareva, E. Semenishchev, A. Zelensky, N. Gapon. A multimodal visual guided robot collaborative system based on the classification of multi-class human motion Proceedings of SPIE, Proc. SPIE 12766, Advanced Optical Imaging Technologies VI, 1276614 https://doi.org/10.1117/12.2691154 (2023 г.)
3. V. Voronin, N. Gapon, M. Zhdanova, E. Semenishchev, A. Zelensky. Attention map-guided multi-scale haze removal method for industrial inspection system Proceedings of SPIE, Proc. SPIE 12769, Optical Metrology and Inspection for Industrial Applications X, 127691R https://doi.org/10.1117/12.2690890 (2023 г.)
4. V. Voronin, E. Semenishchev, A. Zelensky, M. Zhdanova, N. Gapon. Real-time deep learning semantic segmentation for 3-D augmented reality Proceedings of SPIE, SPIE 12772, Real-time Photonic Measurements, Data Management, and Processing VII, 127720L https://doi.org/10.1117/12.2691152 (2023 г.)
5. Semenishchev, M. Zdanova, A. Alepko, S. Urunov, V. Voronin. Algorithm for detecting objects and specialized tags in low light conditions and low camera resolution Proceedings of SPIE, SPIE Photonics Europe, Real-time Processing of Image, Depth and Video Information 2024 (2024 г.)
6. N. Gapon, A. Puzerenkj, V. Voronin, M. Zhdanova, E. Semenishchev. Image Inpainting Based on Adaptive Generative Models Proceedings of SPIE, SPIE Defense + Commercial Sensing, Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications VI (2024 г.)
7. V. Egipko, M. Zhdanova, N. Gapon, V. Voronin, E. Semenishchev. Real-Time Deep Learning-Based Object Recognition in Augmented Reality Proceedings of SPIE, The SPIE Photonics Europe, Real-time Processing of Image, Depth and Video Information 2024 (2024 г.)
8. V. Voronin, N. Gapon, M. Zhdanova, E. Semenishchev. Thermal Image Enhancement by Artificial Multiscale-Exposure Image Fusion Proceedings of SPIE, SPIE Defense + Commercial Sensing, Multimodal Image Exploitation and Learning 2024 (2024 г.)