Методи класифікації та сегментації зображень на основі змінюваних згорткових мереж
Переглянути
Дата
2023Автор
Хабарлак, Костянтин Сергійович
Khabarlak, K. S.
Metadata
Показати повний опис матеріалуКороткий опис(реферат)
Згорткові нейронні мережі показують високу якість у розв’язанні задач
комп’ютерного зору. Суттєва кількість досліджень присвячена розробці ней-
ронних мереж для їх виконання на потужних серверах, однак в ряді випадків
їх використання ускладнюється з таких причин: коли інтернет з’єднання є не-
стабільним або відсутнє взагалі, коли користувач не погоджується передавати
приватні дані із свого пристрою, коли загальний об’єм даних надто великий
для передачі з усіх пристроїв на сервер тощо. У разі необхідності обробки
зображень на мобільному або малопотужному пристрої виникає цілий ряд
проблем:
— такі пристрої мають обмежені обчислювальні ресурси, і мережа на них
може виконуватись за неприпустимо довгий для цільової задачі час. А отже,
архітектури глибоких згорткових нейронних мереж із великою кількістю па-
раметрів, що показують високу якість на серверах, мають зазнати змін для
застосування на мобільних пристроях;
— робота від батареї передбачає мінімізацію кількості обчислень. Через
це великий інтерес наукової спільноти спрямований на розробку архітектур
мобільних нейронних мереж, що враховують характеристики пристроїв на
етапі проектування. Проблемою таких нейронних мереж є необхідність оста-
точного визначення їх конфігурації до початку процедури навчання, що ви-3
магає повтору довгої процедури навчання після кожної корекції конфігурації
мережі;
— якщо застосунок необхідно встановити на пристрій Інтернету речей,
це додає ще одну категорію пристроїв із меншою обчислювальною потужні-
стю і ставить розробника нейронної мережі перед вибором: або навчити одну
мережу, яка буде достатньо швидкою для всіх пристроїв, але потенційно ма-
тиме невисоку якість виконання; або ж навчати окрему мережу для кожної
категорії пристроїв, що, враховуючи довгий час навчання глибоких нейрон-
них мереж, значно збільшить витрати на розробку системи.
Метою роботи є прискорення навчання і виконання згорткових нейрон-
них мереж для задач класифікації та сегментації зображень без втрат (або з
якомога меншими втратами) якості розпізнавання за рахунок розробки змі-
нюваних нейронних мереж і методів їх навчання. Під змінюваною нейрон-
ною мережею будемо розуміти згорткову мережу із змінною складністю.
Наукова новизна одержаних результатів:
— вперше для задач класифікації та сегментації зображень розроблені
змінювані згорткові нейронні мережі та метод їх навчання, які, на відміну від
існуючих, дозволяють обирати одну з конфігурацій із різними обчислюваль-
ними складностями під час або після навчання. На наборі даних ImageNet
розроблена мережа за ефективністю (в сенсі співвідношення якість розпізна-
вання/час виконання) зайняла п’яте місце серед 17 провідних архітектур ме-
реж, а на CamVid прискорення виконання склало понад 6 % без втрат якості;
— вперше розроблено метод Λ-шаблонів прискорення оптимізаційного
мета-навчання, який, на відміну від існуючих, дозволяє за рахунок зміни
складності нейронної мережі зменшити кількість обчислень під час
навчання, та таким чином пришвидшити адаптацію мережі до нових класів
за малою кількістю прикладів на 7,5 % при втратах якості менше 0,4 %.
В першому розділі розглянуто проблеми впровадження нейронних ме-4
реж в наступних застосунках: пошук та ідентифікація облич, розпізнавання
емоцій, антиспуфінг, ідентифікація стану водія, анімація персонажів, пошук
ключових точок. Проведено порівняльний аналіз архітектур нейронних ме-
реж:
— для задач класифікації: AlexNet, VGG, ResNet, MobileNetV2, SENet,
MnasNet, MobileNetV3;
— для задач сегментації: U-Net, Hourglass, HRNet, CU-Net.
Для кожної мережі наведено її особливості, оцінено обчислювальну скла-
дність (за кількістю операцій множення та додавання) та розраховано кіль-
кість параметрів; проаналізовано переваги та недоліки.
За проведеним аналізом застосунків мобільних нейронних мереж зазна-
чено важливість зменшення часу їх виконання, не втрачаючи якості розпізна-
вання зображень, та зміни конфігурацій нейронних мереж під час їх розгор-
тання на пристроях із різними обчислювальними можливостями. Розглянуто
існуючі методи прискорення навчання та виконання нейронних мереж.
Також проаналізовано методи мета-навчання, що дозволяють навчити ме-
режу лише за кількома прикладами на клас. MAML є ключовим методом
оптимізаційного мета-навчання та є основою великої кількості подальших
підходів. Виявлено, що недоліком таких методів є повільна процедура ада-
птації мережі до нових класів.
Для розробки змінюваних згорткових нейронних мереж і методів їх на-
вчання обґрунтовано вибір в якості базових:
— мережі MobileNetV2, котра широко використовується для вирішення
багатьох практичних проблем комп’ютерного зору, зокрема задачі кла-
сифікації;
— мережі U-Net, яка є основою багатьох нейронних мереж, розроблених
для задач сегментації;
— мережі CNN4, яка є основою методів оптимізаційного навчання за кіль-5
кома прикладами, базовим з яких є метод MAML.
В другому розділі для задач класифікації розроблено змінювану згортко-
ву нейронну мережу, що дозволяє вибирати архітектуру відповідно до обчи-
слювальних можливостей пристроїв. Розроблено метод навчання такої мере-
жі.
Ключовим структурним компонентом змінюваної згорткової мережі (ме-
режі PTA) є згортковий блок PTA, що складається з двох гілок: легкої та важ-
кої. Перша є вдвічі швидшою за другу. Виконувати можна кожну з них окремо
або обидві одночасно. Розроблений метод навчання дозволяє обирати конфі-
гурацію такого блоку не лише під час навчання, але й на етапі її виконання.
Роботу розробленої нейронної мережі та методу її навчання перевірено
на наборі даних для задачі класифікації ImageNet. Час виконання мережі у
порівнянні з оригінальною MobileNetV2 зменшено на 13,74 % при падінні
точності (топ 1) на 3,68 %.
Також проведено експерименти на наборі даних антиспуфінгу (задача
класифікації) CelebA-Spoof, де мережа PTA перевершила оригінальну за
всіма метриками та дозволила зменшити час виконання до 20 %. Зокрема,
найкращі отримані метрики (в дужках – результати MobileNetV2): точність
97,85 % (проти 96,74 %), частоти помилок: BPCER 1,98 % (проти 4,18 %),
APCER 0,70 % (проти 1,07 %), за ACER 2,13 % (проти 2,63 %). Загальний
час навчання PTA моделі зменшено на 14,34 % у порівнянні із MobileNetV2.
В третьому розділі представлено нову мобільну систему контролю до-
ступу із RFID мітками і підсистемою антиспуфінгу, розробленою на основі
змінюваних згорткових мереж, яка дозволяє зменшити навантаження на сер-
вер та підвищити захищеність самої системи контролю доступу. Запропоно-
вана система контролю доступу включає:
— адміністративну панель для налаштування політик доступу до підпри-
ємства;6
— систему моніторингу з фільтрами за часом доступу, користувачем та
контрольованими дверми з RFID-мітками;
— мобільний додаток, що здійснює пошук облич та здійснює перевірку
зображення на спуфінг. Додаток створений для реєстрації і відмикання
контрольованих дверей;
— серверну програму, яка оброблює, зберігає та надає дані для додатків
на ПК і смартфоні.
Впровадження розробленої системи дозволяє знизити вартість систем
контролю доступу за рахунок заміни стаціонарного RFID-сканера на дешеву
мітку, а також відмовитися від встановлення камер відеоспостереження,
оскільки користувач робить фотографію на свій мобільний телефон, коли
відмикає двері, а його фотографія перевіряється системою антиспуфінгу.
В четвертому розділі розроблені блоки PTA інтегровано в мережу U-Net,
яка використовується для задачі сегментації зображень. Навчання змінюваної
згорткової мережі проведено на наборі даних CamVid. Мережу розгорнуто на
крайовому, мобільних, персональних комп’ютерах та графічному процесорі.
Показано, що остаточну навчену мережу PTA можна перемикати під час ви-
конання між шістьма конфігураціями, що відрізняються часом виконання та
якістю. Важливо, що всі конфігурації мають вищу якість, ніж оригінальна
мережа U-Net (із Dice score = 0,8583). За усіма пристроями (в середньому) при-
скорення виконання мережі склало 6,09 % з Dice score = 0,8647.
В п’ятому розділі описано розроблений метод Λ-шаблонів прискорення
оптимізаційного мета-навчання, який, на відміну від існуючих, дозволяє змі-
нювати кількість обчислень у методі зворотного розповсюдження помилки,
за рахунок чого зменшено час адаптації мережі до нових класів за малою
кількістю прикладів. Експериментально виявлено 2 найкращих шаблони, які
дозволили зменшити час адаптації на 7,51 % (падіння точності: 0,33 %) або
на 14,96 % (падіння точності: 1,25 %).7
Метод Λ-шаблонів продемонстрував підвищення точності класифікації у
випадку однокрокового навчання за кількома прикладами. Найбільше покра-
щення отримано в конфігурації по 5 прикладів на 5 класів, де, наприклад,
метод MAML за один крок адаптації демонстрував точність 20,4 %, що є по-
казником близьким до випадкового вгадування, а метод Λ-шаблонів – 54,8 %.
Практичне значення одержаних результатів:
— розроблену змінювану згорткову нейронну мережу можна використо-
вувати для розв’язання задач класифікації та сегментації будь-яких зобра-
жень, як на серверах, комп’ютерах, так і на портативних, мобільних пристро-
ях;
— розроблений мобільний застосунок, який опрацьовує вхідне відео з
камери в реальному часі прямо на мобільному пристрої, гнучко налаштову-
ється для роботи із будь-якими задачами класифікації та сегментації зобра-
жень та може бути використаний, зокрема, на транспортних підприємствах
для відстеження стану водія під час керування в умовах відсутнього або по-
вільного доступу до мережі Інтернет;
— розроблений застосунок із методом Λ-шаблонів прискорення
мета-навчання дозволяє пришвидшити навчання нейронної мережі для
задачі класифікації у випадках, коли навчальний набір є малим через
складність або коштовність збору такого набору даних, наприклад, в
системах відстеження рухів та анімації обличчя;
— розроблену мобільну систему контролю доступу можна використову-
вати на виробничих підприємствах задля забезпечення безпеки доступу до
технологічного обладнання і дверей. За рахунок використання RFID міток та
вбудованої підсистеми антиспуфінгу розроблена система є досить дешевою
у впровадженні порівняно із аналогами. Convolutional neural networks show high quality in solving computer vision
tasks. A significant amount of research is devoted to the development of neural
networks, that target inference on powerful servers. However, in a number of cases
their use is complicated for the following reasons: when the Internet connection is
unstable or absent at all, when the user does not agree to share private data from his
device, when the data volume is too large to be transferred from all devices to the
server, etc. If it is necessary to process images on a mobile or low-power device, a
number of problems arise:
— such devices have limited computing resources, and the network inference
might be unacceptably long for the target task. Therefore, deep convolutional
neural network architectures with many parameters that show high quality on
servers need to be modified for mobile applications;
— inference when running on battery implies that the number of computations
should be minimized. Because of this, great interest of the scientific community
is devoted to the development of mobile neural network architectures that take
into account the mobile device limitations at the design stage. Such architectures
require the network configuration to be finalized before the start of the training
procedure, as a result long training procedure should be repeated after each network
architecture adjustment, which is a problem;
— if the application is expected to be installed on an IoT device, this adds10
another category of devices with less computing power and presents the neural
network developer with a choice: either to train one network that will be fast
enough for all devices, but potentially have poor performance; or to train a separate
network for each category of devices, which, given the long training time of deep
neural networks, will significantly increase the cost of development of the system.
The purpose of the work is to accelerate convolutional neural network
training and inference for the tasks of image classification and segmentation
without recognition quality loss (or with as little loss as possible) by developing
changeable neural networks and their training methods. By changeable neural
network we mean a convolutional network with changeable complexity.
Scientific novelty of the obtained results:
— for the first time, the changeable convolutional neural network and its
training method were developed for the tasks of classification and segmentation.
In contrast to the existing ones, changeable neural networks enable configuration
selection among the ones with different computational complexities during or
after training. On the ImageNet dataset the developed neural network in terms
of efficiency (in the sense of recognition quality/execution time ratio) took fifth
place among the 17 considered state-of-the-art neural network architectures on
the ImageNet dataset. On the CamVid dataset the speed up is above 6 % without
quality loss;
— for the first time, the Λ-patterns method of optimization meta-learning
acceleration was developed, which, unlike existing methods, allows to change
neural network complexity during training and, consequently, speed up the neural
network few-shot adaptation by 7.5 % with the quality loss below 0.4 %.
In the first chapter the neural network implementation problems are
considered in the following applications: face search and recognition, emotion
recognition, anti-spoofing, driver state tracking, character animation, facial
landmark detection. A comparative analysis of neural network architectures was11
carried out for the tasks of:
— classification: AlexNet, VGG, ResNet, MobileNetV2, SENet, MnasNet,
MobileNetV3;
— segmentation: U-Net, Hourglass, HRNet, CU-Net.
For each network, its features are described, computational complexity is
estimated (by the number of multiply-add operations), and the number of
parameters is calculated; advantages and disadvantages are analyzed.
Based on the analysis of mobile neural network applications, importance of
neural network inference time reduction without losing image recognition quality,
and of ability to change the neural network configuration when it is deployed
on devices with different computing capabilities were noted. Existing methods of
neural network training and inference were considered.
Also, meta-learning methods were analyzed, that enable few-shot neural
network training. MAML is the key optimization meta-learning method, it serves
as a base for many further approaches. It was discovered, that disadvantage of
such methods is slow neural network adaptation to the new classes.
For the development of changeable convolutional neural networks and their
training methods, the selection as basic architectures is substantiated of:
— the MobileNetV2 network, which is widely used to solve many practical
problems of computer vision, in particular, classification problems;
— the U-Net network, which is the basis of many neural networks developed
for segmentation tasks;
— the CNN4 network, which serves as a foundation for optimization few-shot
learning methods with MAML being the base method.
In the second chapter, the changeable convolutional neural network is
developed for the classification tasks, which allows choosing the architecture
according to the computing capabilities of the devices. A method of training such
a network has been developed.12
The key structural component of the changeable convolutional network (PTA
network) is the PTA convolutional block, which consists of two branches: light
and heavy. The first is twice as fast as the second. It is possible to infer each of
them exclusively or both at the same time. The developed training method enabled
the configuration selection of the block not only during training, but also during
inference.
The evaluation of the developed neural network and its training method was
performed on the ImageNet image classification dataset. Inference time of the
network compared to the original MobileNetV2 is reduced by 13.74 % for the
accuracy (top 1) loss of 3.68 %.
Experiments were also performed on the CelebA-Spoof anti-spoofing dataset
(classification task), where the PTA network outperformed the original one in
all metrics and reduced the inference time by up to 20 %. In particular, the best
obtained metrics (MobileNetV2 results are shown in brackets): accuracy 97.85 %
(versus 96.74 %), error rates: BPCER 1.98 % (versus 4.18 %) , APCER 0.70 %
(versus 1.07 %), for ACER 2.13 % (versus 2.63 %). The total training time of the
PTA model is reduced by 14.34 % compared to MobileNetV2.
The third chapter presents a new mobile access control system with RFID
tags and a built-in anti-spoofing subsystem developed based on the changeable
convolutional network, which allows to reduce the server load and to increase
access control system security. The proposed access control system includes:
— administrative panel for configuring enterprise access policies;
— monitoring system with filters by access time, user and controlled doors with
RFID tags;
— mobile application that performs face search and anti-spoofing check. The
application is created for the controlled door registration and unlocking;
— a server program that processes, stores and provides data for applications on
PCs and smartphones.13
The implementation of the developed system makes it possible to reduce the
cost of access control systems by replacing the stationary RFID scanner with a
cheap tag, as well as by avoiding the installation of video surveillance cameras,
since the user takes a photo on his mobile phone when he unlocks the door, and
his photo is checked by the anti-spoofing system.
In the fourth chapter, the developed PTA blocks are integrated into the
U-Net network, which is used for the image segmentation task. The training
of the modified convolutional network was performed on the CamVid dataset.
The network is deployed on edge, mobile, personal computers and graphical
processors. It is shown that the final trained PTA network can be switched at
runtime between six configurations differing in inference time and quality.
Importantly, all configurations are of higher quality than the original U-Net (with
Dice score = 0.8583). Across all devices (on average), the network speedup was
6.09 % with Dice score = 0.8647.
In the fifth chapter, the developed method of Λ-patterns for accelerating
optimization meta-learning is described, which, unlike the existing ones, allows
changing the number of calculations in the backpropagation method, which
allows to decrease few-shot learning adaptation time. The 2 best patterns were
experimentally identified, which allowed to reduce few-shot adaptation time by
7.51 % (accuracy drop: 0.33 %) or by 14.96 % (accuracy drop: 1.25 %).
The Λ-patterns method demonstrated improved classification accuracy in the
case of few-shot training with a single adaptation step. The greatest improvement
was obtained in the 5-shot 5-way configuration, where, for example, the MAML
method for single-step adaptation showed an accuracy of 20.4 %, which is a value
close to random guessing, while Λ-patterns achieved an accuracy of 54.8 %.
Practical significance of the obtained results:
— the developed changeable convolutional neural network can be used to
solve tasks of image classification and segmentation, both on servers, computers,and on portable, mobile devices;
— the developed mobile application with real-time camera video processing
directly on the mobile device, can be flexibly configured to work with any image
classification and segmentation task. It can be used, in particular, in transport
enterprises for real-time driver status tracking in conditions of no or slow access
to the Internet;
— the developed application with Λ-patterns meta-learning acceleration
method allows to speed up neural network training for the classification problem
in cases where the training set is small due to high cost or complexity of dataset
collection, for example, in motion tracking and face reenactment systems;
— the developed mobile access control system can be used in manufacturing
enterprises to ensure technological equipment and doors access safety. Thanks to
the use of RFID tags and a built-in anti-spoofing subsystem, it is quite cheap to
implement the developed system compared to alternatives.