Методи класифікації та сегментації зображень на основі змінюваних згорткових мереж

Хабарлак, Костянтин Сергійович; Khabarlak, K. S.

Переглянути

Хабарлак К.С. текст дисертації.pdf (9.009Mb)

Дата

2023

Автор

Хабарлак, Костянтин Сергійович

Khabarlak, K. S.

Metadata

Показати повний опис матеріалу

Короткий опис(реферат)

Згорткові нейронні мережі показують високу якість у розв’язанні задач комп’ютерного зору. Суттєва кількість досліджень присвячена розробці ней- ронних мереж для їх виконання на потужних серверах, однак в ряді випадків їх використання ускладнюється з таких причин: коли інтернет з’єднання є не- стабільним або відсутнє взагалі, коли користувач не погоджується передавати приватні дані із свого пристрою, коли загальний об’єм даних надто великий для передачі з усіх пристроїв на сервер тощо. У разі необхідності обробки зображень на мобільному або малопотужному пристрої виникає цілий ряд проблем: — такі пристрої мають обмежені обчислювальні ресурси, і мережа на них може виконуватись за неприпустимо довгий для цільової задачі час. А отже, архітектури глибоких згорткових нейронних мереж із великою кількістю па- раметрів, що показують високу якість на серверах, мають зазнати змін для застосування на мобільних пристроях; — робота від батареї передбачає мінімізацію кількості обчислень. Через це великий інтерес наукової спільноти спрямований на розробку архітектур мобільних нейронних мереж, що враховують характеристики пристроїв на етапі проектування. Проблемою таких нейронних мереж є необхідність оста- точного визначення їх конфігурації до початку процедури навчання, що ви-3 магає повтору довгої процедури навчання після кожної корекції конфігурації мережі; — якщо застосунок необхідно встановити на пристрій Інтернету речей, це додає ще одну категорію пристроїв із меншою обчислювальною потужні- стю і ставить розробника нейронної мережі перед вибором: або навчити одну мережу, яка буде достатньо швидкою для всіх пристроїв, але потенційно ма- тиме невисоку якість виконання; або ж навчати окрему мережу для кожної категорії пристроїв, що, враховуючи довгий час навчання глибоких нейрон- них мереж, значно збільшить витрати на розробку системи. Метою роботи є прискорення навчання і виконання згорткових нейрон- них мереж для задач класифікації та сегментації зображень без втрат (або з якомога меншими втратами) якості розпізнавання за рахунок розробки змі- нюваних нейронних мереж і методів їх навчання. Під змінюваною нейрон- ною мережею будемо розуміти згорткову мережу із змінною складністю. Наукова новизна одержаних результатів: — вперше для задач класифікації та сегментації зображень розроблені змінювані згорткові нейронні мережі та метод їх навчання, які, на відміну від існуючих, дозволяють обирати одну з конфігурацій із різними обчислюваль- ними складностями під час або після навчання. На наборі даних ImageNet розроблена мережа за ефективністю (в сенсі співвідношення якість розпізна- вання/час виконання) зайняла п’яте місце серед 17 провідних архітектур ме- реж, а на CamVid прискорення виконання склало понад 6 % без втрат якості; — вперше розроблено метод Λ-шаблонів прискорення оптимізаційного мета-навчання, який, на відміну від існуючих, дозволяє за рахунок зміни складності нейронної мережі зменшити кількість обчислень під час навчання, та таким чином пришвидшити адаптацію мережі до нових класів за малою кількістю прикладів на 7,5 % при втратах якості менше 0,4 %. В першому розділі розглянуто проблеми впровадження нейронних ме-4 реж в наступних застосунках: пошук та ідентифікація облич, розпізнавання емоцій, антиспуфінг, ідентифікація стану водія, анімація персонажів, пошук ключових точок. Проведено порівняльний аналіз архітектур нейронних ме- реж: — для задач класифікації: AlexNet, VGG, ResNet, MobileNetV2, SENet, MnasNet, MobileNetV3; — для задач сегментації: U-Net, Hourglass, HRNet, CU-Net. Для кожної мережі наведено її особливості, оцінено обчислювальну скла- дність (за кількістю операцій множення та додавання) та розраховано кіль- кість параметрів; проаналізовано переваги та недоліки. За проведеним аналізом застосунків мобільних нейронних мереж зазна- чено важливість зменшення часу їх виконання, не втрачаючи якості розпізна- вання зображень, та зміни конфігурацій нейронних мереж під час їх розгор- тання на пристроях із різними обчислювальними можливостями. Розглянуто існуючі методи прискорення навчання та виконання нейронних мереж. Також проаналізовано методи мета-навчання, що дозволяють навчити ме- режу лише за кількома прикладами на клас. MAML є ключовим методом оптимізаційного мета-навчання та є основою великої кількості подальших підходів. Виявлено, що недоліком таких методів є повільна процедура ада- птації мережі до нових класів. Для розробки змінюваних згорткових нейронних мереж і методів їх на- вчання обґрунтовано вибір в якості базових: — мережі MobileNetV2, котра широко використовується для вирішення багатьох практичних проблем комп’ютерного зору, зокрема задачі кла- сифікації; — мережі U-Net, яка є основою багатьох нейронних мереж, розроблених для задач сегментації; — мережі CNN4, яка є основою методів оптимізаційного навчання за кіль-5 кома прикладами, базовим з яких є метод MAML. В другому розділі для задач класифікації розроблено змінювану згортко- ву нейронну мережу, що дозволяє вибирати архітектуру відповідно до обчи- слювальних можливостей пристроїв. Розроблено метод навчання такої мере- жі. Ключовим структурним компонентом змінюваної згорткової мережі (ме- режі PTA) є згортковий блок PTA, що складається з двох гілок: легкої та важ- кої. Перша є вдвічі швидшою за другу. Виконувати можна кожну з них окремо або обидві одночасно. Розроблений метод навчання дозволяє обирати конфі- гурацію такого блоку не лише під час навчання, але й на етапі її виконання. Роботу розробленої нейронної мережі та методу її навчання перевірено на наборі даних для задачі класифікації ImageNet. Час виконання мережі у порівнянні з оригінальною MobileNetV2 зменшено на 13,74 % при падінні точності (топ 1) на 3,68 %. Також проведено експерименти на наборі даних антиспуфінгу (задача класифікації) CelebA-Spoof, де мережа PTA перевершила оригінальну за всіма метриками та дозволила зменшити час виконання до 20 %. Зокрема, найкращі отримані метрики (в дужках – результати MobileNetV2): точність 97,85 % (проти 96,74 %), частоти помилок: BPCER 1,98 % (проти 4,18 %), APCER 0,70 % (проти 1,07 %), за ACER 2,13 % (проти 2,63 %). Загальний час навчання PTA моделі зменшено на 14,34 % у порівнянні із MobileNetV2. В третьому розділі представлено нову мобільну систему контролю до- ступу із RFID мітками і підсистемою антиспуфінгу, розробленою на основі змінюваних згорткових мереж, яка дозволяє зменшити навантаження на сер- вер та підвищити захищеність самої системи контролю доступу. Запропоно- вана система контролю доступу включає: — адміністративну панель для налаштування політик доступу до підпри- ємства;6 — систему моніторингу з фільтрами за часом доступу, користувачем та контрольованими дверми з RFID-мітками; — мобільний додаток, що здійснює пошук облич та здійснює перевірку зображення на спуфінг. Додаток створений для реєстрації і відмикання контрольованих дверей; — серверну програму, яка оброблює, зберігає та надає дані для додатків на ПК і смартфоні. Впровадження розробленої системи дозволяє знизити вартість систем контролю доступу за рахунок заміни стаціонарного RFID-сканера на дешеву мітку, а також відмовитися від встановлення камер відеоспостереження, оскільки користувач робить фотографію на свій мобільний телефон, коли відмикає двері, а його фотографія перевіряється системою антиспуфінгу. В четвертому розділі розроблені блоки PTA інтегровано в мережу U-Net, яка використовується для задачі сегментації зображень. Навчання змінюваної згорткової мережі проведено на наборі даних CamVid. Мережу розгорнуто на крайовому, мобільних, персональних комп’ютерах та графічному процесорі. Показано, що остаточну навчену мережу PTA можна перемикати під час ви- конання між шістьма конфігураціями, що відрізняються часом виконання та якістю. Важливо, що всі конфігурації мають вищу якість, ніж оригінальна мережа U-Net (із Dice score = 0,8583). За усіма пристроями (в середньому) при- скорення виконання мережі склало 6,09 % з Dice score = 0,8647. В п’ятому розділі описано розроблений метод Λ-шаблонів прискорення оптимізаційного мета-навчання, який, на відміну від існуючих, дозволяє змі- нювати кількість обчислень у методі зворотного розповсюдження помилки, за рахунок чого зменшено час адаптації мережі до нових класів за малою кількістю прикладів. Експериментально виявлено 2 найкращих шаблони, які дозволили зменшити час адаптації на 7,51 % (падіння точності: 0,33 %) або на 14,96 % (падіння точності: 1,25 %).7 Метод Λ-шаблонів продемонстрував підвищення точності класифікації у випадку однокрокового навчання за кількома прикладами. Найбільше покра- щення отримано в конфігурації по 5 прикладів на 5 класів, де, наприклад, метод MAML за один крок адаптації демонстрував точність 20,4 %, що є по- казником близьким до випадкового вгадування, а метод Λ-шаблонів – 54,8 %. Практичне значення одержаних результатів: — розроблену змінювану згорткову нейронну мережу можна використо- вувати для розв’язання задач класифікації та сегментації будь-яких зобра- жень, як на серверах, комп’ютерах, так і на портативних, мобільних пристро- ях; — розроблений мобільний застосунок, який опрацьовує вхідне відео з камери в реальному часі прямо на мобільному пристрої, гнучко налаштову- ється для роботи із будь-якими задачами класифікації та сегментації зобра- жень та може бути використаний, зокрема, на транспортних підприємствах для відстеження стану водія під час керування в умовах відсутнього або по- вільного доступу до мережі Інтернет; — розроблений застосунок із методом Λ-шаблонів прискорення мета-навчання дозволяє пришвидшити навчання нейронної мережі для задачі класифікації у випадках, коли навчальний набір є малим через складність або коштовність збору такого набору даних, наприклад, в системах відстеження рухів та анімації обличчя; — розроблену мобільну систему контролю доступу можна використову- вати на виробничих підприємствах задля забезпечення безпеки доступу до технологічного обладнання і дверей. За рахунок використання RFID міток та вбудованої підсистеми антиспуфінгу розроблена система є досить дешевою у впровадженні порівняно із аналогами.

Convolutional neural networks show high quality in solving computer vision tasks. A significant amount of research is devoted to the development of neural networks, that target inference on powerful servers. However, in a number of cases their use is complicated for the following reasons: when the Internet connection is unstable or absent at all, when the user does not agree to share private data from his device, when the data volume is too large to be transferred from all devices to the server, etc. If it is necessary to process images on a mobile or low-power device, a number of problems arise: — such devices have limited computing resources, and the network inference might be unacceptably long for the target task. Therefore, deep convolutional neural network architectures with many parameters that show high quality on servers need to be modified for mobile applications; — inference when running on battery implies that the number of computations should be minimized. Because of this, great interest of the scientific community is devoted to the development of mobile neural network architectures that take into account the mobile device limitations at the design stage. Such architectures require the network configuration to be finalized before the start of the training procedure, as a result long training procedure should be repeated after each network architecture adjustment, which is a problem; — if the application is expected to be installed on an IoT device, this adds10 another category of devices with less computing power and presents the neural network developer with a choice: either to train one network that will be fast enough for all devices, but potentially have poor performance; or to train a separate network for each category of devices, which, given the long training time of deep neural networks, will significantly increase the cost of development of the system. The purpose of the work is to accelerate convolutional neural network training and inference for the tasks of image classification and segmentation without recognition quality loss (or with as little loss as possible) by developing changeable neural networks and their training methods. By changeable neural network we mean a convolutional network with changeable complexity. Scientific novelty of the obtained results: — for the first time, the changeable convolutional neural network and its training method were developed for the tasks of classification and segmentation. In contrast to the existing ones, changeable neural networks enable configuration selection among the ones with different computational complexities during or after training. On the ImageNet dataset the developed neural network in terms of efficiency (in the sense of recognition quality/execution time ratio) took fifth place among the 17 considered state-of-the-art neural network architectures on the ImageNet dataset. On the CamVid dataset the speed up is above 6 % without quality loss; — for the first time, the Λ-patterns method of optimization meta-learning acceleration was developed, which, unlike existing methods, allows to change neural network complexity during training and, consequently, speed up the neural network few-shot adaptation by 7.5 % with the quality loss below 0.4 %. In the first chapter the neural network implementation problems are considered in the following applications: face search and recognition, emotion recognition, anti-spoofing, driver state tracking, character animation, facial landmark detection. A comparative analysis of neural network architectures was11 carried out for the tasks of: — classification: AlexNet, VGG, ResNet, MobileNetV2, SENet, MnasNet, MobileNetV3; — segmentation: U-Net, Hourglass, HRNet, CU-Net. For each network, its features are described, computational complexity is estimated (by the number of multiply-add operations), and the number of parameters is calculated; advantages and disadvantages are analyzed. Based on the analysis of mobile neural network applications, importance of neural network inference time reduction without losing image recognition quality, and of ability to change the neural network configuration when it is deployed on devices with different computing capabilities were noted. Existing methods of neural network training and inference were considered. Also, meta-learning methods were analyzed, that enable few-shot neural network training. MAML is the key optimization meta-learning method, it serves as a base for many further approaches. It was discovered, that disadvantage of such methods is slow neural network adaptation to the new classes. For the development of changeable convolutional neural networks and their training methods, the selection as basic architectures is substantiated of: — the MobileNetV2 network, which is widely used to solve many practical problems of computer vision, in particular, classification problems; — the U-Net network, which is the basis of many neural networks developed for segmentation tasks; — the CNN4 network, which serves as a foundation for optimization few-shot learning methods with MAML being the base method. In the second chapter, the changeable convolutional neural network is developed for the classification tasks, which allows choosing the architecture according to the computing capabilities of the devices. A method of training such a network has been developed.12 The key structural component of the changeable convolutional network (PTA network) is the PTA convolutional block, which consists of two branches: light and heavy. The first is twice as fast as the second. It is possible to infer each of them exclusively or both at the same time. The developed training method enabled the configuration selection of the block not only during training, but also during inference. The evaluation of the developed neural network and its training method was performed on the ImageNet image classification dataset. Inference time of the network compared to the original MobileNetV2 is reduced by 13.74 % for the accuracy (top 1) loss of 3.68 %. Experiments were also performed on the CelebA-Spoof anti-spoofing dataset (classification task), where the PTA network outperformed the original one in all metrics and reduced the inference time by up to 20 %. In particular, the best obtained metrics (MobileNetV2 results are shown in brackets): accuracy 97.85 % (versus 96.74 %), error rates: BPCER 1.98 % (versus 4.18 %) , APCER 0.70 % (versus 1.07 %), for ACER 2.13 % (versus 2.63 %). The total training time of the PTA model is reduced by 14.34 % compared to MobileNetV2. The third chapter presents a new mobile access control system with RFID tags and a built-in anti-spoofing subsystem developed based on the changeable convolutional network, which allows to reduce the server load and to increase access control system security. The proposed access control system includes: — administrative panel for configuring enterprise access policies; — monitoring system with filters by access time, user and controlled doors with RFID tags; — mobile application that performs face search and anti-spoofing check. The application is created for the controlled door registration and unlocking; — a server program that processes, stores and provides data for applications on PCs and smartphones.13 The implementation of the developed system makes it possible to reduce the cost of access control systems by replacing the stationary RFID scanner with a cheap tag, as well as by avoiding the installation of video surveillance cameras, since the user takes a photo on his mobile phone when he unlocks the door, and his photo is checked by the anti-spoofing system. In the fourth chapter, the developed PTA blocks are integrated into the U-Net network, which is used for the image segmentation task. The training of the modified convolutional network was performed on the CamVid dataset. The network is deployed on edge, mobile, personal computers and graphical processors. It is shown that the final trained PTA network can be switched at runtime between six configurations differing in inference time and quality. Importantly, all configurations are of higher quality than the original U-Net (with Dice score = 0.8583). Across all devices (on average), the network speedup was 6.09 % with Dice score = 0.8647. In the fifth chapter, the developed method of Λ-patterns for accelerating optimization meta-learning is described, which, unlike the existing ones, allows changing the number of calculations in the backpropagation method, which allows to decrease few-shot learning adaptation time. The 2 best patterns were experimentally identified, which allowed to reduce few-shot adaptation time by 7.51 % (accuracy drop: 0.33 %) or by 14.96 % (accuracy drop: 1.25 %). The Λ-patterns method demonstrated improved classification accuracy in the case of few-shot training with a single adaptation step. The greatest improvement was obtained in the 5-shot 5-way configuration, where, for example, the MAML method for single-step adaptation showed an accuracy of 20.4 %, which is a value close to random guessing, while Λ-patterns achieved an accuracy of 54.8 %. Practical significance of the obtained results: — the developed changeable convolutional neural network can be used to solve tasks of image classification and segmentation, both on servers, computers,and on portable, mobile devices; — the developed mobile application with real-time camera video processing directly on the mobile device, can be flexibly configured to work with any image classification and segmentation task. It can be used, in particular, in transport enterprises for real-time driver status tracking in conditions of no or slow access to the Internet; — the developed application with Λ-patterns meta-learning acceleration method allows to speed up neural network training for the classification problem in cases where the training set is small due to high cost or complexity of dataset collection, for example, in motion tracking and face reenactment systems; — the developed mobile access control system can be used in manufacturing enterprises to ensure technological equipment and doors access safety. Thanks to the use of RFID tags and a built-in anti-spoofing subsystem, it is quite cheap to implement the developed system compared to alternatives.

URI

http://ir.nmu.org.ua/handle/123456789/165692

Collections

122 – Комп'ютерні науки [5]