Аналіз ефективності використання архітектури Transformer у задачі класифікації зображень
Date Issued
2024
Author(s)
Костюченко А. Д.
Abstract
Класифікація зображень є однією з основних задачах комп’ютерного зору в
домені штучного інтелекту, що має важливе прикладне значення в обробці медичних
даних, геопросторовому аналізі, розробці критичних безпекових систем, електронній
комерції. Завдання класифікації полягає у співставленні нейронною мережею об’єкта
на зображенні із певним класом, відповідно до якого він належить. Зі зростанням
складності зображень, що оброблюються моделлю, збільшується й обчислювальна
складність та час її навчання. На початку 90-х років минулого сторіччя навчальні дані
для класифікації обмежувались відносно простими чорно-білими зображеннями, при
роботі з якими досить довго використовувались повнозв’язні нейронні мережі. Однак зі
збільшенням складності зображень, їхніх розмірів, впровадженні кольорових каналів,
кількість параметрів навчання моделі також зростає. Ефективними архітектурами, що
дозволяють досягти високих показників якості, є згорткові нейронні мережі та ViT
(англ. – Vision Transformer), що є відносно новим підходом до обробки зображень.
домені штучного інтелекту, що має важливе прикладне значення в обробці медичних
даних, геопросторовому аналізі, розробці критичних безпекових систем, електронній
комерції. Завдання класифікації полягає у співставленні нейронною мережею об’єкта
на зображенні із певним класом, відповідно до якого він належить. Зі зростанням
складності зображень, що оброблюються моделлю, збільшується й обчислювальна
складність та час її навчання. На початку 90-х років минулого сторіччя навчальні дані
для класифікації обмежувались відносно простими чорно-білими зображеннями, при
роботі з якими досить довго використовувались повнозв’язні нейронні мережі. Однак зі
збільшенням складності зображень, їхніх розмірів, впровадженні кольорових каналів,
кількість параметрів навчання моделі також зростає. Ефективними архітектурами, що
дозволяють досягти високих показників якості, є згорткові нейронні мережі та ViT
(англ. – Vision Transformer), що є відносно новим підходом до обробки зображень.
File(s)![Thumbnail Image]()
Loading...
Name
molod-2024-vol2-113-114.pdf
Size
724.73 KB
Format
Adobe PDF
Checksum
(MD5):39572f908742fbb5bed4679c342c0ad2
