Аналіз шаблонів адаптації мета-навчання
Abstract
Нейронні мережі показують значну якість вирішення багатьох практичних задач. Насамперед це задачі класифікації зображень, де якість згорткових нейронних мереж має надзвичайно малу помилку. Такі результати досягаються за допомогою навчання на великій розміченій вибірці даних. Однак, для кожної окремої практичної задачі таку вибірку необхідно зібрати та вручну розмітити, що в свою чергу вимагає значного вкладення людських та грошових ресурсів. Для ряду нових проблем збір великої якісно розміченої вибірки і зовсім неможливих – таких даних просто може ще не бути в наявності. Одним із підходів до зменшення необхідної навчальної вибірки є так зване мета-навчання. Одним із ключових алгоритмів є Model-Agnostic Meta-Learning (MAML), опис якого було наведено в роботі [1]. Що ж собою являє мета-навчання? Звичайні мережі для класифікації зображень навчаються на окремих зображення. Одна ітерація алгоритму мінімізує помилку на таких зображеннях. В мета-навчанні однією ітерацією є так звана «задача». Задача складається із набору «підтримки» та «запитів». Кожна із задач має різні класи (ярлики), що необхідно класифікувати. Це значно відрізняє мета-навчання від звичного навчання. За допомогою такої схеми очікується, що алгоритм навчиться швидко пристосовуватися до нових задач та вивчить ознаки, що властиві не тільки декільком фіксованим класам, а всім класам в цілому. Так, зазвичай, для мета-навчання достатньої 1-10 навчальних прикладів на клас, коли для звичайного необхідно зібрати сотні або тисячі прикладів. MAML є одним із прикладів оптимізаційного мета навчання – це значить, що для того, щоб навчити довільну нейронну мережу за описаною вище процедурою, достатньо змінити оптимізаційну задачу, а архітектура мережі залишиться незмінною. Для MAML алгоритм оптимізації розподіляється на 2 частини: адаптація до нової задачі і навчання мета-параметрів. MAML є одним із найбільш широко використовуваних методів мета-навчання, однак його недоліком є повільний час виконання фази адаптації. В роботі [2] було показано ряд практично-значних задач для яких час виконання нейронної мережі грає ключову роль. В цій роботі ми зменшимо час виконання алгоритму MAML.