Наскільки добре працюють методи пояснення для моделей машинного навчання?
Дослідники розробляють спосіб перевірити, чи правильно працюють популярні методи для розуміння моделей машинного навчання.
Уявіть, що команда лікарів використовує нейронну мережу для виявлення раку на зображеннях мамографії. Навіть якщо ця модель машинного навчання виглядає добре, вона може бути зосереджена на особливостях зображення, які випадково пов’язані з пухлинами, як-от водяний знак або мітка часу, а не на фактичних ознаках пухлин.
Щоб перевірити ці моделі, дослідники використовують «методи атрибуції ознак», методи, які повинні сказати їм, які частини зображення є найважливішими для прогнозування нейронної мережі. Але що робити, якщо метод атрибуції упускає функції, важливі для моделі? Оскільки дослідники не знають, які особливості є важливими для початку, вони не можуть знати, що їхній метод оцінки неефективний.
Щоб допомогти вирішити цю проблему, MIT Дослідники розробили процес для зміни вихідних даних, щоб вони були впевнені, які функції насправді важливі для моделі. Потім вони використовують цей модифікований набір даних, щоб оцінити, чи можуть методи атрибуції об’єктів правильно ідентифікувати ці важливі характеристики.

Методи атрибуції ознак використовуються, щоб визначити, чи правильно працює нейронна мережа під час виконання завдання, наприклад класифікації зображень. Дослідники розробили новий спосіб оцінити, чи правильно ці методи атрибуції ознак визначають особливості зображення, які важливі для передбачення нейронної мережі. Авторство: MIT News, із зображеннями з iStockphoto
Вони виявили, що навіть найпопулярніші методи часто упускають важливі характеристики зображення, а деякі методи ледве працюють так само добре, як випадкова базова лінія. Це може мати серйозні наслідки, особливо якщо нейронні мережі використовуються в ситуаціях з високими ставками, як-от медичні діагнози. Якщо мережа не працює належним чином, а спроби виявити такі аномалії також не працюють належним чином, експерти можуть не підозрювати, що їх ввела в оману несправна модель, пояснює провідний автор Ілунь Чжоу, аспірант з електротехніки та інформатики. у Лабораторії комп’ютерних наук та штучного інтелекту (CSAIL).
«Всі ці методи дуже широко використовуються, особливо в деяких дуже серйозних сценаріях, як-от виявлення раку за допомогою рентгенівських променів або КТ. Але ці методи атрибуції функцій можуть бути помилковими в першу чергу. Вони можуть висвітлити щось, що не відповідає справжньому ознакою, яку модель використовує для прогнозування, що, як ми виявили, часто трапляється. Якщо ви хочете використовувати ці методи атрибуції об’єктів, щоб підтвердити, що модель працює правильно, вам краще переконатися, що сам метод атрибуції функцій працює правильно», – каже він.
Чжоу написав роботу разом із другою аспіранткою EECS Сереною Бут, дослідником Microsoft Марко Туліо Рібейро та старшим автором Джулі Шах, професором аеронавтики та астронавтики Массачусетського технологічного інституту та директором групи інтерактивної роботизації в CSAIL.
Орієнтація на особливості
У класифікації зображень кожен піксель у зображенні є ознакою, яку нейронна мережа може використовувати для прогнозування, тому існують буквально мільйони можливих функцій, на яких вона може зосередитися. Наприклад, якщо дослідники хочуть розробити алгоритм, який допоможе початківцям фотографам покращитися, вони можуть навчити модель відрізняти фотографії, зроблені професійними фотографами, від фотографій, зроблених випадковими туристами. За допомогою цієї моделі можна оцінити, наскільки аматорські фотографії нагадують професійні, і навіть дати конкретні відгуки щодо покращення. Дослідники хотіли б, щоб ця модель зосередилася на ідентифікації художніх елементів у професійних фотографіях під час навчання, таких як колірний простір, композиція та постобробка. Але трапилося так, що професійно зроблене фото, ймовірно, містить водяний знак імені фотографа, в той час як на кількох туристичних фотографіях його є, тому модель може просто знайти водяний знак.
«Очевидно, ми не хочемо говорити початківцям фотографам, що водяний знак – це все, що вам потрібно для успішної кар’єри, тому ми хочемо переконатися, що наша модель зосереджена на художніх рисах, а не на наявності водяного знака. Використовувати методи атрибуції об’єктів для аналізу нашої моделі є спокусою, але, зрештою, немає гарантії, що вони працюють правильно, оскільки модель може використовувати художні риси, водяний знак чи будь-які інші функції», – каже Чжоу.
«Ми не знаємо, які це помилкові кореляції в наборі даних. Може бути так багато різних речей, які можуть бути абсолютно непомітними для людини, як-от роздільна здатність зображення», – додає Бут. «Навіть якщо це не відчутно для нас, нейронна мережа, ймовірно, може витягнути ці функції та використати їх для класифікації. Це основна проблема. Ми погано розуміємо наші набори даних, але також неможливо так добре зрозуміти наші набори даних».
Дослідники модифікували набір даних, щоб послабити всі кореляції між вихідним зображенням і мітками даних, що гарантує, що жодна з оригінальних функцій більше не буде важливою.
Потім вони додають нову функцію до зображення, яка настільки очевидна, що нейронна мережа повинна зосередитися на ньому, щоб зробити свій прогноз, як яскраві прямокутники різних кольорів для різних класів зображень.
«Ми можемо з упевненістю стверджувати, що будь-яка модель, яка досягає дійсно високої впевненості, повинна зосередитися на тому кольоровому прямокутнику, який ми вставляємо. Тоді ми зможемо побачити, чи всі ці методи атрибуції об’єктів поспішають виділяти це місце, а не все інше», — каже Чжоу.
«Особливо тривожні» результати
Вони застосували цю техніку до ряду різних методів атрибуції ознак. Для класифікації зображень ці методи створюють так звану карту чіткості, яка показує концентрацію важливих ознак, поширених на всьому зображенні. Наприклад, якщо нейронна мережа класифікує зображення птахів, то карта помітності може показати, що 80 відсотків важливих ознак зосереджено навколо дзьоба птаха.
Після видалення всіх кореляцій у даних зображення вони маніпулювали фотографіями кількома способами, наприклад, розмивали частини зображення, регулювали яскравість або додавали водяний знак. Якщо метод атрибуції об’єктів працює правильно, майже 100 відсотків важливих об’єктів мають бути розташовані навколо області, якою маніпулювали дослідники.
Результати не були обнадійливими. Жоден із методів атрибуції функцій не наблизився до 100-відсоткової цілі, більшість із них ледве досягали випадкового базового рівня в 50 відсотків, а деякі навіть працювали гірше базового рівня в деяких випадках. Отже, хоча нова функція є єдиною, яку модель може використовувати для прогнозування, методи атрибуції об’єктів іноді не враховують її.
«Жоден з цих методів не здається дуже надійним у всіх різних типах помилкових кореляцій. Це особливо тривожно, тому що в природних наборах даних ми не знаємо, які з цих помилкових кореляцій можуть застосовуватися», – каже Чжоу. «Це можуть бути різні фактори. Ми думали, що можемо довіряти цим методам, щоб розповісти нам, але в нашому експерименті, здається, дуже важко їм довіряти».
Усі методи атрибуції ознак, які вони вивчали, краще виявляли аномалію, ніж відсутність аномалії. Іншими словами, ці методи можуть знайти водяний знак легше, ніж вони можуть визначити, що зображення не містить водяного знака. Отже, у цьому випадку людям було б складніше довіряти моделі, яка дає негативний прогноз.
Робота команди показує, що дуже важливо перевірити методи атрибуції функцій, перш ніж застосовувати їх до реальної моделі, особливо в ситуаціях з високими ставками.
«Дослідники та практики можуть використовувати методи пояснення, такі як методи атрибуції ознак, щоб викликати у людини довіру до моделі, але ця довіра не буде заснована, якщо спочатку не буде ретельно оцінено техніку пояснення», – каже Шах. «Техніка пояснення може бути використана, щоб допомогти відкалібрувати довіру людини до моделі, але не менш важливо відкалібрувати довіру людини до пояснень моделі».
Просуваючись вперед, дослідники хочуть використовувати свою процедуру оцінки для вивчення більш тонких або реалістичних особливостей, які можуть призвести до помилкових кореляцій. Інша сфера роботи, яку вони хочуть дослідити, — це допомогти людям зрозуміти карти чіткості, щоб вони могли приймати кращі рішення на основі прогнозів нейронної мережі.
Посилання: «Чи правильно методи атрибуції об’єктів приписують об’єкти?» Ілунь Чжоу, Серена Бут, Марко Туліо Рібейро та Джулі Шах, 15 грудня 2021 р., Комп’ютерні науки > Машинне навчання.
arXiv: 2104.14403
Це дослідження було підтримано, зокрема, Національним науковим фондом.