banner

Новости

Oct 16, 2023

Трансформаторы зрения штурмом захватили сферу компьютерного зрения, но чему они учатся?

Трансформаторы зрения (ViT) — это тип архитектуры нейронных сетей, который достиг огромной популярности для задач машинного зрения, таких как классификация изображений, семантическая сегментация и обнаружение объектов. Основное отличие Vision от оригинальных преобразователей заключалось в замене дискретных токенов текста непрерывными значениями пикселей, извлеченными из фрагментов изображения. ViTs извлекает особенности изображения, обращая внимание на различные его области и комбинируя их для составления прогноза. Однако, несмотря на широкое распространение в последнее время, мало что известно об индуктивных искажениях или особенностях, которым ViT склонны обучаться. Хотя визуализация функций и реконструкция изображений оказались успешными в понимании работы сверточных нейронных сетей (CNN), эти методы не были столь успешными в понимании ViT, которые трудно визуализировать.

Последняя работа группы исследователей из Университета Мэриленд-Колледж-Парк и Нью-Йоркского университета дополняет литературу о ViTs углубленным исследованием их поведения и механизмов внутренней обработки. Авторы создали систему визуализации для синтеза изображений, которые максимально активируют нейроны в модели ViT. В частности, метод включал в себя выполнение градиентных шагов для максимизации активации признаков, начиная со случайного шума и применяя различные методы регуляризации, такие как штраф за общую вариацию и использование ансамбля дополнений, для улучшения качества сгенерированных изображений.

Анализ показал, что токены исправлений в ViT сохраняют пространственную информацию на всех уровнях, кроме последнего блока внимания, который изучает операцию смешивания токенов, аналогичную средней операции объединения, широко используемой в CNN. Авторы заметили, что представления остаются локальными даже для отдельных каналов в глубоких слоях сети.

В связи с этим токен CLS, похоже, играет относительно незначительную роль во всей сети и не используется для глобализации до последнего уровня. Авторы продемонстрировали эту гипотезу, выполнив логический вывод на изображениях без использования токена CLS на уровнях 1–11, а затем вставив значение для токена CLS на уровень 12. Полученный ViT все равно мог успешно классифицировать 78,61% набора проверки ImageNet вместо исходный 84,20%.

Следовательно, и CNN, и ViT демонстрируют прогрессивную специализацию функций: ранние слои распознают основные характеристики изображения, такие как цвет и края, а более глубокие уровни распознают более сложные структуры. Однако важное различие, обнаруженное авторами, касается зависимости ViT и CNN от особенностей изображения фона и переднего плана. Исследование показало, что ViT значительно лучше, чем CNN, используют фоновую информацию в изображении для определения правильного класса и меньше страдают от удаления фона. Кроме того, прогнозы ViT более устойчивы к удалению высокочастотной текстурной информации по сравнению с моделями ResNet (результаты видны в таблице 2 документа).

Наконец, в исследовании также кратко анализируются представления, полученные с помощью моделей ViT, обученных в рамках системы предварительного обучения изображений контрастного языка (CLIP), которая связывает изображения и текст. Интересно, что они обнаружили, что ViT, обученные CLIP, создают функции на более глубоких уровнях, активируемые объектами в четко различимых концептуальных категориях, в отличие от ViT, обученных как классификаторы. Это разумно, но удивительно, поскольку текст, доступный в Интернете, содержит объекты для абстрактных и семантических понятий, таких как «заболеваемость» (примеры показаны на рисунке 11).

ПроверьтеБумагаиГитхаб. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также не забудьте присоединитьсянаш 13 тысяч+ ML SubReddit,Дискорд-канал, иИнформационный бюллетень по электронной почте, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами в области искусственного интеллекта и многим другим.

Лоренцо Бригато — научный сотрудник центра ARTORG, исследовательского учреждения, связанного с Бернским университетом, и в настоящее время занимается применением ИИ в здравоохранении и питании. Он имеет докторскую степень. Степень в области компьютерных наук, Римский университет Сапиенца, Италия. Его доктор философии. диссертация была посвящена проблемам классификации изображений с распределением данных с дефицитом образцов и меток.

ДЕЛИТЬСЯ