Визуальное исследование Университета Мэриленда и Нью-Йоркского университета показывает, чему учат трансформеры видения

В новой статье «Чему учатся преобразователи видения?» Исследовательская группа A Visual Exploration из Университета Мэриленда и Нью-Йоркского университета использует крупномасштабную визуализацию функций с помощью широкого спектра преобразователей зрения, чтобы получить представление о том, чему они учатся на изображениях и чем они отличаются от сверточных нейронных сетей.

С момента своего появления в 2020 году преобразователи машинного зрения (ViT) стали ведущей архитектурой компьютерного зрения, обеспечивая высочайшую производительность при выполнении самых разных задач — от обнаружения объектов и распознавания изображений до семантической сегментации. Но понимание внутренних механизмов, которые способствуют успеху ViT — чему и как они на самом деле учатся на изображениях — остается сложной задачей.

В новой статье «Чему учатся преобразователи видения?» Исследовательская группа A Visual Exploration из Университета Мэриленда и Нью-Йоркского университета использует крупномасштабную визуализацию функций из широкого спектра ViT, чтобы получить представление о том, чему они учатся на изображениях и чем они отличаются от сверточных нейронных сетей (CNN).

Команда суммирует свой основной вклад следующим образом:

Как и в случае с традиционными методами визуализации, команда использует градиентные шаги, чтобы максимизировать активацию функций от случайного шума. Чтобы улучшить качество изображения, они наказывают общую изменчивость (Mahendran & Vedaldi, 2015) и применяют методы увеличения джиттера (Yin et al., 2020), увеличения ColorShift и ансамбля увеличения (Ghiasi et al., 2021).

Чтобы обеспечить более глубокое понимание содержания конкретной визуализируемой функции, команда объединяет каждую визуализацию с изображениями из набора проверки/обучения ImageNet, которые оказывают наиболее сильный эффект активации в отношении соответствующей функции. Они строят схему активации функции, передавая наиболее активирующие изображения через сеть ViT и отображая результирующую схему активации функции.

Команда сначала пытается визуализировать особенности многоголового слоя внимания ViT, включая ключи, запросы и значения, путем максимального увеличения количества активированных нейронов. Затем они изучают сохранение пространственной информации по патчам на основе визуализаций уровней активации функций, обнаруживая, к удивлению, что, хотя каждый патч может влиять на представление любого другого патча, представления остаются локальными. Это указывает на то, что ViT изучают и сохраняют пространственную информацию с нуля.

Команда также обнаружила, что сохранение пространственной информации прекращается в последнем блоке внимания сети, который действует аналогично среднему пулу. Они пришли к выводу, что сеть глобализирует информацию на последнем уровне, чтобы гарантировать, что токен класса (CLS) имеет доступ ко всему изображению, и пришли к выводу, что токен CLS играет относительно незначительную роль в общей сети и не используется для глобализации до этого последнего уровня. .

В своем эмпирическом исследовании исследователи обнаружили, что многомерные внутренние проекции слоев прямой связи ViT подходят для создания интерпретируемых изображений, в то время как ключевые, запросные и ценностные характеристики самовнимания — нет. Сравнивая CNN и ViT, команда отмечает, что ViT могут лучше использовать исходную информацию и делать гораздо более качественные прогнозы. Также показано, что ViT, обученные с использованием языковой модели, получают лучшие семантические и концептуальные характеристики.

В целом, в этой работе используется эффективный и интерпретируемый подход к визуализации, позволяющий получить ценную информацию о том, как работают ViT и чему они учатся.

Код доступен на GitHub проекта. Статья «Чему учат преобразователи видения?» Визуальное исследование находится на arXiv.

Автор: Геката Хе |редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Машинный интеллект | Технологии и промышленность | Информация и анализ

Pingback: Визуальное исследование Университета Мэриленда и Нью-Йоркского университета показывает, чему учат трансформеры видения | Синхронизировано -

Блог

Визуальное исследование Университета Мэриленда и Нью-Йоркского университета показывает, чему учат трансформеры видения