SpectFormer от Microsoft и Bath U значительно улучшает преобразователи зрения за счет частоты и внимания

В новой статье SpectFormer: частота и внимание – это то, что вам нужно в преобразователе зрения, исследовательская группа из Microsoft и Университета Бата предлагает Spectformer, новую архитектуру преобразователя, которая сочетает в себе спектральные и многоголовые уровни внимания для лучшего захвата соответствующих представлений функций. и улучшить производительность.

Вслед за эпохальными характеристиками больших языковых моделей на основе преобразовательной архитектуры, преобразователи изображения (ViT) стали мощным подходом к обработке изображений. Как и их текстовые предшественники, ViT изначально полагались на многоглавые слои самообслуживания для захвата функций входных изображений, тогда как в более поздних подходах использовались спектральные слои для представления фрагментов изображения в частотной области. Может ли ViTs извлечь выгоду из архитектуры, включающей оба метода?

В новой статье SpectFormer: Частота и внимание – это то, что вам нужно в преобразователе зрения, исследовательская группа из Microsoft и Университета Бата предлагает SpectFormer, новую архитектуру преобразователя, которая сочетает в себе спектральные и многоголовые уровни внимания для лучшего захвата соответствующих представлений функций. и улучшить производительность ViT.

Команда суммирует свой основной вклад следующим образом:

Команда сначала исследует, как работают различные комбинации спектральных и многоголовых слоев внимания по сравнению с исключительно вниманием или спектральными моделями, и приходит к выводу, что оснащение предлагаемого ими SpectFormer начальными спектральными слоями, реализованными с помощью преобразования Фурье, за которыми следуют многоголовые слои внимания, дает наиболее многообещающие результаты. .

Архитектура SpectFormer состоит из четырех основных компонентов: уровень внедрения патчей, уровень позиционного внедрения, блок преобразователя, состоящий из серии спектральных слоев, за которыми следуют уровни внимания, и глава классификации. Конвейер SpectFormer сначала преобразует токены изображения в область Фурье (в спектральное пространство), где выполняется частотный анализ информации изображения и фиксируются соответствующие характеристики; затем применяет методы стробирования с помощью обучаемых весовых параметров; и, наконец, выполняет обратное преобразование Фурье, чтобы вернуть сигнал из спектрального пространства в физическое пространство.

В своем эмпирическом исследовании команда сравнила SpectFormer с многоголовым DeIT на основе самообслуживания, параллельной архитектурой LiT и спектральными GFNet ViT в различных задачах обнаружения объектов и классификации изображений. SpectFormer улучшил все базовые показатели в экспериментах, достигнув высочайшей точности (85,7%) в наборе данных ImageNet-1K.

Код и дополнительная информация доступны на веб-странице проекта. Статья Spectformer: частота и внимание — это то, что вам нужно в преобразователе зрения, находится на arXiv.

Автор: Геката Хе |редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Машинный интеллект | Технологии и промышленность | Информация и анализ

Потрясающий пост! Отличная статья! Предложенная архитектура SpectFormer кажется очень многообещающей. Мне интересно сравнить его с другими современными моделями, такими как Swin Transformer и ViT-L, с точки зрения производительности и вычислительной эффективности. Считаете ли вы, что у SpectFormer есть потенциал стать новым эталоном для преобразователей зрения? Джонhttps://www.airiches.online/

Мне действительно нравится, насколько просто мне дается чтение. Я хотел бы узнать, как получать уведомления при создании нового сообщения.

Ваш электронный адрес не будет опубликован. Необходимые поля отмечены *

Комментарий *

Имя

Электронная почта

Веб-сайт

Сообщите мне о последующих комментариях по электронной почте.

Сообщайте мне о новых сообщениях по электронной почте.

Автор Редактор Подпишитесь на наш популярный информационный бюллетень Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Блог

SpectFormer от Microsoft и Bath U значительно улучшает преобразователи зрения за счет частоты и внимания