SpectFormer от Microsoft и Bath U значительно улучшает преобразователи зрения за счет частоты и внимания
В новой статье SpectFormer: частота и внимание – это то, что вам нужно в преобразователе зрения, исследовательская группа из Microsoft и Университета Бата предлагает Spectformer, новую архитектуру преобразователя, которая сочетает в себе спектральные и многоголовые уровни внимания для лучшего захвата соответствующих представлений функций. и улучшить производительность.
Вслед за эпохальными характеристиками больших языковых моделей на основе преобразовательной архитектуры, преобразователи изображения (ViT) стали мощным подходом к обработке изображений. Как и их текстовые предшественники, ViT изначально полагались на многоглавые слои самообслуживания для захвата функций входных изображений, тогда как в более поздних подходах использовались спектральные слои для представления фрагментов изображения в частотной области. Может ли ViTs извлечь выгоду из архитектуры, включающей оба метода?
В новой статье SpectFormer: Частота и внимание – это то, что вам нужно в преобразователе зрения, исследовательская группа из Microsoft и Университета Бата предлагает SpectFormer, новую архитектуру преобразователя, которая сочетает в себе спектральные и многоголовые уровни внимания для лучшего захвата соответствующих представлений функций. и улучшить производительность ViT.
Команда суммирует свой основной вклад следующим образом:
Команда сначала исследует, как работают различные комбинации спектральных и многоголовых слоев внимания по сравнению с исключительно вниманием или спектральными моделями, и приходит к выводу, что оснащение предлагаемого ими SpectFormer начальными спектральными слоями, реализованными с помощью преобразования Фурье, за которыми следуют многоголовые слои внимания, дает наиболее многообещающие результаты. .
Архитектура SpectFormer состоит из четырех основных компонентов: уровень внедрения патчей, уровень позиционного внедрения, блок преобразователя, состоящий из серии спектральных слоев, за которыми следуют уровни внимания, и глава классификации. Конвейер SpectFormer сначала преобразует токены изображения в область Фурье (в спектральное пространство), где выполняется частотный анализ информации изображения и фиксируются соответствующие характеристики; затем применяет методы стробирования с помощью обучаемых весовых параметров; и, наконец, выполняет обратное преобразование Фурье, чтобы вернуть сигнал из спектрального пространства в физическое пространство.
В своем эмпирическом исследовании команда сравнила SpectFormer с многоголовым DeIT на основе самообслуживания, параллельной архитектурой LiT и спектральными GFNet ViT в различных задачах обнаружения объектов и классификации изображений. SpectFormer улучшил все базовые показатели в экспериментах, достигнув высочайшей точности (85,7%) в наборе данных ImageNet-1K.
Код и дополнительная информация доступны на веб-странице проекта. Статья Spectformer: частота и внимание — это то, что вам нужно в преобразователе зрения, находится на arXiv.
Автор: Геката Хе |редактор: Майкл Саразен
Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.
Машинный интеллект | Технологии и промышленность | Информация и анализ
Потрясающий пост! Отличная статья! Предложенная архитектура SpectFormer кажется очень многообещающей. Мне интересно сравнить его с другими современными моделями, такими как Swin Transformer и ViT-L, с точки зрения производительности и вычислительной эффективности. Считаете ли вы, что у SpectFormer есть потенциал стать новым эталоном для преобразователей зрения? Джонhttps://www.airiches.online/
Мне действительно нравится, насколько просто мне дается чтение. Я хотел бы узнать, как получать уведомления при создании нового сообщения.
Ваш электронный адрес не будет опубликован. Необходимые поля отмечены *
Комментарий *
Имя
Электронная почта
Веб-сайт
Сообщите мне о последующих комментариях по электронной почте.
Сообщайте мне о новых сообщениях по электронной почте.
Д
Автор Редактор Подпишитесь на наш популярный информационный бюллетень Synced Global AI Weekly, чтобы получать еженедельные обновления AI.