Физический резервуарный компьютер Hopf для реконфигурируемого распознавания звука
Научные отчеты, том 13, Номер статьи: 8719 (2023) Цитировать эту статью
271 Доступов
3 Альтметрика
Подробности о метриках
Осциллятор Хопфа — это нелинейный осциллятор, демонстрирующий движение предельного цикла. Этот резервуарный компьютер использует вибрационный характер генератора, что делает его идеальным кандидатом для задач распознавания реконфигурируемых звуков. В этой статье систематически демонстрируются возможности пластового компьютера Хопфа, выполняющего распознавание звука. Эта работа показывает, что пластовый компьютер Хопфа может обеспечить более высокую точность распознавания звука по сравнению с традиционными подходами (например, подход Mel-спектр + машинное обучение). Что еще более важно, компьютер резервуара Hopf, работающий как система распознавания звука, не требует предварительной обработки звука и имеет очень простую настройку, но при этом обеспечивает высокую степень реконфигурации. Эти функции открывают путь к применению физических резервуарных вычислений для распознавания звука в периферийных устройствах с низким энергопотреблением.
Существуют повсеместно распространенные методы классификации аудиосигналов, особенно для распознавания речи1,2. Однако машинное обучение имеет ряд недостатков, которые препятствуют его широкому распространению в Интернете вещей (IoT)3. Во-первых, машинное обучение, особенно глубокие нейронные сети (DNN), полагаются на облачную инфраструктуру для проведения массовых вычислений как для обучения модели, так и для вывода. Современные модели глубокого обучения (SOTA), такие как GPT-3, могут иметь более 175 миллиардов параметров и требования к обучению в 3,14 \(\times\) \(10^{23}\) FLOPS (операции с плавающей запятой). в секунду)4,5. При обучении модели транскрипции речи SOTA Whisper использовалась библиотека слов, содержащая столько слов, сколько один человек мог бы непрерывно говорить в течение 77 лет6. Ни одно из этих упомянутых технических требований не может быть выполнено никакими периферийными устройствами для Интернета вещей; таким образом, облачная инфраструктура необходима для задач DNN. Во-вторых, использование облачных вычислений для машинного обучения создает большие риски для безопасности и конфиденциальности. Более 60% предыдущих нарушений безопасности происходили во время передачи необработанных данных между облаком и периферией для машинного обучения7. Кроме того, каждое нарушение влечет за собой убытки в среднем в размере 4,24 миллиона долларов США, и эта цифра постоянно растет8. Проблема конфиденциальности вызывает недоверие среди пользователей смарт-устройств и приводит к отказу от них9,10. В-третьих, влияние внедрения DNN на окружающую среду через облачную инфраструктуру часто упускается из виду, но им нельзя пренебрегать. Обучение модели трансформатора с 213 миллионами параметров приведет к выбросам углекислого газа в четыре раза больше, чем у автомобиля американского производителя за весь срок его службы11. Поэтому следующее поколение интеллектуальных устройств Интернета вещей должно обладать достаточной вычислительной мощностью для управления машинным обучением или даже глубоким обучением на периферии.
Среди усилий по внедрению машинного обучения в периферийные устройства за последние два десятилетия первые успехи принесли резервуарные вычисления, особенно физические резервуарные вычисления. Основываясь на концепциях машин с жидким состоянием и сетей эхо-состояний, исследователи продемонстрировали, что вызванная звуком рябь на поверхности ведра с водой может быть использована для распознавания аудиосигналов12. Короче говоря, резервуарные вычисления используют внутреннюю нелинейность физической системы для воспроизведения процесса узловых связей в нейронной сети для извлечения характеристик из сигналов временных рядов для машинного восприятия13,14. Резервуарные вычисления непосредственно проводят вычисления аналоговым способом с использованием физической системы, что в значительной степени устраняет необходимость отдельного хранения, организации и восприятия данных при машинном обучении. Примечательно, что резервуарные вычисления естественным образом подходят для задач обработки звука, которые являются подмножеством сигналов временных рядов.
Исследователи исследовали множество физических систем, которые могут работать как резервуарные компьютеры для обработки временных сигналов. К таким системам относятся программируемая вентильная матрица (FPGA)15, химические реакции16, мемристоры17, суперпарамагнитные туннельные переходы18, спинтроника19, ослабление длины волны лазеров в специальных средах20, МЭМС (микроэлектромеханические системы)21 и другие13,22. Хотя эти исследования показали, что резервуарные вычисления могут обрабатывать аудиосигналы, физическая система для вычислений обычно очень громоздка20, и все они требуют предварительной обработки исходных аудиоклипов с использованием таких методов, как Mel-спектр, что в значительной степени сводит на нет преимущества уменьшения вычислительные требования машинного обучения посредством пластовых вычислений. Что еще более важно, для увеличения вычислительной мощности традиционные методы расчета пластов используют обратную связь с задержкой по времени, достигаемую путем цифро-аналогового преобразования23, а обратная связь с задержкой по времени будет снижать скорость обработки вычислений пласта, одновременно резко увеличивая диапазон энергопотребления для вычислений. . Мы предполагаем, что неудовлетворительная производительность вычислений физических резервуаров во многом вызвана недостаточной вычислительной мощностью вычислительных систем, выбранных в предыдущих работах.