Физический резервуарный компьютер Hopf для реконфигурируемого распознавания звука

Научные отчеты, том 13, Номер статьи: 8719 (2023) Цитировать эту статью

271 Доступов

3 Альтметрика

Подробности о метриках

Осциллятор Хопфа — это нелинейный осциллятор, демонстрирующий движение предельного цикла. Этот резервуарный компьютер использует вибрационный характер генератора, что делает его идеальным кандидатом для задач распознавания реконфигурируемых звуков. В этой статье систематически демонстрируются возможности пластового компьютера Хопфа, выполняющего распознавание звука. Эта работа показывает, что пластовый компьютер Хопфа может обеспечить более высокую точность распознавания звука по сравнению с традиционными подходами (например, подход Mel-спектр + машинное обучение). Что еще более важно, компьютер резервуара Hopf, работающий как система распознавания звука, не требует предварительной обработки звука и имеет очень простую настройку, но при этом обеспечивает высокую степень реконфигурации. Эти функции открывают путь к применению физических резервуарных вычислений для распознавания звука в периферийных устройствах с низким энергопотреблением.

Существуют повсеместно распространенные методы классификации аудиосигналов, особенно для распознавания речи1,2. Однако машинное обучение имеет ряд недостатков, которые препятствуют его широкому распространению в Интернете вещей (IoT)3. Во-первых, машинное обучение, особенно глубокие нейронные сети (DNN), полагаются на облачную инфраструктуру для проведения массовых вычислений как для обучения модели, так и для вывода. Современные модели глубокого обучения (SOTA), такие как GPT-3, могут иметь более 175 миллиардов параметров и требования к обучению в 3,14 \(\times\) \(10^{23}\) FLOPS (операции с плавающей запятой). в секунду)4,5. При обучении модели транскрипции речи SOTA Whisper использовалась библиотека слов, содержащая столько слов, сколько один человек мог бы непрерывно говорить в течение 77 лет6. Ни одно из этих упомянутых технических требований не может быть выполнено никакими периферийными устройствами для Интернета вещей; таким образом, облачная инфраструктура необходима для задач DNN. Во-вторых, использование облачных вычислений для машинного обучения создает большие риски для безопасности и конфиденциальности. Более 60% предыдущих нарушений безопасности происходили во время передачи необработанных данных между облаком и периферией для машинного обучения7. Кроме того, каждое нарушение влечет за собой убытки в среднем в размере 4,24 миллиона долларов США, и эта цифра постоянно растет8. Проблема конфиденциальности вызывает недоверие среди пользователей смарт-устройств и приводит к отказу от них9,10. В-третьих, влияние внедрения DNN на окружающую среду через облачную инфраструктуру часто упускается из виду, но им нельзя пренебрегать. Обучение модели трансформатора с 213 миллионами параметров приведет к выбросам углекислого газа в четыре раза больше, чем у автомобиля американского производителя за весь срок его службы11. Поэтому следующее поколение интеллектуальных устройств Интернета вещей должно обладать достаточной вычислительной мощностью для управления машинным обучением или даже глубоким обучением на периферии.

Среди усилий по внедрению машинного обучения в периферийные устройства за последние два десятилетия первые успехи принесли резервуарные вычисления, особенно физические резервуарные вычисления. Основываясь на концепциях машин с жидким состоянием и сетей эхо-состояний, исследователи продемонстрировали, что вызванная звуком рябь на поверхности ведра с водой может быть использована для распознавания аудиосигналов12. Короче говоря, резервуарные вычисления используют внутреннюю нелинейность физической системы для воспроизведения процесса узловых связей в нейронной сети для извлечения характеристик из сигналов временных рядов для машинного восприятия13,14. Резервуарные вычисления непосредственно проводят вычисления аналоговым способом с использованием физической системы, что в значительной степени устраняет необходимость отдельного хранения, организации и восприятия данных при машинном обучении. Примечательно, что резервуарные вычисления естественным образом подходят для задач обработки звука, которые являются подмножеством сигналов временных рядов.

Исследователи исследовали множество физических систем, которые могут работать как резервуарные компьютеры для обработки временных сигналов. К таким системам относятся программируемая вентильная матрица (FPGA)15, химические реакции16, мемристоры17, суперпарамагнитные туннельные переходы18, спинтроника19, ослабление длины волны лазеров в специальных средах20, МЭМС (микроэлектромеханические системы)21 и другие13,22. Хотя эти исследования показали, что резервуарные вычисления могут обрабатывать аудиосигналы, физическая система для вычислений обычно очень громоздка20, и все они требуют предварительной обработки исходных аудиоклипов с использованием таких методов, как Mel-спектр, что в значительной степени сводит на нет преимущества уменьшения вычислительные требования машинного обучения посредством пластовых вычислений. Что еще более важно, для увеличения вычислительной мощности традиционные методы расчета пластов используют обратную связь с задержкой по времени, достигаемую путем цифро-аналогового преобразования23, а обратная связь с задержкой по времени будет снижать скорость обработки вычислений пласта, одновременно резко увеличивая диапазон энергопотребления для вычислений. . Мы предполагаем, что неудовлетворительная производительность вычислений физических резервуаров во многом вызвана недостаточной вычислительной мощностью вычислительных систем, выбранных в предыдущих работах.

94% of the FLOPS (floating operations per second) for high sampling rate readout and Mel spectrum computation and \(\sim {90\%}\) of the audio pieces for training./p> 99% accuracy, with the confusion matrix depicted in the right portion of Fig. 7. Note that the number of parameters trained for this experiment is about 35,000, which accounts for about 300 KB dynamic memory for 8-bit input with a batch size of 531,32, demonstrating the feasibility of running the training of the machine learning readout on low-level edge devices consuming Li-Po battery level of power./p> 99% accuracy using the exact readout machine learning algorithm by only retraining the MLP. This implies that the Hopf reservoir computer will enable inference and reconfiguration on the edge for the sound recognition system. Additionally, compared to other reservoir computing systems (e.g.,15,16,17,22), the spoken digit dataset yields superior performance without the need of using complex preprocessing, multiple physical devices, or mask functions; in addition, we have also conducted our benchmarking experiments on far more realistic datasets (i.e., the 10-class urban sound recognition dataset and the 4-class wake words dataset). We demonstrate boosted performance of audio signal processing by changing the activation signal strength of the Hopf oscillator, which implies that there are more degrees of freedom for reconfiguring physical reservoir computers as compared to other reservoir implementations./p>

Новости

Физический резервуарный компьютер Hopf для реконфигурируемого распознавания звука