-
Abstract
-
1. Introduction
-
2. related work
-
2.1 learning filters from waveform
-
2.2 Learning the compression and the normalization
-
3. model
-
3.1 Filtering
-
3.1.1 Normalized 1D-Convolution
-
3.1.2 Gabor 1D-Convolution
-
3.1.3 Time-frequency Analysis and Learnable Filters
-
3.3 Learning per-channel Compression and Normalization
-
사용한 Loss function
A Learnable Frontend for Audio Classification논문에 대한 핵심적인 설명만 정리할려고 합니다. ICLR 2021, google
Abstract
그동안 Mel-filterbanks는 인간의 perception을 모방하고 오늘날까지 오디오 역사를 통들어 고정된 엔지니어링으로 사용된 오디오 feature입니다. 하지만, handmade representation으로 인한 근본적인 한계가 있습니다.
본 연구에서는 speech, music, audio event 및 animal sound를 포함한 광범위한 오디오 신호에서 Mel-filterbanks를 능가하는 single learnable frontend를 훈련하여 오디오 분류를 위한 범용 learned frontend를 제공할 수 있음을 보여줍니다. 이를 위해 Mel-filterbanks의 대체물로 사용할 수 있는 새로운 원칙적이고 lightweight한 learnable 아키텍처를 소개합니다.
우리 시스템은 필터링에서 pooling, compression 및 normalization에 이르기까지 오디오 feature extraction의 모든 연산을 학습하며, 무시할 수 있는 매개 변수 비용으로 모든 신경망에 통합할 수 있다.
우리는 8가지 다양한 오디오 분류 작업에 대해 멀티태스킹 학습을 수행하고, Mel-filterbanks 및 이전의 학습 가능한 대안보다 우리 모델이 일관되게 개선되었음을 보여줍니다. 또한 우리 시스템은 훨씬 적은 매개 변수로 Audioset에서 learnable 최신 frontend를 능가한다.
1. Introduction

mel-filterbank는 우리가 흔히 사용하는 필터입니다. 주황색 박스는 학습이 되지않고 고정된 handmade로 representation한 박스이고, 파란색 박스는 학습에 의해서 그 값들이 결정되는 박스들입니다. 이 논문에서 제안한 LEAF모델만 처음부터 끝까지 학습가능한 형태로 만들어져있습니다.
Mel-filter bank는 STFT의 제곱 계수를 사용하여 spectrogram을 계산하고 spectrogram은 음높이에 대한 비선형 인간 인식을 복제하기 위해 log 척도(mel 척도)로 간격을 둔 삼각형 bandpass filter를 통과합니다. 결국 계수는 음량에 대한 비선형 민감도를 복제하기 위해 log compression을 통과합니다. 이렇게 사용한 이유는 인간의 청각 시스템에서 영감을 받아 만들어졌습니다.
2. related work
mel filter bank의 대안으로 하이브리드 DNN-HMM 모델을 훈련하여 여러 layer의 convolution으로 mel filter bank를 대체하면서 ASR에 나타났습니다. 그러니 이러한 대안들은 많은 layer로 구성되어 있어 mel-filter bank와 공정한 비교가 어렵습니다. 다음 섹션에서는 유사한 용량의 mel-filter bank를 lightweight, drop-in방식으로 대체하는 frontend에 초점을 맞춥니다.
2.1 learning filters from waveform
- mel filter bank를 학습하기 위한 첫 번째 시도 : Sainath et al.(2013)의해서 제안됨.
- filter bank는 mel scale을 사용하여 초기화된 다음 spectrogram을 사용하여 네트워크의 나머지 부분과 함께 학습
- Sainath et al (2015)와 Hoshen et al (2015)
- Gammatone filter(Schluter et al, 2007)로 초기화된 raw waveform에서 directly convolution filter를 학습할 것을 제안
- Zeghidour et al (2018a)는
- mel-filterbanks의 scattering transform 근사치 (Anden & Mallat, 2014)를 사용해 초기화 시 mel-filter bank를 근사화하고 제약 없이 학습할 수 있는 learnable frontend인 time-domain filter bank를 제안.
- SincNet (Ravanelli & Bengio, 2018)모델
- sine carinal filters, non-linearity와 max-pooling 연산를 사용하여 convolution을 계산하고 Gabor filter를 사용한 variant를 계산하는 것을 제안.
- 우리의 모델은 Gabor filter를 complex valued filtering로 매개변수화 한다.
- window function을 사용해야하는 Sinc filter (Ravanelli & Bengio, 2018)와 달리 Gabor filter는 time과 frequency (Gabor, 1946)에서 최적으로 localize된다.
- 나머지 네트워크에서 complex-valued layer를 사용한 Noe et al (2020)와 달리, 우리는 3.1.2절에서 제곱 계수를 사용하면 신호를 real valued domain으로 되돌릴 뿐만아니라 (표준 아키텍처와의 호환성을 유도함) shift-invariant Hilbert envelope extraction을 설명합니다.
- Zeghidour et al.(2018a) 또한 제곱 계수 non-linearity을 적용하지만, 섹션 3.1.1에 설명된 대로 제한되지 않은 filter를 훈련하면, overfitting과 stability이슈가 발생할 수 있으며, 이 문제는 우리의 접근 방식으로 해결할 수 있습니다.
2.2 Learning the compression and the normalization
compression과 normalization을 학습하는 문제는 과거 문헌에서 덜 주목 받았었습니다. 주목할만 기여는 Per-Channel Energy Normalization (PCEN) (Wang et al. 2017, Lostanlen et al., 2019)로 원래 keyword spotting을 위해 제안되어 log-compression보다 성능이 뛰어났습니다. 나중에 Battenberg et al.(2017) 및 Lostanlen et al.(2018)은 대규모 ASR 및 동물 생체 음향에 대해 각각 PCEN의 이점을 확인했습니다. 그러나 이러한 이전 work은 fixed mel-filterbanks 위에서 압축을 학습합니다. 대신 이 작업에서 우리는 새로운 버전의 PCEN을 제안하고 학습 가능한 filter, 학습 가능한 pooling, 합습 가능한 compression 및 normalization을 결합하는 것이 다른 모든 접근 방식을 능가한다는 것을 처음으로 보여줍니다.
3. model
x ∈ RT를 sampling frequency Fs [Hz]에서 사용할 수 있는 T 샘플의 1차원 파형이라고 합니다.
우리는 프론트엔드를 세 가지 구성 요소의 시퀀스로 분해한다.
- 원래 sampling rate Fs로 작동하는 non-linearity가 뒤따르는 bandpass filter의 bank를 통과해 x를 통과하는 filtering
- temporal resolution을 줄이기 위해 신호를 소멸시키는 pooling,
- dynamic range를 줄이기 위해 비선형성을 적용하는 compression/normalization.
전체적으로, frontend는 input waveform을 2차원 feature 공간에 매핑하는 함수 Fψ : R^{T} → R^{M×N}으로 나타낼 수 있으며, 여기서 M은 temporal frame의 수(일반적으로 M < T), N개의 feature 채널 수(주파수 빈에 해당할 수 있음) 및 ψ frontend 파라미터를 나타냅니다. 그런 다음 frontend에 의해 계산된 feature은 θ에 의해 매개 변수화된 모델 g((·)에 공급된다. frontend 및 모델 매개 변수는 supervised classification 문제를 해결하여 추정합니다.

labelled dataset D와 L에서 sample은 loss function입니다. 우리의 목표는 model parameters θ와 end to end frontend parameters ψ를 학습하는 것입니다. 이를 달성하기 위해서 모든 front-end 성분들은 gradient descent를 가진 equation 1의 optimization problem을 해결하기 위해 학습해야만한다. 각 구성요소의 설계 선택에 대해 자세히 설명합니다.
3.1 Filtering
학습할 수 있는 frontend의 첫 번째 block은 x를 input으로 사용하고, complex-valued filters(ϕn)n=1..N bank를 사용하여 convolution을 계산한 다음 제곱 modulus 연산자를 사용하여 출력을 real-valued domain으로 되돌립니다. 이 convolution step은 1 stride를 가지므로 input temporal resolution을 유지하고 다음과 같은 time-frequency representation을 출력합니다.

ϕn∈CW은 길이 W의 complex-valued 1-D filter입니다. complex number를 명시적으로 조작하지 않고도 equation 2를 계산할 수 있습니다. Zeghidour et al. (2018a)이 제안한 바와 같이, N filter가 있는 complex-valued convolution의 제곱된 모듈러스를 생성하기 위해, 대신 2N real-valued filters ϕ~n, n = 1..., 2n으로 convolution을 계산하고, 인접 filter를 ϕn의 real과 imaginary part로 사용하여 제곱 계수를 얻기 위해 채널 axis을 따라 size 2와 stride2로 제곱된 l2-pooling을 수행합니다. 공식적으로,

우리는 ϕn에 대한 두 가지 다르 매개 변수를 탐구합니다. 하나는 완전히 매개 변수화된 표준 convolution filter에 의존하는 반면 다른 하나는 learnable Gabor filter를 사용합니다.
3.1.1 Normalized 1D-Convolution
Zeghidour et al (2018a)에서 영감을 받은 첫 번째 버전의 filtering 구성 요소는 mel-filterbank의 계산에 근접한 Gabor filter bank로 초기화된 standard 1D convolution입니다. 따라서, 초기화 시 frontend의 출력은 mel-filter bank의 출력과 동일하지만, 훈련 중에 filter를 역전파를 통해 학습할 수 있습니다. 초기 실험에서 우리는 이 접근법의 몇 가지 한계를 관찰했습니다.

첫째, 제약 없는 최적화로 인해 이러한 필터는 frequency band 선택뿐만 아니라 scaling factor를 학습합니다. 동일한 형태의 scaling이 frontend의 후반 stage에서 적용되는 filter-wise compression 구성요소에 의해 계산될 수도 있기 때문에 훈련 중에 불안정해질 수도 있습니다. convolution을 계산하기 전에 filter coefficients에 l2-normalization을 적용하여 이 문제를 해결합니다.
둘째, 제약되지 않은 매개 변수화는 freedom의 degree의 수를 증가시켜 훈련이 과적화되기 쉽습니다. 그림 2의 첫 번째 패널은 각각 W=401 coefficients로 파라미터된 N=40 filter bank의 주파수 응답을 보여줍니다.
수렴시 주파수 축에 광범위하게 퍼져 있으며, 음의 주파수를 포함하고 있음을 관찰하였습니다. 게다가, filter는 부드럽기 보다는 매우 뾰족합니다. 이러한 문제를 완화하기 위해 다음 섹션에서는 learnable 매개 변수의 수를 줄이는 동시에 안정적이고 해석가능한 representation을 훈련하는 동안에 시행하는 Gabor filter bank에 기반한 매개 변수화를 소개합니다.
3.1.2 Gabor 1D-Convolution
Gabor filter는 sinusoidal signal을 가진 Gaussian kernel을 변조하여 생성합니다.
- time과 frequency (Gabor, 1946)의 localization 사이에 optimal trade-off가 있어 유한한 크기의 filter가 있는 convolution network에 적절한 선택이다. 이는 filter의 각 측면에서 갑작스러운 변화를 부드럽게 하기 위해 window 함수를 사용해야 하는 Sinc filter(Ravanelli & Bengio, 2018)와 대조됩니다.
- Gabor filter의 time 및 frequency response는 feature 형태가 동일하기 때문에 이 전 섹션에서 설명한 unconstrained filter와 달리 해석 가능한 bandpass filter로 이어집니다.
- Gabor filter는 quasi-analytic (즉, negative frequency에 대한 frequency response는 거의 0)이며, 제곱 계수와 결합하면 결과 filterbank는 작은 이동에 invariant인 subband Hilbert envelope의 set로 해석될 수 있습니다.
이러한 바람직한 특징 때문에, 이 전에 speech와 speaker recognition을 위한 (고정된) feature로 사용되었습니다 (Falk & Chan, 2009; Thomas et al, 2008) 공식적으로 Gabor filter는 center frequency (ηn)n=1..N와 inverse bandwidths (σn)n=1..N 의해 다음과 같이 매개 변수화 됩니다.

ϕn의 frequency response는 bandwidth 1/σ을 중심으로 하는 Gaussian이며, 둘다 [-1/2, +1/2]에서 정규화된 frequency 단위로 표현됩니다. 따라서, 이러한 매개 변수를 학습하면 제어 가능한 center frequency와 bandwidth를 사용하여 부드러운 quasi-analytic bandpass filter의 bank를 학습할 수 있습니다. 훈련 중에 안정성을 보장하기 위해 center frequency (ηn)n=1..N를 [0, 1/2]로 clip하여 frequency range의 positive의 부분에 놓습니다. 우리는 또한 bandwidth을 [4√2log2, 2W√2log2]범위로 제한하여 frequency response의 최대 반값에서 full-width가 1/W 및 1/2이내가 되도록 합니다.
Gabor filter는 섹션 3.1.1에서 설명한 정규화된 1-D convolution보다 훨씬 적은 매개변수를 가지고 있습니다. 길이 W이 N필터는 standard 1D convolution에 대해 W · N에 대해 center frequency에 대해 N 및 bandwidth에 대해 N, 2N 매개변수로 설명됩니다. 특히, 25ms의 window 길이를 사용할 때 16kHz의 sampling rate에서 작동하면 W=401개 sample이 되고, Gabor기반 filtering은 제약이 없는 대안보다 200배 적은 매개변수를 설명합니다.
3.1.3 Time-frequency Analysis and Learnable Filters
linear 또는 mel scale로 된 spectrogram은 정렬된 time frequency representation을 제공합니다. 인접 frame은 연속 시간 step을 나타내지만 frequency는 feature 축을 따라 단조롭게 증가합니다. 일련의 bandpass filter로 convolution을 통해 filtering을 수행하는 학습 가능한 frontend는 시간 축에 따른 순서도 보존합니다. 그러나 feature 축에 따른 순서는 제한되지 않습니다. 이는 frequency 순서에 의존하는 subsequent 연산을 적용할 때 문제가 될 수 있습니다.
여기에 다음이 포함됩니다.
- local frequency 정보를 활용하는 작업
-
예를 들어, 2차원 컨볼루션은 로컬 time-frequnecy patch를 기반으로 feature representation을 계산한다.
-
- frequency 축을 따라 장거리 종속성을 활용하는 연산
- 기본 신호의 harmonic structure를 획득하기 위해
- SpecAugment(Park et al, 2019)와 인접 frequency band를 마스킹하는 augmentation 방법
학습된 filter의 center frequency에 대한 명시적 순서 적용의 영향을 평가하기 위해, 우리는 Gabor filter를 사용하여 center frequency 순서를 명시적으로 시행하거나 시행하지 않고 frontend를 훈련한 결과를 비교했습니다. 흥미롭게도, 명시 제약이 없더라도 초기화 시 정렬된 필터는 훈련 내내 동일한 순서를 유지하는 경향이 있으며, 정렬된 필터를 적용해도 성능에 영향을 미치지 않습니다.
3.2 Learnable Lowpass Pooling
- Zeghidour et al(2018a)은 모든 input 채널에 대해 단일 공유 lowpass filter와 연결되도록 depthwise convolution을 통해 lowpass filtering을 구현합니다. 학습 가능한 frontend의 각 채널은 서로 다른 대역폭으로 특징지어지며, 각각의 채널에 대해 특정 lowpass filter를 학습할 수 있기 때문에 유용합니다.
- Gaussian impulse response를 가지도록 이러한 lowpass filter를 매개 변수화합니다.

3.3 Learning per-channel Compression and Normalization



사용한 Loss function

A Learnable Frontend for Audio Classification논문에 대한 핵심적인 설명만 정리할려고 합니다. ICLR 2021, google
Abstract
그동안 Mel-filterbanks는 인간의 perception을 모방하고 오늘날까지 오디오 역사를 통들어 고정된 엔지니어링으로 사용된 오디오 feature입니다. 하지만, handmade representation으로 인한 근본적인 한계가 있습니다.
본 연구에서는 speech, music, audio event 및 animal sound를 포함한 광범위한 오디오 신호에서 Mel-filterbanks를 능가하는 single learnable frontend를 훈련하여 오디오 분류를 위한 범용 learned frontend를 제공할 수 있음을 보여줍니다. 이를 위해 Mel-filterbanks의 대체물로 사용할 수 있는 새로운 원칙적이고 lightweight한 learnable 아키텍처를 소개합니다.
우리 시스템은 필터링에서 pooling, compression 및 normalization에 이르기까지 오디오 feature extraction의 모든 연산을 학습하며, 무시할 수 있는 매개 변수 비용으로 모든 신경망에 통합할 수 있다.
우리는 8가지 다양한 오디오 분류 작업에 대해 멀티태스킹 학습을 수행하고, Mel-filterbanks 및 이전의 학습 가능한 대안보다 우리 모델이 일관되게 개선되었음을 보여줍니다. 또한 우리 시스템은 훨씬 적은 매개 변수로 Audioset에서 learnable 최신 frontend를 능가한다.
1. Introduction

mel-filterbank는 우리가 흔히 사용하는 필터입니다. 주황색 박스는 학습이 되지않고 고정된 handmade로 representation한 박스이고, 파란색 박스는 학습에 의해서 그 값들이 결정되는 박스들입니다. 이 논문에서 제안한 LEAF모델만 처음부터 끝까지 학습가능한 형태로 만들어져있습니다.
Mel-filter bank는 STFT의 제곱 계수를 사용하여 spectrogram을 계산하고 spectrogram은 음높이에 대한 비선형 인간 인식을 복제하기 위해 log 척도(mel 척도)로 간격을 둔 삼각형 bandpass filter를 통과합니다. 결국 계수는 음량에 대한 비선형 민감도를 복제하기 위해 log compression을 통과합니다. 이렇게 사용한 이유는 인간의 청각 시스템에서 영감을 받아 만들어졌습니다.
2. related work
mel filter bank의 대안으로 하이브리드 DNN-HMM 모델을 훈련하여 여러 layer의 convolution으로 mel filter bank를 대체하면서 ASR에 나타났습니다. 그러니 이러한 대안들은 많은 layer로 구성되어 있어 mel-filter bank와 공정한 비교가 어렵습니다. 다음 섹션에서는 유사한 용량의 mel-filter bank를 lightweight, drop-in방식으로 대체하는 frontend에 초점을 맞춥니다.
2.1 learning filters from waveform
- mel filter bank를 학습하기 위한 첫 번째 시도 : Sainath et al.(2013)의해서 제안됨.
- filter bank는 mel scale을 사용하여 초기화된 다음 spectrogram을 사용하여 네트워크의 나머지 부분과 함께 학습
- Sainath et al (2015)와 Hoshen et al (2015)
- Gammatone filter(Schluter et al, 2007)로 초기화된 raw waveform에서 directly convolution filter를 학습할 것을 제안
- Zeghidour et al (2018a)는
- mel-filterbanks의 scattering transform 근사치 (Anden & Mallat, 2014)를 사용해 초기화 시 mel-filter bank를 근사화하고 제약 없이 학습할 수 있는 learnable frontend인 time-domain filter bank를 제안.
- SincNet (Ravanelli & Bengio, 2018)모델
- sine carinal filters, non-linearity와 max-pooling 연산를 사용하여 convolution을 계산하고 Gabor filter를 사용한 variant를 계산하는 것을 제안.
- 우리의 모델은 Gabor filter를 complex valued filtering로 매개변수화 한다.
- window function을 사용해야하는 Sinc filter (Ravanelli & Bengio, 2018)와 달리 Gabor filter는 time과 frequency (Gabor, 1946)에서 최적으로 localize된다.
- 나머지 네트워크에서 complex-valued layer를 사용한 Noe et al (2020)와 달리, 우리는 3.1.2절에서 제곱 계수를 사용하면 신호를 real valued domain으로 되돌릴 뿐만아니라 (표준 아키텍처와의 호환성을 유도함) shift-invariant Hilbert envelope extraction을 설명합니다.
- Zeghidour et al.(2018a) 또한 제곱 계수 non-linearity을 적용하지만, 섹션 3.1.1에 설명된 대로 제한되지 않은 filter를 훈련하면, overfitting과 stability이슈가 발생할 수 있으며, 이 문제는 우리의 접근 방식으로 해결할 수 있습니다.
2.2 Learning the compression and the normalization
compression과 normalization을 학습하는 문제는 과거 문헌에서 덜 주목 받았었습니다. 주목할만 기여는 Per-Channel Energy Normalization (PCEN) (Wang et al. 2017, Lostanlen et al., 2019)로 원래 keyword spotting을 위해 제안되어 log-compression보다 성능이 뛰어났습니다. 나중에 Battenberg et al.(2017) 및 Lostanlen et al.(2018)은 대규모 ASR 및 동물 생체 음향에 대해 각각 PCEN의 이점을 확인했습니다. 그러나 이러한 이전 work은 fixed mel-filterbanks 위에서 압축을 학습합니다. 대신 이 작업에서 우리는 새로운 버전의 PCEN을 제안하고 학습 가능한 filter, 학습 가능한 pooling, 합습 가능한 compression 및 normalization을 결합하는 것이 다른 모든 접근 방식을 능가한다는 것을 처음으로 보여줍니다.
3. model
x ∈ RT를 sampling frequency Fs [Hz]에서 사용할 수 있는 T 샘플의 1차원 파형이라고 합니다.
우리는 프론트엔드를 세 가지 구성 요소의 시퀀스로 분해한다.
- 원래 sampling rate Fs로 작동하는 non-linearity가 뒤따르는 bandpass filter의 bank를 통과해 x를 통과하는 filtering
- temporal resolution을 줄이기 위해 신호를 소멸시키는 pooling,
- dynamic range를 줄이기 위해 비선형성을 적용하는 compression/normalization.
전체적으로, frontend는 input waveform을 2차원 feature 공간에 매핑하는 함수 Fψ : R^{T} → R^{M×N}으로 나타낼 수 있으며, 여기서 M은 temporal frame의 수(일반적으로 M < T), N개의 feature 채널 수(주파수 빈에 해당할 수 있음) 및 ψ frontend 파라미터를 나타냅니다. 그런 다음 frontend에 의해 계산된 feature은 θ에 의해 매개 변수화된 모델 g((·)에 공급된다. frontend 및 모델 매개 변수는 supervised classification 문제를 해결하여 추정합니다.

labelled dataset D와 L에서 sample은 loss function입니다. 우리의 목표는 model parameters θ와 end to end frontend parameters ψ를 학습하는 것입니다. 이를 달성하기 위해서 모든 front-end 성분들은 gradient descent를 가진 equation 1의 optimization problem을 해결하기 위해 학습해야만한다. 각 구성요소의 설계 선택에 대해 자세히 설명합니다.
3.1 Filtering
학습할 수 있는 frontend의 첫 번째 block은 x를 input으로 사용하고, complex-valued filters(ϕn)n=1..N bank를 사용하여 convolution을 계산한 다음 제곱 modulus 연산자를 사용하여 출력을 real-valued domain으로 되돌립니다. 이 convolution step은 1 stride를 가지므로 input temporal resolution을 유지하고 다음과 같은 time-frequency representation을 출력합니다.

ϕn∈CW은 길이 W의 complex-valued 1-D filter입니다. complex number를 명시적으로 조작하지 않고도 equation 2를 계산할 수 있습니다. Zeghidour et al. (2018a)이 제안한 바와 같이, N filter가 있는 complex-valued convolution의 제곱된 모듈러스를 생성하기 위해, 대신 2N real-valued filters ϕ~n, n = 1..., 2n으로 convolution을 계산하고, 인접 filter를 ϕn의 real과 imaginary part로 사용하여 제곱 계수를 얻기 위해 채널 axis을 따라 size 2와 stride2로 제곱된 l2-pooling을 수행합니다. 공식적으로,

우리는 ϕn에 대한 두 가지 다르 매개 변수를 탐구합니다. 하나는 완전히 매개 변수화된 표준 convolution filter에 의존하는 반면 다른 하나는 learnable Gabor filter를 사용합니다.
3.1.1 Normalized 1D-Convolution
Zeghidour et al (2018a)에서 영감을 받은 첫 번째 버전의 filtering 구성 요소는 mel-filterbank의 계산에 근접한 Gabor filter bank로 초기화된 standard 1D convolution입니다. 따라서, 초기화 시 frontend의 출력은 mel-filter bank의 출력과 동일하지만, 훈련 중에 filter를 역전파를 통해 학습할 수 있습니다. 초기 실험에서 우리는 이 접근법의 몇 가지 한계를 관찰했습니다.

첫째, 제약 없는 최적화로 인해 이러한 필터는 frequency band 선택뿐만 아니라 scaling factor를 학습합니다. 동일한 형태의 scaling이 frontend의 후반 stage에서 적용되는 filter-wise compression 구성요소에 의해 계산될 수도 있기 때문에 훈련 중에 불안정해질 수도 있습니다. convolution을 계산하기 전에 filter coefficients에 l2-normalization을 적용하여 이 문제를 해결합니다.
둘째, 제약되지 않은 매개 변수화는 freedom의 degree의 수를 증가시켜 훈련이 과적화되기 쉽습니다. 그림 2의 첫 번째 패널은 각각 W=401 coefficients로 파라미터된 N=40 filter bank의 주파수 응답을 보여줍니다.
수렴시 주파수 축에 광범위하게 퍼져 있으며, 음의 주파수를 포함하고 있음을 관찰하였습니다. 게다가, filter는 부드럽기 보다는 매우 뾰족합니다. 이러한 문제를 완화하기 위해 다음 섹션에서는 learnable 매개 변수의 수를 줄이는 동시에 안정적이고 해석가능한 representation을 훈련하는 동안에 시행하는 Gabor filter bank에 기반한 매개 변수화를 소개합니다.
3.1.2 Gabor 1D-Convolution
Gabor filter는 sinusoidal signal을 가진 Gaussian kernel을 변조하여 생성합니다.
- time과 frequency (Gabor, 1946)의 localization 사이에 optimal trade-off가 있어 유한한 크기의 filter가 있는 convolution network에 적절한 선택이다. 이는 filter의 각 측면에서 갑작스러운 변화를 부드럽게 하기 위해 window 함수를 사용해야 하는 Sinc filter(Ravanelli & Bengio, 2018)와 대조됩니다.
- Gabor filter의 time 및 frequency response는 feature 형태가 동일하기 때문에 이 전 섹션에서 설명한 unconstrained filter와 달리 해석 가능한 bandpass filter로 이어집니다.
- Gabor filter는 quasi-analytic (즉, negative frequency에 대한 frequency response는 거의 0)이며, 제곱 계수와 결합하면 결과 filterbank는 작은 이동에 invariant인 subband Hilbert envelope의 set로 해석될 수 있습니다.
이러한 바람직한 특징 때문에, 이 전에 speech와 speaker recognition을 위한 (고정된) feature로 사용되었습니다 (Falk & Chan, 2009; Thomas et al, 2008) 공식적으로 Gabor filter는 center frequency (ηn)n=1..N와 inverse bandwidths (σn)n=1..N 의해 다음과 같이 매개 변수화 됩니다.

ϕn의 frequency response는 bandwidth 1/σ을 중심으로 하는 Gaussian이며, 둘다 [-1/2, +1/2]에서 정규화된 frequency 단위로 표현됩니다. 따라서, 이러한 매개 변수를 학습하면 제어 가능한 center frequency와 bandwidth를 사용하여 부드러운 quasi-analytic bandpass filter의 bank를 학습할 수 있습니다. 훈련 중에 안정성을 보장하기 위해 center frequency (ηn)n=1..N를 [0, 1/2]로 clip하여 frequency range의 positive의 부분에 놓습니다. 우리는 또한 bandwidth을 [4√2log2, 2W√2log2]범위로 제한하여 frequency response의 최대 반값에서 full-width가 1/W 및 1/2이내가 되도록 합니다.
Gabor filter는 섹션 3.1.1에서 설명한 정규화된 1-D convolution보다 훨씬 적은 매개변수를 가지고 있습니다. 길이 W이 N필터는 standard 1D convolution에 대해 W · N에 대해 center frequency에 대해 N 및 bandwidth에 대해 N, 2N 매개변수로 설명됩니다. 특히, 25ms의 window 길이를 사용할 때 16kHz의 sampling rate에서 작동하면 W=401개 sample이 되고, Gabor기반 filtering은 제약이 없는 대안보다 200배 적은 매개변수를 설명합니다.
3.1.3 Time-frequency Analysis and Learnable Filters
linear 또는 mel scale로 된 spectrogram은 정렬된 time frequency representation을 제공합니다. 인접 frame은 연속 시간 step을 나타내지만 frequency는 feature 축을 따라 단조롭게 증가합니다. 일련의 bandpass filter로 convolution을 통해 filtering을 수행하는 학습 가능한 frontend는 시간 축에 따른 순서도 보존합니다. 그러나 feature 축에 따른 순서는 제한되지 않습니다. 이는 frequency 순서에 의존하는 subsequent 연산을 적용할 때 문제가 될 수 있습니다.
여기에 다음이 포함됩니다.
- local frequency 정보를 활용하는 작업
-
예를 들어, 2차원 컨볼루션은 로컬 time-frequnecy patch를 기반으로 feature representation을 계산한다.
-
- frequency 축을 따라 장거리 종속성을 활용하는 연산
- 기본 신호의 harmonic structure를 획득하기 위해
- SpecAugment(Park et al, 2019)와 인접 frequency band를 마스킹하는 augmentation 방법
학습된 filter의 center frequency에 대한 명시적 순서 적용의 영향을 평가하기 위해, 우리는 Gabor filter를 사용하여 center frequency 순서를 명시적으로 시행하거나 시행하지 않고 frontend를 훈련한 결과를 비교했습니다. 흥미롭게도, 명시 제약이 없더라도 초기화 시 정렬된 필터는 훈련 내내 동일한 순서를 유지하는 경향이 있으며, 정렬된 필터를 적용해도 성능에 영향을 미치지 않습니다.
3.2 Learnable Lowpass Pooling
- Zeghidour et al(2018a)은 모든 input 채널에 대해 단일 공유 lowpass filter와 연결되도록 depthwise convolution을 통해 lowpass filtering을 구현합니다. 학습 가능한 frontend의 각 채널은 서로 다른 대역폭으로 특징지어지며, 각각의 채널에 대해 특정 lowpass filter를 학습할 수 있기 때문에 유용합니다.
- Gaussian impulse response를 가지도록 이러한 lowpass filter를 매개 변수화합니다.

3.3 Learning per-channel Compression and Normalization



사용한 Loss function
