Paper

안녕하세요 2023년 음성인식 중 가장 성능이 좋다고 알려진 일명 "whisper"라는 논문에 대해서 살펴보겠습니다. 현재 음성인식은 whisper를 base로 한 변형된 여러 모델들이 계속 나오고 있습니다! 변형된 모델을 살펴보기 전에 base가 되는 whisper모델은 어떤 모델인지 먼저 살펴보고 변형된 모델들에 대해서도 살펴보겠습니다! 음성인식이라는 것은 발화가 있는 오디오 데이터를 발화 그대로 text로 써주는 기술이죠! Speech to Text. 줄여서 STT라고 부릅니다. whisper는 광범위한 오디오 샘플에 대해 광범위하게 훈련된 다목적 음성 인식 모델입니다. 다국어 음성 인식, 음성 번역, 언어 식별등 여러 작업을 처리할 수 있는 멀티태스킹 모델입니다. #1. whisper 소개 기존 ..
· Paper
A Learnable Frontend for Audio Classification논문에 대한 핵심적인 설명만 정리할려고 합니다. ICLR 2021, google Abstract 그동안 Mel-filterbanks는 인간의 perception을 모방하고 오늘날까지 오디오 역사를 통들어 고정된 엔지니어링으로 사용된 오디오 feature입니다. 하지만, handmade representation으로 인한 근본적인 한계가 있습니다. 본 연구에서는 speech, music, audio event 및 animal sound를 포함한 광범위한 오디오 신호에서 Mel-filterbanks를 능가하는 single learnable frontend를 훈련하여 오디오 분류를 위한 범용 learned frontend를 제공할..
Abstract 최근 Transformer 및 Convolution neural network(CNN) 기반 모델은 Automatic Speech Recognition(ASR)에서 유망한 결과를 보여 주기 때문에 Recurrent neural networks (RNN)을 능가한다. Transformer 모델은 content-based global interactions을 잘 포착하는 반면, CNN은 local feature을 효과적으로 활용한다. 본 연구에서는 Convolution neural network과 Transformer를 결합하여 오디오 시퀀스의 local 및 global 의존성을 매개 변수 효율적인 방식으로 모델링하는 방법을 연구하여 양쪽 모두 최고를 달성한다. 이와 관련하여, 우리는 con..
논문 읽기 위한 기본 지식 내용 Speech enhancement란? 위의 그림은 기본적인 speech enhancement task를 time domain에서의 그림으로 표현한 것입니다. 파란색의 음성파형은 우리가 관심있는 clean speech (S(n))이고, 뒤에 배경은 noise (N(n))입니다. 이렇게 clean speech와 noise가 섞여 있는 상태를 noisy speech (Y(n))라고 부릅니다. speech enhancement는 noise와 clean speech가 섞여있는 noisy한 환경에서 noise를 제거하고 clean speech만 추출하는 것이 목표입니다. 본문에서는 clean speech와 nosie가 섞여있는 noisy한 환경을 mixture라고 부릅니다. Abst..
리미에오
'Paper' 카테고리의 글 목록