Paper/Speech Recognition

안녕하세요 2023년 음성인식 중 가장 성능이 좋다고 알려진 일명 "whisper"라는 논문에 대해서 살펴보겠습니다. 현재 음성인식은 whisper를 base로 한 변형된 여러 모델들이 계속 나오고 있습니다! 변형된 모델을 살펴보기 전에 base가 되는 whisper모델은 어떤 모델인지 먼저 살펴보고 변형된 모델들에 대해서도 살펴보겠습니다! 음성인식이라는 것은 발화가 있는 오디오 데이터를 발화 그대로 text로 써주는 기술이죠! Speech to Text. 줄여서 STT라고 부릅니다. whisper는 광범위한 오디오 샘플에 대해 광범위하게 훈련된 다목적 음성 인식 모델입니다. 다국어 음성 인식, 음성 번역, 언어 식별등 여러 작업을 처리할 수 있는 멀티태스킹 모델입니다. #1. whisper 소개 기존 ..
Abstract 최근 Transformer 및 Convolution neural network(CNN) 기반 모델은 Automatic Speech Recognition(ASR)에서 유망한 결과를 보여 주기 때문에 Recurrent neural networks (RNN)을 능가한다. Transformer 모델은 content-based global interactions을 잘 포착하는 반면, CNN은 local feature을 효과적으로 활용한다. 본 연구에서는 Convolution neural network과 Transformer를 결합하여 오디오 시퀀스의 local 및 global 의존성을 매개 변수 효율적인 방식으로 모델링하는 방법을 연구하여 양쪽 모두 최고를 달성한다. 이와 관련하여, 우리는 con..
리미에오
'Paper/Speech Recognition' 카테고리의 글 목록