speech recognition

[SR paper] Whisper - Robust Speech Recognition via Large-Scale Weak Supervision 파헤쳐보기

2023.11.14· Paper/Speech Recognition

안녕하세요 2023년 음성인식 중 가장 성능이 좋다고 알려진 일명 "whisper"라는 논문에 대해서 살펴보겠습니다. 현재 음성인식은 whisper를 base로 한 변형된 여러 모델들이 계속 나오고 있습니다! 변형된 모델을 살펴보기 전에 base가 되는 whisper모델은 어떤 모델인지 먼저 살펴보고 변형된 모델들에 대해서도 살펴보겠습니다! 음성인식이라는 것은 발화가 있는 오디오 데이터를 발화 그대로 text로 써주는 기술이죠! Speech to Text. 줄여서 STT라고 부릅니다. whisper는 광범위한 오디오 샘플에 대해 광범위하게 훈련된 다목적 음성 인식 모델입니다. 다국어 음성 인식, 음성 번역, 언어 식별등 여러 작업을 처리할 수 있는 멀티태스킹 모델입니다. #1. whisper 소개 기존 ..

Speech Recognition! whisper보다 6배 빠른 Distil-Whisper!

2023.11.01· Audio

23년 11월 2일 따끈따끈한 뉴 모델이 나왔습니다! 아래 github에서 보실 수 있습니다! 아래의 글은 아래 github링크에 있는 글을 한글로 번역한 포스팅입니다! github : https://github.com/huggingface/distil-whisper GitHub - huggingface/distil-whisper Contribute to huggingface/distil-whisper development by creating an account on GitHub. github.com 아쉽게도 한국어에도 특화된 모델은 아니고 영어 ASR버전이라 영어에 특화된 모습입니다. 이전 whisper모델은 한국어 연구자님이 공동 연구를 하여 훈련데이터셋에 한국어도 들어가서 한국어에서도 높은 성능을..

티스토리툴바