'분류 전체보기' 카테고리의 글 목록 (4 Page)

생성형 AI로 만든 음성 합성(Speech Synthesis)를 체험해볼수있는 곳이 있다구?!

2023.11.02· Audio

생성형 AI를 체험해볼 수 있는 사이트가 있어서 소개해드리려고 합니다~! 바로 아래 사이트인데요! 회원가입하고 로그인을 해야지만 무료로 체험이 가능한 것 같아요! 그래서 체험해보고싶으신분들은 회원가입하시고 사용하시면 될 것 같습니다! 로그인하시면 바로 아래와 같은 화면이 나오실 텐데요! 여기서는 Speech Synthesis의 결과를 나타나기 위한 여러 셋팅들을 조절할 수 있습니다! 어떤 사람이 말하는지 어떤 톤으로 말하는지 그리고 언어 선택까지~~!! 사람의 목소리를 선택할 수 있습니다! 저는 Patrick을 선택했는데요. 미국사람이고 소리지르는 듯한 목소리를 낸다고 하네요~! 사람 목록에는 여러 목소리를 내는 선택지들이 있어요! 여러분의 취향에 맞는 사람을 선택해봅시다~ 그리고 그 밑에는 Voice ..

Speech Recognition! whisper보다 6배 빠른 Distil-Whisper!

2023.11.01· Audio

23년 11월 2일 따끈따끈한 뉴 모델이 나왔습니다! 아래 github에서 보실 수 있습니다! 아래의 글은 아래 github링크에 있는 글을 한글로 번역한 포스팅입니다! github : https://github.com/huggingface/distil-whisper GitHub - huggingface/distil-whisper Contribute to huggingface/distil-whisper development by creating an account on GitHub. github.com 아쉽게도 한국어에도 특화된 모델은 아니고 영어 ASR버전이라 영어에 특화된 모습입니다. 이전 whisper모델은 한국어 연구자님이 공동 연구를 하여 훈련데이터셋에 한국어도 들어가서 한국어에서도 높은 성능을..

[python] Numpy 넘파이 버전 확인하기

2023.10.25· Language/Python

터미널에서 간단하게 numpy 버전을 확인하는 방법에 대해 알아보겠습니다. # 1. __version__ 함수를 사용해 numpy 버전 찾기 1. numpy 모듈을 import해주세요. 2. 모듈의 속성인 __version__을 확인해주시면 버전 체크가 가능합니다 import numpy as np print(np.__version__) # 1.26.1 터미널 사용시 예시 ) 1. python 입력 후 python 모드로 들어갑니다. 2. numpy 모듈 import 한 후, numpy의 별칭은 np로 지정해줍니다. 3. 별칭(np)을 부르면 numpy 모듈이 불러와집니다. 4. np.__version___ 을 출력해주면, numpy 모듈 안에 __version__속성이 불러와집니다. 5. numpy 버전..

About

2023.09.08· About

전) 스타트업 AI Audio researcher현) 이포쉬림 대표(프리랜서)Interested in Audio processing, Speech recogntion, Speech synthesis, NLP(LLM), chatGPT, MLops 업무경력Main research : Echo Cancellation, Speech Enhancement과학기술정보통신부, 5G기반 이동형 유연의료 플랫폼 참여Sound object detection, segmentation Source Separation (continual learning, self-supervised learning)Source separation can separate target sound(clean lung sound or heart so..

NFT와 DAO 스터디와 퍼실리테이팅의 중요성

2022.04.23· 서평

2022년 현재 블록체인이라는 신기술이 떠오르고 있습니다. 그와 함께 가상화폐, NFT 연관 키워드들이 떠올르고 있고, NFT를 통해 엄청난 수익을 올렸다는 분들도 종종 볼 수 있었습니다. NFT이름만 알고 있지, 개념이나 투자방법에 대해 알지 못해, 모두의연구소 풀잎스쿨 19기를 통해서 NFT & DAO 풀잎을 신청하게 되었습니다. 현재 블록체인관련 스타트업에서 일하고 계신 오상준님이 이끄는 풀잎으로, 많은 인사이트를 얻어갈 수 있을 거란 기대를 하고 있습니다! 매번 모두의연구소 온라인 풀잎에서 느끼는 건, 그냥 발표자를 정하고, 공부해오고 발표하고 마무리되는 이런 느낌으로 진행이 되었었습니다. 여기서 풀잎이란? 모두의연구소에서 스터디를 대신하여 부르는 명칭으로 쓰입니다. 첫 날 풀잎에서 인상이 깊었던..

[python] 객체지향 Object Oriented Programming(OOP) 퀴즈로 클래스 정리하기

2022.02.01· Language/Python

본 포스팅은 Naver Boostcourse 인공지능(AI) 기초 다지기를 수강하고 제가 공부한 내용을 토대로 작성한 글입니다. Q1. 중간고사 기말고사 점수를 따로 받아 저장하는 클래스를 구현해보세요. 단, 생성자의 인스턴스는 private으로 선언되어야하며, 데코레이터를 이용해 데이터를 저장하고, 함수를 이용해 평균값을 출력해보세요. - 자료형의 선언과 데코레이터를 이용해보세요. class Score: # 클래스 선언 def __init__(self, mid:int, final:int): # 객체 생성시 인스턴스 초기화 (초기생성자) self.__mid = mid #__변수명 --> private선언할 때 사용 self.__final = final # 생성자의 인스턴스 @property # priva..

A Learnable Frontend for Audio Classification : feature를 학습한다고??!!

2022.01.10· Paper

A Learnable Frontend for Audio Classification논문에 대한 핵심적인 설명만 정리할려고 합니다. ICLR 2021, google Abstract 그동안 Mel-filterbanks는 인간의 perception을 모방하고 오늘날까지 오디오 역사를 통들어 고정된 엔지니어링으로 사용된 오디오 feature입니다. 하지만, handmade representation으로 인한 근본적인 한계가 있습니다. 본 연구에서는 speech, music, audio event 및 animal sound를 포함한 광범위한 오디오 신호에서 Mel-filterbanks를 능가하는 single learnable frontend를 훈련하여 오디오 분류를 위한 범용 learned frontend를 제공할..

재미있게 배우는 Do it! BERT와 GPT로 배우는 자연어처리 읽고 난 후기~~!!!

2022.01.06· 서평

안녕하세요! 리미에요!ㅎㅎㅎ 이번에 이지스퍼블리싱에서 하는 서평단에 당첨이 되어서 서평을 남기게 되었답니다!! 제가 평소에 너무나도 읽고싶었던 책에 서평단에 당첨이 되어서 얼마나 기쁜지 몰라요! Do it! BERT와 GPT로 배우는 자연어처리라는 책은 일전에 한국어 임베딩이라는 책을 집필하신 이기창님께서 책을 또 집필하시게 되었어요. 기자출신인 이기창님이 쓰신 책이니 믿고 볼 수 있겠죠?ㅋㅋㅋ 자연어처리분야에서는 transformer부터 배워야한다고 말할 정도로 transformer가 정말 basic한 structure가 되었어요! transformer의 인코더만으로 최고의 성능을 올린 bert와 transformer의 decoder로 만으로 만든 gpt에 대해서 소개하는 책입니다. 이 책은 단순히 b..

[SR paper] Conformer: Convolution-augmented Transformer for Speech Recognition 파헤치기~!

2022.01.04· Paper/Speech Recognition

Abstract 최근 Transformer 및 Convolution neural network(CNN) 기반 모델은 Automatic Speech Recognition(ASR)에서 유망한 결과를 보여 주기 때문에 Recurrent neural networks (RNN)을 능가한다. Transformer 모델은 content-based global interactions을 잘 포착하는 반면, CNN은 local feature을 효과적으로 활용한다. 본 연구에서는 Convolution neural network과 Transformer를 결합하여 오디오 시퀀스의 local 및 global 의존성을 매개 변수 효율적인 방식으로 모델링하는 방법을 연구하여 양쪽 모두 최고를 달성한다. 이와 관련하여, 우리는 con..

[SE Paper] : Complex Ratio Masking (CIRM) for Monaural Speech Separation 파헤치기~!

2022.01.02· Paper/Speech Enhancement

논문 읽기 위한 기본 지식 내용 Speech enhancement란? 위의 그림은 기본적인 speech enhancement task를 time domain에서의 그림으로 표현한 것입니다. 파란색의 음성파형은 우리가 관심있는 clean speech (S(n))이고, 뒤에 배경은 noise (N(n))입니다. 이렇게 clean speech와 noise가 섞여 있는 상태를 noisy speech (Y(n))라고 부릅니다. speech enhancement는 noise와 clean speech가 섞여있는 noisy한 환경에서 noise를 제거하고 clean speech만 추출하는 것이 목표입니다. 본문에서는 clean speech와 nosie가 섞여있는 noisy한 환경을 mixture라고 부릅니다. Abst..

티스토리툴바