분류 전체보기

· Audio
23년 11월 2일 따끈따끈한 뉴 모델이 나왔습니다! 아래 github에서 보실 수 있습니다! 아래의 글은 아래 github링크에 있는 글을 한글로 번역한 포스팅입니다! github : https://github.com/huggingface/distil-whisper GitHub - huggingface/distil-whisper Contribute to huggingface/distil-whisper development by creating an account on GitHub. github.com 아쉽게도 한국어에도 특화된 모델은 아니고 영어 ASR버전이라 영어에 특화된 모습입니다. 이전 whisper모델은 한국어 연구자님이 공동 연구를 하여 훈련데이터셋에 한국어도 들어가서 한국어에서도 높은 성능을..
터미널에서 간단하게 numpy 버전을 확인하는 방법에 대해 알아보겠습니다. # 1. __version__ 함수를 사용해 numpy 버전 찾기 1. numpy 모듈을 import해주세요. 2. 모듈의 속성인 __version__을 확인해주시면 버전 체크가 가능합니다 import numpy as np print(np.__version__) # 1.26.1 터미널 사용시 예시 ) 1. python 입력 후 python 모드로 들어갑니다. 2. numpy 모듈 import 한 후, numpy의 별칭은 np로 지정해줍니다. 3. 별칭(np)을 부르면 numpy 모듈이 불러와집니다. 4. np.__version___ 을 출력해주면, numpy 모듈 안에 __version__속성이 불러와집니다. 5. numpy 버전..
· About
전) 스타트업 AI Audio researcher 현) 이포쉬림 대표(프리랜서) Interested in Audio processing, Speech recogntion, Speech synthesis, NLP(LLM), chatGPT, MLops 업무경력 Main research : Echo Cancellation, Speech Enhancement 과학기술정보통신부, 5G기반 이동형 유연의료 플랫폼 참여 Sound object detection, segmentation Source Separation (continual learning, self-supervised learning) Source separation can separate target sound(clean lung sound or he..
· 서평
2022년 현재 블록체인이라는 신기술이 떠오르고 있습니다. 그와 함께 가상화폐, NFT 연관 키워드들이 떠올르고 있고, NFT를 통해 엄청난 수익을 올렸다는 분들도 종종 볼 수 있었습니다. NFT이름만 알고 있지, 개념이나 투자방법에 대해 알지 못해, 모두의연구소 풀잎스쿨 19기를 통해서 NFT & DAO 풀잎을 신청하게 되었습니다. 현재 블록체인관련 스타트업에서 일하고 계신 오상준님이 이끄는 풀잎으로, 많은 인사이트를 얻어갈 수 있을 거란 기대를 하고 있습니다! 매번 모두의연구소 온라인 풀잎에서 느끼는 건, 그냥 발표자를 정하고, 공부해오고 발표하고 마무리되는 이런 느낌으로 진행이 되었었습니다. 여기서 풀잎이란? 모두의연구소에서 스터디를 대신하여 부르는 명칭으로 쓰입니다. 첫 날 풀잎에서 인상이 깊었던..
본 포스팅은 Naver Boostcourse 인공지능(AI) 기초 다지기를 수강하고 제가 공부한 내용을 토대로 작성한 글입니다. Q1. 중간고사 기말고사 점수를 따로 받아 저장하는 클래스를 구현해보세요. 단, 생성자의 인스턴스는 private으로 선언되어야하며, 데코레이터를 이용해 데이터를 저장하고, 함수를 이용해 평균값을 출력해보세요. - 자료형의 선언과 데코레이터를 이용해보세요. class Score: # 클래스 선언 def __init__(self, mid:int, final:int): # 객체 생성시 인스턴스 초기화 (초기생성자) self.__mid = mid #__변수명 --> private선언할 때 사용 self.__final = final # 생성자의 인스턴스 @property # priva..
· Paper
A Learnable Frontend for Audio Classification논문에 대한 핵심적인 설명만 정리할려고 합니다. ICLR 2021, google Abstract 그동안 Mel-filterbanks는 인간의 perception을 모방하고 오늘날까지 오디오 역사를 통들어 고정된 엔지니어링으로 사용된 오디오 feature입니다. 하지만, handmade representation으로 인한 근본적인 한계가 있습니다. 본 연구에서는 speech, music, audio event 및 animal sound를 포함한 광범위한 오디오 신호에서 Mel-filterbanks를 능가하는 single learnable frontend를 훈련하여 오디오 분류를 위한 범용 learned frontend를 제공할..
· 서평
안녕하세요! 리미에요!ㅎㅎㅎ 이번에 이지스퍼블리싱에서 하는 서평단에 당첨이 되어서 서평을 남기게 되었답니다!! 제가 평소에 너무나도 읽고싶었던 책에 서평단에 당첨이 되어서 얼마나 기쁜지 몰라요! Do it! BERT와 GPT로 배우는 자연어처리라는 책은 일전에 한국어 임베딩이라는 책을 집필하신 이기창님께서 책을 또 집필하시게 되었어요. 기자출신인 이기창님이 쓰신 책이니 믿고 볼 수 있겠죠?ㅋㅋㅋ 자연어처리분야에서는 transformer부터 배워야한다고 말할 정도로 transformer가 정말 basic한 structure가 되었어요! transformer의 인코더만으로 최고의 성능을 올린 bert와 transformer의 decoder로 만으로 만든 gpt에 대해서 소개하는 책입니다. 이 책은 단순히 b..
Abstract 최근 Transformer 및 Convolution neural network(CNN) 기반 모델은 Automatic Speech Recognition(ASR)에서 유망한 결과를 보여 주기 때문에 Recurrent neural networks (RNN)을 능가한다. Transformer 모델은 content-based global interactions을 잘 포착하는 반면, CNN은 local feature을 효과적으로 활용한다. 본 연구에서는 Convolution neural network과 Transformer를 결합하여 오디오 시퀀스의 local 및 global 의존성을 매개 변수 효율적인 방식으로 모델링하는 방법을 연구하여 양쪽 모두 최고를 달성한다. 이와 관련하여, 우리는 con..
논문 읽기 위한 기본 지식 내용 Speech enhancement란? 위의 그림은 기본적인 speech enhancement task를 time domain에서의 그림으로 표현한 것입니다. 파란색의 음성파형은 우리가 관심있는 clean speech (S(n))이고, 뒤에 배경은 noise (N(n))입니다. 이렇게 clean speech와 noise가 섞여 있는 상태를 noisy speech (Y(n))라고 부릅니다. speech enhancement는 noise와 clean speech가 섞여있는 noisy한 환경에서 noise를 제거하고 clean speech만 추출하는 것이 목표입니다. 본문에서는 clean speech와 nosie가 섞여있는 noisy한 환경을 mixture라고 부릅니다. Abst..
리미에오
'분류 전체보기' 카테고리의 글 목록 (4 Page)