반응형 voice ai1 Whisper Whisper(Web-scale Supervised Pre-training for Speech Recognition) 2022년 9월 OpenAI에서 공개한 트랜스포머 기반의 음성 인식 모델로, 68만 시간 이상의 음성 데이터를 학습하여 인간의 인식과 비슷한 수준의 성능을 확보하였다. 음성을 인식하여 텍스트로 변환하거나 번역을 수행할 수 있으며 현재 large-v2 버전이 업데이트되어 API로 이용할 수 있다. Encoder의 입력 데이터가 음성 파일인 것을 제외하면 일반적인 트랜스포머 구조를 가지고 있다. Special token을 활용하여 다양한 Task가 가능하도록 설계되었다. 한국어 데이터가 학습 데이터에 높은 비율로 포함되어 있어, 한국어 서비스에의 활용이 기대가 된다. Whisper API 사.. 2023. 4. 3. 이전 1 다음 반응형