본문 바로가기
AI 서비스 구축 스터디/모델 조사

Whisper

by 열정주니어 2023. 4. 3.
반응형

Whisper(Web-scale Supervised Pre-training for Speech Recognition)

2022년 9월 OpenAI에서 공개한 트랜스포머 기반의 음성 인식 모델로, 68만 시간 이상의 음성 데이터를 학습하여 인간의 인식과 비슷한 수준의 성능을 확보하였다.

 

음성을 인식하여 텍스트로 변환하거나 번역을 수행할 수 있으며 현재 large-v2 버전이 업데이트되어 API로 이용할 수 있다.


Encoder의 입력 데이터가 음성 파일인 것을 제외하면 일반적인 트랜스포머 구조를 가지고 있다.

Special token을 활용하여 다양한 Task가 가능하도록 설계되었다.

한국어 데이터가 학습 데이터에 높은 비율로 포함되어 있어, 한국어 서비스에의 활용이 기대가 된다.

 

Whisper API 사용법

https://jobdahan-tech.tistory.com/entry/ChatGPT

 

ChatGPT

ChatGPT란 GPT(Generative Pre-trained Transformer)-3는 OpenAI에서 공개한 트랜스포머 구조 기반의 사전 학습된 언어 생성 모델로, 인간과 유사한 텍스트를 생성할 수 있다. https://jobdahan-tech.tistory.com/entry/Transfo

jobdahan-tech.tistory.com

위의 ChatGPT API 사용법을 이용하여 OpenAI 라이브러리까지 설치한다.

 

Transcription(텍스트 변환), Translation(번역) 두 개 기능을 지원하며 Transcription은 다중 언어를 지원하고 Translation은 영어로만 가능하다.

Github과 Huggingface를 통해서도 사용 가능하다.

 

Reference

https://platform.openai.com/overview

 

OpenAI API

An API for accessing new AI models developed by OpenAI

platform.openai.com

 

반응형

'AI 서비스 구축 스터디 > 모델 조사' 카테고리의 다른 글

BERT  (0) 2023.04.04
GAN  (0) 2023.04.03
ChatGPT  (0) 2023.04.03
Transformer  (0) 2023.04.03
Naver Clova  (0) 2023.04.03