본문 바로가기
반응형

transformer3

BERT BERT BERT는 2018년 구글이 공개한 사전 학습된 모델이다. BERT는 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어) 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. BERT가 높은 성능을 얻을 수 있는 것은 레이블이 없는 방대한 데이터로 사전 훈련된 모델로 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 성능이 높게 나오는 기존의 사례들을 참고하였기 때문이다. 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인 튜닝(Fine-tuning)이라고 한다. BERT 학습 과정 1. 단어들을 임베딩한다. (input layer) - Token Embedding : 각 문자 단위로 임베딩 .. 2023. 4. 4.
Whisper Whisper(Web-scale Supervised Pre-training for Speech Recognition) 2022년 9월 OpenAI에서 공개한 트랜스포머 기반의 음성 인식 모델로, 68만 시간 이상의 음성 데이터를 학습하여 인간의 인식과 비슷한 수준의 성능을 확보하였다. 음성을 인식하여 텍스트로 변환하거나 번역을 수행할 수 있으며 현재 large-v2 버전이 업데이트되어 API로 이용할 수 있다. Encoder의 입력 데이터가 음성 파일인 것을 제외하면 일반적인 트랜스포머 구조를 가지고 있다. Special token을 활용하여 다양한 Task가 가능하도록 설계되었다. 한국어 데이터가 학습 데이터에 높은 비율로 포함되어 있어, 한국어 서비스에의 활용이 기대가 된다. Whisper API 사.. 2023. 4. 3.
Transformer Transformer Transformer는 RNN 언어 모델에서부터 시작었다. 기존의 RNN은 하나의 고정된 크기의 벡터(Context vector)에 모든 정보를 압축하므로 정보 손실이 발생하며 순차적 입력 구조 때문에 먼저 입력된 단어의 정보가 잘 반영되지 않는(Vanishing gradient) 단점이 존재한다. 이를 보정해주기 위한 어텐션(Attention) 기법이 등장했지만, 순차적 입력 구조는 그대로이므로 성능 개선에 한계가 있다. 어텐션은 입력 문장 내의 단어들끼리 유사도를 구함으로써 특정 단어와 연관된 확률이 높은 단어를 찾으므로 RNN의 정보 손실 문제를 해결할 수 있다. 트랜스포머는 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용(Positional encoding.. 2023. 4. 3.
반응형