본문 바로가기
반응형

AI 서비스 구축 스터디/모델 조사9

YOLO Object Detection (객체 탐지) 객체 탐지는 컴퓨터 비전, 이미지 처리와 관련된 컴퓨터 기술로 디지털 이미지와 비디오로 특정한 계열의 시맨틱 객체 인스턴스를 감지하는 일을 다룬다. YOLO란 CNN 기반 대표적인 단일 단계 방식의 객체 탐지 알고리즘(고정된 사이즈의 그리드 영역으로 크기가 미리 결정된 객체 식별)이다. YOLO의 특징은 다음과 같다. - 실시간 객체 탐지 - 객체들의 위치를 한번만 보고 예측 - 미리 지정된 경계박스(Bounding Box)의 개수를 예측하고 신뢰도를 계산 - 높은 신뢰도를 가지는 객체의 위치를 찾아 카테고리를 파악 YOLO 작동 방법 객체 탐지 역할의 그리드 박스(Grid Box)와, 객체 정보를 담고 있는 경계 박스(Bounding Box)를 이용하여 객체.. 2023. 4. 4.
BERT BERT BERT는 2018년 구글이 공개한 사전 학습된 모델이다. BERT는 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어) 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. BERT가 높은 성능을 얻을 수 있는 것은 레이블이 없는 방대한 데이터로 사전 훈련된 모델로 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 성능이 높게 나오는 기존의 사례들을 참고하였기 때문이다. 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인 튜닝(Fine-tuning)이라고 한다. BERT 학습 과정 1. 단어들을 임베딩한다. (input layer) - Token Embedding : 각 문자 단위로 임베딩 .. 2023. 4. 4.
GAN GAN GAN은 Generative Adversarial Nets이라는 논문을 통해 나온 모델로 진짜와 동일해 보이는 이미지를 생성하는 모델이다. GAN은 크게 3가지 Unconditional GAN, Conditional GAN, Super Resolution으로 분류된다. 초기 GAN의 아키텍처는 다음과 같이 Generator(생성자)와 Discriminator(판별자)로 구성되었다. GAN은 Generator와 Discriminator로 이루어져 있어 동시에 두 개의 모델을 훈련하는 것이 특징이다. 여기서 z라고 하는 것은 랜덤 벡터 z를 의미하는 것으로 오른쪽 그림의 uniform distribution이나 normal distribution을 따른다고 한다. 이 랜덤 벡터 z를 Generator.. 2023. 4. 3.
Whisper Whisper(Web-scale Supervised Pre-training for Speech Recognition) 2022년 9월 OpenAI에서 공개한 트랜스포머 기반의 음성 인식 모델로, 68만 시간 이상의 음성 데이터를 학습하여 인간의 인식과 비슷한 수준의 성능을 확보하였다. 음성을 인식하여 텍스트로 변환하거나 번역을 수행할 수 있으며 현재 large-v2 버전이 업데이트되어 API로 이용할 수 있다. Encoder의 입력 데이터가 음성 파일인 것을 제외하면 일반적인 트랜스포머 구조를 가지고 있다. Special token을 활용하여 다양한 Task가 가능하도록 설계되었다. 한국어 데이터가 학습 데이터에 높은 비율로 포함되어 있어, 한국어 서비스에의 활용이 기대가 된다. Whisper API 사.. 2023. 4. 3.
ChatGPT ChatGPT란 GPT(Generative Pre-trained Transformer)-3는 OpenAI에서 공개한 트랜스포머 구조 기반의 사전 학습된 언어 생성 모델로, 인간과 유사한 텍스트를 생성할 수 있다. https://jobdahan-tech.tistory.com/entry/Transformer Transformer Transformer Transformer는 RNN 언어 모델에서부터 시작었다. 기존의 RNN은 하나의 고정된 크기의 벡터(Context vector)에 모든 정보를 압축하므로 정보 손실이 발생하며 순차적 입력 구조 때문에 먼저 입력 jobdahan-tech.tistory.com GPT-3는 약 1750억 개의 파라미터를 가지고, 메타 학습(Meta learning)과 인간의 피드백.. 2023. 4. 3.
Transformer Transformer Transformer는 RNN 언어 모델에서부터 시작었다. 기존의 RNN은 하나의 고정된 크기의 벡터(Context vector)에 모든 정보를 압축하므로 정보 손실이 발생하며 순차적 입력 구조 때문에 먼저 입력된 단어의 정보가 잘 반영되지 않는(Vanishing gradient) 단점이 존재한다. 이를 보정해주기 위한 어텐션(Attention) 기법이 등장했지만, 순차적 입력 구조는 그대로이므로 성능 개선에 한계가 있다. 어텐션은 입력 문장 내의 단어들끼리 유사도를 구함으로써 특정 단어와 연관된 확률이 높은 단어를 찾으므로 RNN의 정보 손실 문제를 해결할 수 있다. 트랜스포머는 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용(Positional encoding.. 2023. 4. 3.
Naver Clova Naver Clova 네이버 클로바(Naver Clova)는 네이버에서 개발한 인공지능 플랫폼이며 검색 기능, 날씨 정보, 음악 추천 및 재생, 번역, 영어 프리토킹 등 다양한 기능들을 제공한다. 이러한 다양한 AI 서비스 중 무료로 체험해볼 수 있는 Clova sentiment, Summary 서비스를 이용해보도록 한다. Clova Sentiment 한국어에 최적화된 감정 분석 기술 서비스로 블로그, 댓글, SNS 등 한글로 작성된 글 속에 표현된 감정을 분석해 주는 API이다. Clova Sentiment 예시 Clova Sentiment 요금 Clova Summary 문서 주제와 관계 없이 사용할 수 있는 API로 문서에서 가려낸 주요 내용을 기반으로 전체 내용을 간결하게 요약한다. Clova Su.. 2023. 4. 3.
간단한 AI 웹서비스 예제 주접 생성기 이름을 입력하면 주접 멘트를 생성해주는 서비스 스팸체 생성기 글귀를 입력하면 스팸체를 생성해주는 서비스 위와 같은 간단한 AI 웹서비스를 구축해보는 것이 스터디의 목표이다. 2023. 4. 3.
AI 모델 조사 시작 기획에 앞서 AI 서비스 구축에 사용할 AI 모델에 대한 조사를 먼저 시작한다. AI 모델을 만드는 것이 목표가 아니기 때문에 AI 서비스 구축에 AI 모델을 직접 코드를 구성하고 학습을 시키기 보다는 모델이 어떻게 돌아가는지 이해하고 잘 작성된 코드를 가져와 활용하거나 API를 활용하여 서비스를 구축하는 것을 목표로 한다. 따라서, 모델을 조사하는 과정에서 모델의 알고리즘에 대한 이해 보다는 작동 원리, 사용법 등에 더 초점을 두고 조사를 하도록 한다. 2023. 4. 3.
반응형