[NLP] Pre-trained Language Model(PLM)

2023. 11. 7. 15:28ML&DL/NLP

사전 학습 모델(Pre-trained Model)

- 대용량의 데이터를 이용해 사전 학습한 모델 

=>  예를 들어 동물을 분류하는 사전 학습 모델이 있다면, 우리는 이 모델을 이용해 고양이를 분류하는 문제에 적용할 수 있음.

 

Fine - tuning

- 사전 학습 모델을 풀고자 하는 태스트의 오차에 맞추어서 학습하는 것

=> 동물 분류의 사전 학습 모델을 사용하고 싶다면 우리는 고양이를 분류하는 모델에 맞추는 작업이 필요하다 (미세조정)


사전 학습  언어 모델 (Pre-trained Langage Model) 

1. ELMo (Embeddings from Language Model)

- 워드 임베딩 방법론

- 사전 학습된 LSTM 언어 모델 두 가지를 결합하여 만들어짐

 

 

2. GPT 

- 트랜스포머의 디코더를 이용해 사전 학습한 모델

- NLG(자연어 생성), 챗봇같은 시스템에 유리함

 

2-1. GPT의 구조 

 

- GPT는 계속해서 발전, 버전별로 아키텍처의 큰 차이는 없고 데이터의 양과 모델 계층을 더 쌓음

- 이전 단어들로부터 다음 단어를 예측하는 방식을 이용하여 파인 튜닝함.

2-1.  ChatGPT(GPT -3.5)

- GPT 모델을 대화 할 수 있는 채팅 형태로 특화되도록 튜닝

- 주어진 입력에 대해서 다음 단어를 예측하는 방식으로 답변

- 아키텍처는 공개되지 않았지만 GPT-3와 별 차이 없을 것이라고 추측

 

3. BERT

- 트랜스포머의 인코더를 이용해 사전 학습한 모델

- NLU(자연어 이해), 텍스트 분류 문제에서 유리함

 

3-1. BERT의 구조

 

 

- BERT-Base는 트랜스포머의 인코더를 12개 쌓은 구조

- BERT-Large는 트랜스포머의 인코더를 24개 쌓은 구조

 

- BERT 에 특정 층을 추가하여 튜닝하고 싶을 때 맨 앞단에 있는 [CLS] 스페셜 토큰 위치에 추가해주어야함.

3-2. BERT의 적용 가능한 문제

 - 텍스트 분류

- 개체명 인식

- QA (질문-응답)
- NLI (자연어 추론) Ex) 문장간 관계를 이용하여 문장 예측

 

4. BART

- 트랜스포머 인코더-디코더 그 자체로 사전 학습한 모델

- NLU,NLG 모두에 유리하도록 만들었음

 

 

5.  T5 (Text-To-Text Transfer Transformer)

- BART와 같이 트랜스포머 인코더-디코더로 그 자체로 사전 학습한 모델

- 텍스트 분류 문제를 풀 때도 해당 클래스를 생성하도록 하는 방식을 학습

- 새로운 Fine-tuning 방식의 적용, Fine-tuning 시에 별도의 새로운 레이어를 추가할 필요 없음.

 

 

 

 


LLM  (Large Language Models)

- 대형 언어 모델(LLM)은 방대한 양의 데이터를 기반으로 사전 학습된 초대형 모델

- Pre-trained Language Model은 일반적으로 모델의 크기가 클수록 성능이 좋아지는 경향이 있음.

=> 하지만 항상 큰 모델을 사용하는 것이 꼭 바람직한 것은 아니다. 다양한 문제가 결부 되어있기 때문