[KT AIVLE(에이블 스쿨) 3기] 10주차 : 미니 프로젝트 4차

2023. 4. 23. 15:05KT 에이블 스쿨

[10주차] 미니 프로젝트 4차

4차 - 자연어처리 프로젝트

 

1대1 문의 유형 분류기

목표 :  문의 내용을 유형에 따라  < 코드, 웹, 이론, 시스템 운영, 원격 >으로 분류하기 

- 데이터는 AIVLE EDU의 1:1 문의하기 게시판에서 에이블러들이 실제로 문의했던 내용으로 진행됐다.

 

 

프로젝트의 진행 방향

1) 문의 내용 분석

2) 문의 내용 분류 모델 성능 평가

 

형태소 분석기

- hannanum

- kkma

- komoran

- mecab

- okt

 

데이터 전처리 순서

< 데이터에 라벨 붙여주기 - train, val set 분리하기 - 특수문자 제거하기 - 데이터 토큰화 및 벡터화 >  순으로 진행.

사용하는 라이브러리에 따라서 토큰화와 벡터화는 같이 진행되는 경우도 있다.

 

N-grams (벡터화)

- CountVectorizer
- TfidfVectorizer
- TfidfTransformer
- HashingVectorizer

 

모델링

- N-gram으로 전처리한 데이터를 이용하여 3개 이상의 머신 러닝 모델 학습 및 성능 분석

- Sequence로 전처리한 데이터를 이용하여 DNN, 1-D CNN, LSTM 등 3가지 이상의 딥러닝 모델 학습 및 성능 분석

 

결론

pre-trained 모델이 짱이다.