KT 에이블 스쿨
[KT AIVLE(에이블 스쿨) 3기] 10주차 : 미니 프로젝트 4차
SIII
2023. 4. 23. 15:05
[10주차] 미니 프로젝트 4차
4차 - 자연어처리 프로젝트
1대1 문의 유형 분류기
목표 : 문의 내용을 유형에 따라 < 코드, 웹, 이론, 시스템 운영, 원격 >으로 분류하기
- 데이터는 AIVLE EDU의 1:1 문의하기 게시판에서 에이블러들이 실제로 문의했던 내용으로 진행됐다.
프로젝트의 진행 방향
1) 문의 내용 분석
2) 문의 내용 분류 모델 성능 평가
형태소 분석기
- hannanum
- kkma
- komoran
- mecab
- okt
데이터 전처리 순서
< 데이터에 라벨 붙여주기 - train, val set 분리하기 - 특수문자 제거하기 - 데이터 토큰화 및 벡터화 > 순으로 진행.
사용하는 라이브러리에 따라서 토큰화와 벡터화는 같이 진행되는 경우도 있다.
N-grams (벡터화)
- CountVectorizer
- TfidfVectorizer
- TfidfTransformer
- HashingVectorizer
모델링
- N-gram으로 전처리한 데이터를 이용하여 3개 이상의 머신 러닝 모델 학습 및 성능 분석
- Sequence로 전처리한 데이터를 이용하여 DNN, 1-D CNN, LSTM 등 3가지 이상의 딥러닝 모델 학습 및 성능 분석
결론
pre-trained 모델이 짱이다.