[NLP] 텍스트 벡터화 : 워드 임베딩(Word embedding) 실습
워드 임베딩 - 인공 신경망을 이용하여 단어의 벡터값을 얻는 방법 - 학습 후에는 각 단어 벡터 간의 유사도를 계산 할 수 있다. 1) 랜덤 초기화 임베딩 - 초기에 모든 단어의 임베딩 벡터값은 랜덤 초기화 됨. - 오차를 구하는 과정(역전파 하는 과정)에서 embedding table을 학습 2) 사전 훈련된 임베딩 (Pre-trained Word Embedding) - 방대한 양의 텍스트 데이터로 이미 훈련되어있는 임베딩 벡터값을 사용하는 것 - 대표적인 알고리즘으로 word2Vec, FastText, GloVe가 존재함 💻 실습 Word2Vec (영어) 라이브러리 불러오기 import gensim gensim.__version__ import re from lxml import etree impor..
2023.11.03