NLP(3)
-
[NLP] Seq2Seq(Sequence-to-Sequence)
자연어 처리 - 자연어 처리는 크게 자연어 이해(NLU)와 자연어 생성(NLG)의 영역이 있음 - 자연어 생성은 기계가 텍스트를 스스로 생성하는 영역을 말함 Seq2Seq(Sequence-to-Sequence) - 입력된 시퀀스로 부터 다른 도메인의 시퀀스를 출력 - 인코더와 디코더로 구성되어있음. - 인코더는 NLU, 디코더는 NLG에 유리함. ex) 챗봇, 기계 번역, 텍스트 요약 - Seq2seq 는 인코더와 디코더 모듈로 구성 - 입력 데이터를 인코더에 입력 받고 컨텍스트 벡터라는 단어 정보들의 압축한 벡터를 만듦 - 디코더는 컨텍스트 벡터를 받아 번역된 단어 출력 Seq2seq 의 알고리즘 * Greedy Decoding - seq2seq의 디코더는 기본적으로 RNN 언어 모델 => 가장 높은..
2023.11.06 -
[NLP] 텍스트 벡터화 : 워드 임베딩(Word embedding) 실습
워드 임베딩 - 인공 신경망을 이용하여 단어의 벡터값을 얻는 방법 - 학습 후에는 각 단어 벡터 간의 유사도를 계산 할 수 있다. 1) 랜덤 초기화 임베딩 - 초기에 모든 단어의 임베딩 벡터값은 랜덤 초기화 됨. - 오차를 구하는 과정(역전파 하는 과정)에서 embedding table을 학습 2) 사전 훈련된 임베딩 (Pre-trained Word Embedding) - 방대한 양의 텍스트 데이터로 이미 훈련되어있는 임베딩 벡터값을 사용하는 것 - 대표적인 알고리즘으로 word2Vec, FastText, GloVe가 존재함 💻 실습 Word2Vec (영어) 라이브러리 불러오기 import gensim gensim.__version__ import re from lxml import etree impor..
2023.11.03 -
[NLP] Python 한글 맞춤법 검사 라이브러리
py-hanspell 네이버 맞춤법 검사기를 이용한 파이썬용 한글 맞춤법 검사 라이브러리 맞춤법 교정 기능 자동 띄어쓰기 기능 https://github.com/ssut/py-hanspell GitHub - ssut/py-hanspell: 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용) 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용). Contribute to ssut/py-hanspell development by creating an account on GitHub. github.com 왜 사용하는가 ? 한국어는 띄어쓰기나 맞춤법이 제대로 지켜지지 않는 경우가 빈번함. 맞춤법이 틀리면 토큰화를 할 때 같은 단어인데도 다른 단어로 분류되는 문제가 발생 언제 사용하..
2023.09.21