ML&DL/NLP(14)
-
[NLP] 데이터 전처리 - 정제 / 정규화
[NLP] 전처리 - 정제 / 정규화 정제 - 노이즈 데이터 제거하는 것 정규화 - 표현이 다른 단어를 같은 단어로 통합하는 것 정제를 하는 이유 ? - 유의미한 단어만 추출하기 위해서는 노이즈 데이터를 제거해줘야함 - 노이즈 데이터는 빈도가 적은 단어, 의미를 갖지 않은 글자, 특수 문자 등 불필요한 데이터를 의미함 - 보통 불용어 제거라고 함 한국어 불용어 리스트 참고 - https://www.ranks.nl/stopwords/korean - https://mr-doosun.tistory.com/24 NLTK - 영어는 NLTK 에서 제공하는 불용어 리스트를 사용해 불용어를 제거할 수 있음 from nltk.corpus import stopwords from nltk.tokenize import wo..
2023.09.27 -
[NLP] 데이터 전처리 - 영어/ 한국어 토큰화 실습
https://situdy.tistory.com/41 [NLP] 전처리 - 한국어 토큰화 [NLP] 토큰화 (tokenization) 토큰화 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 한다. 단어 토큰화/ 문장 토큰화 한국어 토큰화가 어려운 이유 - 같은 단어임 situdy.tistory.com 이전글에 이어서 실습을 해보겠습니다. 영어 토큰화 일반적으로 영어는 NTLK 패키지 사용 영어 단어 토큰화 - 토크나이저 종류 1) word_tokenize 2) WordPunctTokenizer 3) TreebankWordTokenzier 💻 실습 # nltk import import nltk nltk.download('punkt') 토큰화 ..
2023.09.21 -
[NLP] 데이터 전처리 - 한국어 토큰화
[NLP] 토큰화 (tokenization) 토큰화 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 한다. 단어 토큰화/ 문장 토큰화 한국어 토큰화가 어려운 이유 - 같은 단어임에도 다른 조사가 붙어서 다른 단어로 인식됨. ex) 그가, 그에게, 그를, 그와, 그는 - 한국어는 띄어쓰기가 잘 지켜지지 않음 그러면 한국어는 어떻게 토큰화 할까? - 영어와 달리 한국어는 형태소 단위로 토큰화해야함 품사 태깅 - 의미는 다른데 표기가 같은 경우를 고려해 품사 태깅을 해줘야함 ex) 못 => 망치와 못 (명사) / 못 먹는다 (부사) KSS 한국어의 문장 토크나이저 Konlpy 한국어 자연어 처리를 위한 패키지로서 다양한 형태소 분석기와 품사 태깅 ..
2023.09.21 -
[NLP] Python 한글 맞춤법 검사 라이브러리
py-hanspell 네이버 맞춤법 검사기를 이용한 파이썬용 한글 맞춤법 검사 라이브러리 맞춤법 교정 기능 자동 띄어쓰기 기능 https://github.com/ssut/py-hanspell GitHub - ssut/py-hanspell: 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용) 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용). Contribute to ssut/py-hanspell development by creating an account on GitHub. github.com 왜 사용하는가 ? 한국어는 띄어쓰기나 맞춤법이 제대로 지켜지지 않는 경우가 빈번함. 맞춤법이 틀리면 토큰화를 할 때 같은 단어인데도 다른 단어로 분류되는 문제가 발생 언제 사용하..
2023.09.21 -
자연어 처리(NLP) (1)
1. 자연어처리 1) 자연어 우리가 일상 생활에서 사용하는 인간의 언어 2) 자연어 처리 (natural language processing) 자연어 텍스트를 컴퓨터가 학습할 수 있도록 변환하는 작업 2. 토큰화 (Tokenization) 1) 토큰화 주어진 Corpus(단어뭉치)에서 토큰(Token)이라 불리는 단위로 나누는 작업 주어진 문장에서 의미부여가 가능한 단어를 찾아내기 2) 토큰화에서 고려해야 할 사항 구두점, 특수 문자 단순 제외 금지 줄임말과 단어 내 띄어쓰기가 있는 경우 ex) New York 구두점, 특수무자를 모두 제거하는 작업만으로는 토큰화 불가능 3) 토큰화 방법 파이썬 NLTK 라이브러리 사용 문장 토큰화 토큰의 단위가 문장일 경우 문장 분류라고도 함 4) 한국어 토큰화 KSS..
2023.09.20 -
[NLP] BERT로 영화 리뷰 분류하기
🤗 Hugging Face - Transformer과 같은 다양한 인공지능 모델을 사용할 수 있도록 라이브러리를 제공하는 모듈 - 대표적인 모델로 Transformer 기반인 BERT, GPT 모델 등이 있음 📌 목표 - 네이버 영화 리뷰를 감성(긍정/부정) 분류해보기! 💻 실습 코드 Hugging Face가 제공하는 transformers 라이브러리 설치 !pip install transformers 라이브러리 및 패키지 import import pandas as pd import numpy as np import urllib.request import os from tqdm import tqdm import tensorflow as tf from transformers import BertTokeni..
2023.09.20