분류 전체보기(71)
-
[DL] 퍼셉트론(Perceptron)
단층 퍼셉트론 (SLP) - 입력층과 출력층으로만 이루어져있음 다층 퍼셉트론 (MLP) - 다층 퍼셉트론은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망 - 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있음. 각 층내의 연결과 출력층에서 입력층으로 직접적 연결이 없음. - 이를 전방향(feedforward) 네트워크 또는 순전파라고 한다. Fully-connected layer(FC) / Dense layer - 이전 층의 모든 뉴런과 연결되어 있는 층. - 다층 퍼셉트론은 은닉층과 출력층에 있는 모든 뉴런은 바로 이전 층의 모든 뉴런과 연결되어 있음. 활성화 함수 (Activation Function) - ReLU - Sigmoid - Softmax - 하이퍼볼릭탄젠트 선형 회..
2023.11.03 -
[NLP] 텍스트 벡터화 : TF-IDF 실습
https://situdy.tistory.com/60 [NLP] 텍스트 벡터화 벡터화 (Vectorization) 1. 신경망 사용하지 않을 경우 - 단어 : 원-핫 인코딩 - 문서 : Document Term Matrix, TF-IDF 2. 신경망 사용할 경우 - 단어 : 워드 임베딩 (Word2Vec, GloVe, FastText, Embedding layer) - 문서 : Doc2Vec situdy.tistory.com 이전 글에서 설명한 TF-IDF 실습을 해보겠습니다 TF-IDF - 문서의 벡터화 방법 - 인공 신경망을 이용하지 않음. - 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단 💻 실습 import pandas as ..
2023.11.03 -
[NLP] 텍스트 벡터화
벡터화 (Vectorization) 1. 신경망 사용하지 않을 경우 - 단어 : 원-핫 인코딩 - 문서 : Document Term Matrix, TF-IDF 2. 신경망 사용할 경우 - 단어 : 워드 임베딩 (Word2Vec, GloVe, FastText, Embedding layer) - 문서 : Doc2Vec, Sent2Vec 3. 문맥을 고려한 벡터 표현 방법 - ELMo,BERT,GPT,T5 (Pre-trained model) 단어의 벡터화 : 원-핫 인코딩 - 전체 단어 집합의 크기를 벡터의 차원으로 가진다 (0 과 1로 이루어져있음) - 각 단어에 고유한 정수 인덱스를 부여, 해당 인덱스의 원소는 1로 나머지 원소는 0을 가지는 벡터 ex) 다음과 같이 정수 인코딩이 되었다면, 과일이 0 길..
2023.11.03 -
[NLP] 데이터 전처리 - 정수 인코딩 / 패딩 실습
정수 인코딩 - 토큰화 수행 후 각 단어에 고유한 정수를 부여해주는 것 - 정수로 만드는 이유는 컴퓨터가 이해하기 쉽도록 텍스트 -> 숫자로 표현 - 모든 단어의 집합(Vocabulary)을 만들고 이를 기반으로 문서를 정수로 인코딩 해줌 패딩 - 텍스트에 대해 정수 인코딩을 수행했을 때 길이가 서로 다르게 되는데 길이를 맞춰주기 위해 사용 - 길이를 맞춰줌으로써 병렬 연산을 할 수 있게 만들어줌. - 패딩 길이가 너무 작으면 데이터 손실의 문제, 길이가 너무 길면 중요도가 낮은 데이터 포함되는 문제가 있으므로 적절하게 지정해줘야함 💻 정수 인코딩 실습 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt imp..
2023.11.02 -
.
정형 데이터 - KDD - CRISP-DM 비정형 데이터 - 빅데이터 분석 방법론 [1] 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식은 무엇인가? 1. 전처리 분석 2. 탐색적 자료 분석 (EDA) 3. 공간 분석 4. 다변량 분석 탐색적 자료 분석(EDA) - 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있느 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭이다. - 데이터 이해 단계, 변수생성 단계, 변수선택 단계에서 활용됨 EDA의 4가지 주제 - 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성 전처리 분석: 데이터 전처리는 데이터를 정제하고 준비하..
2023.10.04 -
.
[1] 데이터는 형태에 따라 정성 데이터 / 정량 데이터로 구별된다. 정량 데이터 : 수치, 도형 ,기호 / 정성 데이터: 언어, 문자 정성적 데이터 정량적 데이터 비정형 데이터 정형 데이터 주관적인 내용 객관적 내용 통계분석이 어려움 통계분석이 용이함 풍향 - 정량 데이터 습도 - 정량 데이터 기상특보 - 정성 데이터 1시간 강수량 - 정량 데이터 => 기상 특보는 비정형 데이터, 주관적 내용, 통계분석이 어려움 [2] 암묵지와 형식지의 상호 작용 관계 공통화 - 표출화 - 연결화 - 내면화 (공표연내) 공통화 : 암묵지를 타인에게 알려줌 표출화 : 암묵지를 책,문자 등으로 형식지로 만듦 연결화 : 책 등에 자신이 아는 새로운 지식 추가 내면화 : 책을 통해 자신의 지식으로 습득 암묵지 형식지 개인적인..
2023.09.30 -
[NLP] 데이터 전처리 - 정제 / 정규화
[NLP] 전처리 - 정제 / 정규화 정제 - 노이즈 데이터 제거하는 것 정규화 - 표현이 다른 단어를 같은 단어로 통합하는 것 정제를 하는 이유 ? - 유의미한 단어만 추출하기 위해서는 노이즈 데이터를 제거해줘야함 - 노이즈 데이터는 빈도가 적은 단어, 의미를 갖지 않은 글자, 특수 문자 등 불필요한 데이터를 의미함 - 보통 불용어 제거라고 함 한국어 불용어 리스트 참고 - https://www.ranks.nl/stopwords/korean - https://mr-doosun.tistory.com/24 NLTK - 영어는 NLTK 에서 제공하는 불용어 리스트를 사용해 불용어를 제거할 수 있음 from nltk.corpus import stopwords from nltk.tokenize import wo..
2023.09.27 -
[STT] open api로 stt 해보기
https://aiopen.etri.re.kr/?currMenu=123&topMenu=101 AI API/DATA 인공지능 기술을 체험할 수 있는 공공 인공지능 오픈 API·DATA 서비스 포털 과기부 R&D 과제를 통해 개발된 인공지능 결과물을 체험하고 연구에 활용할 수 있도록 제공 aiopen.etri.re.kr openai STT API 사용해보기 API Key 발급 신청 -> 신청서 작성하기 -> API Key 확인 이메일& 비밀번호 입력하고 Api Key 확인하기 누르면 발급 받은 키 번호가 나온다 키 번호 잘 복사 해두면 된다. api 사용 방법은 여기 나와있다. https://aiopen.etri.re.kr/guide/Recognition AI API/DATA JSON parsing을 위해 ..
2023.09.26