2023. 9. 30. 16:43ㆍADsP
[1] 데이터는 형태에 따라 정성 데이터 / 정량 데이터로 구별된다.
정량 데이터 : 수치, 도형 ,기호 / 정성 데이터: 언어, 문자
정성적 데이터 | 정량적 데이터 |
비정형 데이터 | 정형 데이터 |
주관적인 내용 | 객관적 내용 |
통계분석이 어려움 | 통계분석이 용이함 |
풍향 - 정량 데이터
습도 - 정량 데이터
기상특보 - 정성 데이터
1시간 강수량 - 정량 데이터
=> 기상 특보는 비정형 데이터, 주관적 내용, 통계분석이 어려움
[2] 암묵지와 형식지의 상호 작용 관계
공통화 - 표출화 - 연결화 - 내면화 (공표연내)
공통화 : 암묵지를 타인에게 알려줌
표출화 : 암묵지를 책,문자 등으로 형식지로 만듦
연결화 : 책 등에 자신이 아는 새로운 지식 추가
내면화 : 책을 통해 자신의 지식으로 습득
암묵지 | 형식지 |
개인적인 경험,지식 | 형상화된 지식 |
공통화, 내면화 | 표출화, 연결화 |
[3] SQL 집계함수
AVG, SUM, STDDEV,MIN,MAX 는 수치형
COUNT 는 수치형 , 범주형 모든 타입 가능
[4] 개인정보 비식별 기술
- 데이터셋에서 개인을 식별할 수 있는 요소를 삭제, 대체 방법으로 알아볼 수 없도록 하는 것
데이터 마스킹 | 데이터를 익명으로 생성하는 기술 ex) 홍길동 => 홍** |
가명처리 | 개인정보 주체의 이름을 다른 이름으로 변경 ex) 홍길동 => 김철수 |
총계 처리 | 데이터의 총합으로 표시 하는 것 ex) 홍길동 180cm, 김철수 170cm => 물리학과 학생 키 합 : 350 cm, 평균 키 : 175 cm |
데이터값 삭제 | 데이터셋의 필요 없는 값 또는 개인 정보 식별에 중요한 값을 삭제하는 것 |
데이터 범주화 | 데이터의 값을 범주의 값으로 변환 하는 것 ex) 35세 = > 30대 |
[5] 데이터에 대한 유형
정형 데이터 | 형태(고정된 필드)가 있으며, 연산이 가능함 주로 관계형 데이터 베이스 |
RDBMS, 스프레드 시트, CSV |
반정형 데이터 | 형태(스키마,메타데이터)가 있으며, 연산이 불가능함. 주로 API 형태로 제공되기 때문에 파싱이 필요함 |
XML,HTML,JSON |
비정형 데이터 | 형태가 없으며, 연산이 불가능. 주로 NoSQL에 저장됨. |
소셜 데이터 ,이미지, 음성,텍스트, pdf, word |
[6] 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정
- 표출화
tip) 공통화랑 헷갈리면 안됨.
문서나 매체에 저장하는 것은 표출화/ 타인에게 알려주는 것은 공통화
[7]
정보/지혜/지식은
가장 하위 단계인 데이터로 부터 얻을 수 있는 것
=> DIKW 피라미드 기억하기
[8] 지식에 대한 예시로 가장 적절한 것
- A 사이트보다 B 사이트가 다른 물건도 비싸게 팔 것이다.
- B 사이트보다 가격이 상대적으로 저렴한 A 사이트에서 USB 구매해야겠다.
- A 사이트는 10,000원에, B 사이트는 15,000원에 USB를 팔고 있다
- B 사이트의 USB 판매가격이 A 사이트보다 더 비싸다.
=> "B 사이트보다 가격이 상대적으로 저렴한 A 사이트에서 USB 구매해야겠다" => 지식
[9] 글로벌 기업의 빅데이터 활용 사례
- 구글 : 실시간 자동 번역 시스템
- 넷플릭스 : 이용자의 기호를 파악하여 새로운 영화를 추천해주는 cinematch 운영
- 월마트 : 소비 패턴을 분석하는 월마트랩 운영
- 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 수요 예측
[10] 데이터 베이스의 구성 요소
- 메타 데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해해주는 데이터
- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
[11] 데이터 웨어 하우스
- 방대한 조직 내에서 분산 운영 되는 각각의 데이터 베이스 관리 시스템들을 효율적으로 통합하여 관리하는 역할
- 기업의 의사 결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 휘발성 데이터의 집합
주제 지향성 | 의사결정에 필요한 특징 주제에 따라 데이터를 분류, 저장, 관리함 |
통합성 | |
시계열성 | |
비휘발성 |
[12] 데이터 분석 기술
데이터 마이닝 | 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술 |
머신러닝 | 인공지능의 연구 분야중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법 |
딥러닝 | 다층구조 형태의 신경망을 바탕으로 하는 머신러닝의 한 분야 - 대표적인 기법 DNN,CNN,RNN,LSTM,Autoencoder,RBM 등이 있음 - 소프트웨어 라이브러리로 Tensorflow, Caffe, Torch,Theano,Genism등이 있음 |
하둡 | 여러 개의 컴퓨터를 하나인 것 처럼 묶어 대용량 데이터를 처리하는 기술. - 하둡의 부족한 기능을 보완하는 '하둡 에코 시스템'이 있음 |
OLAP | 다차원 의 데이터를 대화식으로 분석하기 위한 기술 |
BI (Business Intelligence) | |
BA (Business Analytics) |
+) BI vs BA
https://itpenote.tistory.com/525
비즈니스 인텔리전스와 비즈니스 애널리틱스의 비교
I. 비즈니스 인텔리전스와 비즈니스 애널리틱스의 비교 가. 분석측면 구분 BI (Business Intelligence) BA (Business Analytics) 목적 - 과거의 성과를 측정하고 향후 비즈니스를 계획 - 비즈니스를 사전에 예측
itpenote.tistory.com
[13] 산업의 일차원적 분석 사례
- 에너지 : 트레이딩 ,공급, 수요 예측
[14] 기업 내부 데이터 베이스인 고객관계관리(CRM)
- CRM
[15]
ERP - 전사적 자원관리, 비지니스 프로세스들을 하나로 통합한 프로세스, 통합된 데이터 베이스에 저장하여 통합된 정보 활용.
CRM - 고객관리관계, 고객과 관련된 내/외부 자료를 분석,통합해 고객 중심 자원을 극대화 하고 이를 토대로 고객 특성에 맞게 보다 나은 서비스를 제공
SCM - 공급망 관리, 공급 업체들의 프로세스들을 공유하도록 하여 제품과 서비스를 효율적으로 제공될 수 있도록 지원하는 서비스
KMS - 지식 관리 시스템 , 기업의 우수한 지식을 활용하여 경쟁기업보다 좋은 성과를 도모하기 위한 시스템
+) POS - 판매 시점 정보 관리 시스템, 유통업체에서 유통정보를 실시간으로 입력시켜 각종 자료를 분석 활용할 수 있는 유통 시스템
그룹웨어 - 기업 구성원들이 네트워크로 연결된 작업장에서 서로 협업하여 일할 수 있도록 지원하는 IT 솔루션 . IT 기기를 통해 실시간으로 신속하고 정확한 소통과 정보 공유로 효율적인 업무를 도움
[16] 사회 기반 구조로서 데이터 베이스
- 물류,지리/교통,의료,교육 등 부문에서 구축되었으며 활성화 되고 있다.
[17]
- "날씨가 따뜻해지고, 지점을 확정하여 올 8월 매출액은 3000마원으로 예상한다."
=> 객관적인 정보 + 주관적인 견해가 들어간 "지식"임
[18] 빅데이터의 정의
- 빅데이터가 하둡 기반은 아니다
[19] 빅데이터 기본적인 3요소
데이터 | 기술 | 인력 |
[20] 빅데이터 현상이 출현하게 된 배경
정답 및 해설 : 빅데이터 출현 배경에는 고객데이터의 축적과 거대 데이터의 활용이 늘어남으로 필요한 기술 아키텍처 및 통계 도구들의 발전, 모바일 혁명 등의 관련기술의 발달을 들 수 있다.
=> "거대 데이터의 활용이 늘어남으로" 면 1번 의료 정보 등 공공 데이터의 개방 가속화도 맞는 답 아닌가? 나중에 다시 봐야겠다.
[21] 빅데이터의 수집, 구축, 분석의 최종 목적
"새로운 통찰과 가치를 창출"
[22] 빅데이터의 기능
- 빅데이터에 거능 기대를 표현한 비유
산업혁명의 석탄, 철 | 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적인 변화를 가져올 것으로 기대됨 |
21세기의 원유 | 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨 |
렌즈 | 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향 만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 |
플랫폼 | "공동 활용의 목적으로 구축된 유무형의 구조물"로써의 다양한 서드파티 비지니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 |
[23] 다음 중 빅데이터가 만들어 내는 변화와 가장 거리가 먼 것은?
1. 가치가 있을 것이라고 예상되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식이 중요해진다.
2. 데이터의 규모가 증가함에 따라 사소한 몇 개의 오류 데이터는 분석결과에 영향을 미치지 않기 때문에 데이터세트에 포함하여 분석해도 상관없는 경우가 많아진다.
3. 데이터의 양이 증가하고 유형이 복잡해짐에 따라 수많은 데이터 중에서 분석에 필요한 데이터를 선정하기 위해 정교한 표본조사 기법의 중요성이 대두되고 있다.
4.인과관계의 규명 없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출할 수 있는 기회가 점차 늘어나고 있다.
<빅데이터의 과거에서 현재로의 변화>
사전처리 → 사후처리 | 표본조사 → 전수조사 | 질 → 양 | 인과관계 → 상관관계 |
필요한 정보만 수집하고 필요한 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. | 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터의 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다. | 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다. | 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 압도해가는 시대가 도래하게 될 것으로 전망된다. |
[24] 비지니스 모델
[25] 빅데이터의 가치 산정이 어려운 이유
- 여러 가지 변수로 인해 빅데이터 시대에서는 가치를 측정하는 것이 쉽지 않다 .
데이터 활용 방식 | 새로운 가치 창출 | 분석 기술 발전 |
재사용이나 재조합(Meshup),다목적용 데이터 개발 등이 일반화 되면서 특정 데이터를 언제/어디서/누가 활용을 할 지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다. | 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기 어려워졌다. | 현재는 가치가 없는 데이터 일지라도, 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수 도 있다. |
[26]
난수화
[27] 감정 분석
- 특정 주제에 대한 사용자의 긍정/부정 의견을 분석한다.
- 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적인 사례이다.
- 사용자가 사용한 문장이나 단어가 분석 대상이 된다.
+) 소셜 네트워크 분석: 사용자간의 소셜 관계를 알아내고자 할 때 이용한다.
[28] , [29] 빅데이터 분석 방법
빅데이터를 활용한 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크 분석(=사회관계망 분석) | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어있나? |
[30] 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야인 것은?
1. 크라우드 펀딩
2. 신용평가
3. 간편결제
4. 블록체인
빅데이터 기술은 다양한 데이터 소스를 활용하여 개인 또는 기업의 신용 위험을 평가하고 예측하는 데 사용됩니다. 이러한 데이터는 신용카드 거래 내역, 대출 이력, 소득 정보, 신용 점수, 거래 내역 등 다양한 금융 관련 정보를 포함할 수 있습니다. 이러한 데이터를 분석하고 모델을 구축하여 신용평가 점수를 계산하면 금융 기관은 더 정확하고 포괄적인 신용평가를 수행할 수 있습니다.
다른 분야인 크라우드 펀딩, 간편결제, 블록체인도 빅데이터를 활용하는데 중요하지만, 신용평가는 금융 기업의 핵심 업무 중 하나이며, 빅데이터의 활용은 신용평가의 정확성과 효율성을 향상시키는 데 큰 역할을 합니다.
+) 블록체인은 보안 분야에서 사용
[31] SVM은 머신러닝 분류 기법 중 하나
딥러닝 | 머신러닝 |
ANN, CNN, MLP, CNN, Transformer, LSTM, Autoencoder | 분류 (Logistic Regression,Decision Trees,Random Forest, SVM) 회귀(Linear Regression,SVR,K-NN) |
[32] 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다. 다음 중 가장 관련 없는 것은?
1. Caffe
2. Tensorflow
3. Anaconda
4. Theano
Caffe | TensorFlow | Anaconda | Theano |
주로 컴퓨터 비전 및 딥 러닝 작업을 위한 오픈 소스 딥러닝 프레임워크 | 딥러닝 및 기계 학습을 위한 오픈 소스 라이브러리 | 파이썬 데이터 과학 및 딥러닝 프로젝트를 관리하고 환경을 설정하는 도구며, Python을 사용하여 프로젝트를 관리하고 패키지를 설치하는 데 이용함. 하지만 딥러닝 자체를 실행하는 데 직접적으로 관련되지는 않음. | 초기 딥러닝 프레임워크 중 하나로, 수학적 계산을 간단하게 정의하고 GPU 가속을 활용하여 신경망을 효율적으로 훈련시킬 수 있게 해주는 라이브러리 |
+)
Torch (PyTorch) : PyTorch는 Facebook에 의해 개발된 오픈 소스 기계 학습 프레임워크. 주로 딥러닝 모델을 구축하고 학습하기 위한 도구와 라이브러리.
Gensim : 토픽 모델링 및 자연어 처리 작업에 사용되는 텍스트 데이터의 처리 및 분석함. 주요 기능 중 하나는 Word2Vec과 같은 단어 임베딩 모델을 학습하고 사용. 단어와 문장을 벡터로 표현하여 NLP 에 유용
[33]
빅데이터 시대의 위기 요인
사생활 침해 | 책임 원칙 훼손 | 데이터 오용 |
개인정보 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회,경제적 위협으로 변형될 수 있음 | 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 있음. | 빅데이터로 미래를 예측하는 것은 항상 맞을 수는 없음 |
익명화 기술 발전이 필요함 | 사실과 다른 정보를 오보할 수 있음. |
[34]
위기 요인에 따른 통제 방안
동의에서 책임으로 | 결과 기반 책임 원칙 고수 | 알고리즘 접근 허용 |
개인정보 제공자의 동의 -> 개인정보 사용자의 책임 | 예측 자료에 의한 불이익을 당항 가능성을 최소화 하는 것이 필요함 | 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것 |
제공자의 책임으로 떠넘기는 것이 아닌, 사용자가 책임을 지게됨으로 보호 할 수 있음. | 잘못된 예측 알고리즘으로 인한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치를 마련해야함. | 불이익을 당한 사람들을 위한 알고리즈미스트가 필요함 |
[37] 데이터베이스 관리 시스템(DBMS) 종류
관계형 DBMS | - 컬럼과 로우로 구성된 하나 이상의 테이블로 정리함. - 고유키(primary key)가 로우를 식별함 - 로우는 레코드나 튜플로 부르며, 각 테이블은 하나의 엔티티 타입(ex 고객/제품)을 대표함. - 로우는 인스턴스, 컬럼은 속성이 되는 값 |
객체지향 DBMS | 관계형 DBMS와 다르게 정보를 '객체'로 표현함. 데이터를 객체로 표현 하기 때문에 멀티미디어 데이터 등 복잡한 데이터 구조를 표현,관리 하기 적합함. |
네트워크 DBMS | - 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터 베이스 모델 |
계층형 DBMS | 트리 구조를 기반으로 하는 계층 데이터 베이스 모델 |
- 멀티 미디어 데이터와 같이 복잡한 데이터 구조를 표현/ 관리 할 수 있는 모델은 데이터를 '객체' 형태로 저장하는 '객체 지향 DBMS'
[38] 데이터 사이언스 영역 중 다른 영역에 속하는 하나는?
1. 데이터 시각화 - 비지니스 영역
2. 데이터 웨어하우징 - IT 영역
3. 분산 컴퓨터링 - IT 영역
4. 파이썬 프로그래밍 - IT 영역
데이터 사이언스의 영역
Analytics | 분석적 영역 - 수학,확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등 |
IT | 데이터 처리와 관련된 IT 영역 - 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅, 분산 컴퓨터링 |
비지니스 분석 | 비지니스 컨설팅 영역 - 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등 |
[40] 데이터 사이언티스트의 필요 역량이 아닌 것은?
1. 통찰력 있는 분석력
2. 다분야 간 커뮤니케이션 능력
3. 뉴럴네트워크 최적화 능력
4. 설득력 있는 스토리텔링 능력
데이터 사이언티스트의 역할
- 데이터 사이언티스트는 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다.
- 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 '강력한 호기심', 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력
- 스토리 텔링, 커뮤니케이션, 창이력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력을 갖추어야함
Hard Skill | Soft Skill |
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득 - 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 |
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판 - 설득력 있는 전달 : 스토리 텔링, 비주얼라이제이션(시각화) - 다분야 간 협력 : 커뮤니케이션 |
빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력 | 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력 |
[41] 데이터 사이언스에 대한 설명으로 가장 부적적한 것은?
1. 데이터 사이언스는 데아터로부터 의미있는 정보를 추출하는 학문이다.
3. 주로 분석의 정확성에 초점을 두고 진행한다.
3. 정형 데이터 뿐만 아니라 다양한 데이터를 대상으로 한다.
4. 기존의 통계학과는 달리 총체적 접근법을 사용한다.
- 총체적 접근법: 이 방법은 전체적인 관점에서 상황을 고려하고, 다양한 측면과 인자들을 종합적으로 고려합니다. 이것은 문제나 상황을 부분적으로 나누지 않고 전체를 파악하려는 접근 방식을 나타냅니다.
- 통찰력 분석력: 통찰력 분석력은 데이터나 정보를 깊이 있게 분석하여 숨겨진 패턴이나 인사이트를 찾아내는 데 중점을 둡니다. 이것은 주로 데이터 분석과 관련이 있으며, 데이터의 내재적인 의미를 이해하려는 접근 방식을 나타냅니다.
[42] WHERE AGE ( BETWEEN ) 20 AND 39
[43] 데이터 사이언티스트는 이론적 지식과 기술적 숙련에 관련된 능력인 ( Hard Skill ) 과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 ( Soft Skill )로 나누어진다.
[44] DIKW 피라미드
[45] 데이터 웨어하우스
[46] 데이터 레이크
- 수 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관 없이 데이터를 저장하는 시스템
- 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미함.
- ex ) apache, Hadoop, teradata intefrated big data platform 1700 와 같은 플랫폼이 있음.
[47] 정량적 데이터
[48] SCM
ERP - 전사적 자원관리, 비지니스 프로세스들을 하나로 통합한 프로세스, 통합된 데이터 베이스에 저장하여 통합된 정보 활용.
CRM - 고객관리관계, 고객과 관련된 내/외부 자료를 분석,통합해 고객 중심 자원을 극대화 하고 이를 토대로 고객 특성에 맞게 보다 나은 서비스를 제공
SCM - 공급망 관리, 공급 업체들의 프로세스들을 공유하도록 하여 제품과 서비스를 효율적으로 제공될 수 있도록 지원하는 서비스
KMS - 지식 관리 시스템 , 기업의 우수한 지식을 활용하여 경쟁기업보다 좋은 성과를 도모하기 위한 시스템
+) POS - 판매 시점 정보 관리 시스템, 유통업체에서 유통정보를 실시간으로 입력시켜 각종 자료를 분석 활용할 수 있는 유통 시스템
그룹웨어 - 기업 구성원들이 네트워크로 연결된 작업장에서 서로 협업하여 일할 수 있도록 지원하는 IT 솔루션 . IT 기기를 통해 실시간으로 신속하고 정확한 소통과 정보 공유로 효율적인 업무를 도움
[49] 플랫폼
[50] 유전자 알고리즘
빅데이터를 활용한 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크 분석(=사회관계망 분석) | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어있나? |
