데이터 분석 기법의 이해
1. 데이터 처리 과정 | - 데이터 분석을 위해서는 데이터웨어하우스(DW)이나 데이터마트(DM)을 통해 분석데이터를 구성 - 신규데이터나 데이터웨어하우스에 없는 데이터는 기존 운영시스템에서 직접 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 |
2. 시각화 기법 | - 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 효율적이며, 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수 |
3. 공간분석(GIS) | - 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 위에 관련된 속성들을 생성하고 크기모양, 선 굵기 등을 구분하여 인사이트를 얻음 |
4. 탐색적 자료분석(EDA) | - 다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정 - EDA의 4가지 주제 : 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성 |
5. 통계분석 | - 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형탸로 나타내는 것 |
6. 데이터 마이닝 | - 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법 - 방법론 : 기계학습(인공신경망, 의사결정나무, 클러스터링, SVM), 패턴인식(연관 규칙, 장바구니 분석) 등 |
정형화된 패턴 처리
비정형 데이터나 소셜 데이터는 정형화된 패턴으로 처리해야 함
1. 비정형 데이터
DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합
2. 관계형 데이터
DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 데이터 마트와 통합되어 활용
통계
어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표,그림의 형태로 나타내는 것
1. 기술통계 (Descriptive Statistics)
모집단으로부터 표본을 추출하고 표본이 가지는 표본이 가지는 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
2. 추측(추론)통계 (Inferential Statistics)
모집단으로부처 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
방법론
1. 데이터베이스에서의 지식탐색
데이터웨어하우스에서 데이터마트를 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법
2. 기계학습(Machine Learning)
인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야
(예) 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM 등
3. 패턴인식(Pattern Recognition)
원자료를 이용해서 사전지식과 패턴에서 추출된 통계 정보를 기반으로 자료 패턴을 분류하는 방법
(예) 장바구니분석, 연관규칙 등
'ADSP' 카테고리의 다른 글
3.2.5 데이터 구조와 데이터 프레임 2 (0) | 2024.04.08 |
---|---|
3.2.4 데이터 구조와 데이터 프레임 1 (0) | 2024.04.08 |
3.2.3 입력과 출력 (0) | 2024.04.08 |
3.2.2 R기초 (0) | 2024.04.08 |
3.2.1 R소개 (0) | 2024.04.08 |