no image
통계분석
통계분석의 이해 1. 통계 - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 - 표본 조사 : 대상 집단의 일부를 추출해 어떤 현상을 관측·조사해 자료 수집하는 과정 - 표본추출방법 단순랜덤추출법 : n개의 번호를 임의로 선택해 해당 원소를 표본으로 추출 계통추출법 : n개의 원소로 구성된 모집단에서 k개씩 n개 구간 나누고 첫 구간에서 하나를 임의 선택 후 k개씩 띄어 표본 추출 집락추출법 : 모집단이 집락(cluster)의 결합으로 구성되어 있는 경우, 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표현 임의 선택 ※ 집락: 같은 종의 생물 집단 층화추출법 : 각 계층을 고루 대표할 수 있게 표본 추출. 이질적 모집단 원소 중 유사한 것끼리 몇개의 층으로 나..
2024.04.19
no image
3.3.1 데이터 변경 및 요약
데이터 마트 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될 수 있음 관계형 데이터 베이스나 다차원 데이터 베이스를 이용하여 구축 CRM과 관련 업무 중에서 핵심 - 고객 데이터 마트 구축 동일한 데이터 셋을 활용할 경우, 데이터 마트를 어떻게 구축하느냐에 따라 분석 효과는 크게 차이 남 요약변수 수집된 정보를 분석에 맞게 종합한 변수 데이터 마트에서 가장 기본적인 변수 (예 : 총 구매 금액, 금액, 횟수, 구매여부 등) ← 데이터 분석을 위해 만들어지는 변수 많은 모델에 공통으로 사용될 수 있어 재활용성이 높음 간단한 구조이므로 자동화하여 상황에 맞..
2024.04.08
no image
3.2.5 데이터 구조와 데이터 프레임 2
집단으로 분할하기 벡터 : split(vec, fac) - 벡터값과 팩터값의 길이가 같아야 함 데이터프레임 : split(dfm, fac) 함수 적용하기 벡터, 행렬 : apply(mtr, 1, func), apply(mtr, 2, func) 리스트 : lapply(lstm func), sapply(lst, func) 데이터프레임 : lapply(dfm, func), sapply(dfm, func), apply(dfm, 1or2, func) 집단별로 함수 적용하기 tapply(vec, fac, func) by(dfm, fac, func) 병렬 벡터들과 리스트들에 함수 적용하기 벡터 : mapply(func, vec1, vec2, vec3, ...) 리스트 : mapply(func, lst1, lst2, ..
2024.04.08
no image
3.2.4 데이터 구조와 데이터 프레임 1
데이터 구조의 정의 특징 벡터 리스트 데이터 프레임 원소 자료형 동질적 이질적 이질적 원소를 위치로 인덱싱 가능 가능 가능 인덱싱으로 여러 개의 원소로 구성된 하위 데이터 생성 가능 가능 가능 원소들에 이름 부여 가능 가능 가능 단일값 (Scalar) 원소가 하나인 벡터로 인식/처리 행렬 (Matrix) 원소가 하나인 벡터로 인식/처리 , 차원을 가진 벡터로 인식 배열 (Array) 3원소가 하나인 벡터로 인식/처리, 행렬에 3차원 또는 n차원까지 확장된 형태 요인 (Factor) 유일값이 요인의 수준으로 구성된 벡터 (사용처 : 범주형 변수, 집단 분류) 리스트 다루기 리스트 원소 선택 : L[[n]], L[["name"]], L$name 행렬 다루기 행렬 설정 : dim(vec) V["Larry"] ..
2024.04.08
no image
3.2.3 입력과 출력
데이터 입력과 출력 R에서는 텍스트 데이터 뿐만 아니라 데이터베이스와 다양한 통계프로그램에서 작성된 데이터로 적절한 데이터 분석을 수행 부동소수점 표현시, 7자리 수를 기본으로 셋팅 > option(), digit="숫자"를 지정해서 자릿수 변경 가능 문자열을 파일로 저장하고자 할 때 : cat("저장할 문자열", file="파일명") R에서는 역슬래쉬(\)를 인식하지 못하므로 슬래쉬(/) 또는 이중 역슬래쉬(\\)로 파일의 경로를 지정 데이터 분석 과정 분석자가 분석 목적에 맞는 적절한 분석 방법론을 선택해서 정확한 분석을 통해 얻은 결과를 통찰력을 가지고 해석함으로써 분석 과정을 마침 데이터를 분석하기 위해서는 분석자가 분석을 위해 설계된 방향으로 데이터를 정확하게 입력받는 것에서부터 시작 입력된 데..
2024.04.08
no image
3.2.2 R기초
편리한 기능 R의 작업환경 설정 : R 단축아이콘 우측클릭 > 속성 > 바로가기 > 시작위치에 현재 작업위치를 입력 > 저장 프로그램에서 작업환경 설정 : setwd("작업디렉토리") 도움말 : help(함수), ?함수, RSiteSearch("함수명") 히스토리 : history(), savehistory(file="파일명"), loadhistory(file="파일명") 콘솔 청소 : Ctrl + L 스트립트 사용하기 한줄 실행 : Ctrl + R 여러줄 실행 : 드래그 후 Ctrl + R 주석처리 : # 패키지 패키지 : R 함수, 데이터 및 컴파일 코드의 모임 패키지 자동설치 : install.packages("패키지명") 패키지 수동설치 : install.packages("패키지명", "패키지 위..
2024.04.08
no image
3.2.1 R소개
R의 탄생 R은 오픈소스 프로그램으로 통계 및 데이터마이닝과 그래프를 위한 언어 다양한 최신 통계분석과 마이닝 기능을 제공, 5,000개에 이르는 패키지가 수시로 업데이트 통계분석 도구의 비교 구분 SAS SPSS 오픈소스 R 프로그램 비용 유료, 고가 유료, 고가 오픈소스 설치용량 대용량 대용향 모듈화로 간단 다양한 모듈 지원 및 비용 별도구매 매별도구매 오픈소스 최근 알고리즘 및 기술반영 느림 다소 느림 매우 빠름 학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 주공개 논문 및 자료 많음 질의를 위한 공개 커뮤니티 없음 없음 매우 활발 R의 특징 오픈소스 프로그램 뛰어난 그래픽 및 성능 시스템 데이터 저장 방식 모든 운영체제에서 사용가능 (윈도우 , 맥, 리눅스) 표준 플랫폼(S 언어 기반) ..
2024.04.08
no image
3.1.1 데이터 분석 기법의 이해
데이터 분석 기법의 이해 1. 데이터 처리 과정 - 데이터 분석을 위해서는 데이터웨어하우스(DW)이나 데이터마트(DM)을 통해 분석데이터를 구성 - 신규데이터나 데이터웨어하우스에 없는 데이터는 기존 운영시스템에서 직접 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 2. 시각화 기법 - 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 효율적이며, 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수 3. 공간분석(GIS) - 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 위에 관련된 속성들을 생성하고 크기모양, 선 굵기 등을 구분하여 인사이트를 얻음 4. 탐색적 자료분석(EDA) - 다양한 차원과 값을 조합해 가며 특이점이나 의..
2024.04.08