본문 바로가기

공공 데이터 교육

공공데이터 데이터 분석

데이터 분석

- 데이터 분석의 목표와 순서가 중요

1. 목표정의

2. 전처리

3. 알고리즘 선택/분석

4. 검증 및 테스트

 

 

머신러닝

 

 

데이터 분석 필수 스킬

1. 통계

2. 수학(선형대수,미분)

3. 분석 프로그램

 

 

데이터를 모으는 방법 (질좋은 데이터를 모으는 방법)

1. 모집단과 표본

- 모집단을 분석하는 것이 최선이지만, 모집단을 구하는 것은 현실적으로 불가능

 

 

 

모수치, 표본수치

 

데이터 분석 기초 3가지 (중요)

1. 분포의 모양

2. 집중경향치

3. 분산과 표준편차

 

 

정규분포를 사용하는 이유

1. 전통적인 통계분석 방법 사용

2. 중심극한정리

 

 

데이터 분석의 첫번째 = 집중경향치 파악

1. 평균

2. 중앙치

3. 최빈값

 

 

분산과 표준편차

- 데이터 분석의 기본적인 수치

 

 

데이터 분석 시작에 필수

 

 

기술통계, 추론통계

 

 

넓이

 

 

표준화

 

 

6시그마

- 표준화 공식이 중요

- 거리(편차)를 표준 편차 단위로 나타내는 것

- 6시그마 = 6표준편차

- 6시그마 = 엄청 낮은 불량률

 

 

추론 (월요일과 화요일의 매출에는 차이가 있는가?)

- 월요일 매출 모집단 -> 월요일 매출 표본 추출 (sampling)

- 화요일 매출 모집단 -> 화요일 매출 표본 (sampling)

- 모집단의 차이를 알려면 실제로 구한 샘플의 평균차이를 구하고 그것으로 모집단 차이를 추론

 

 

0가설(대립가설)

- 나의 추론과 반대되는 추론이 참이 될 확률 계산

- 나의 추론과 반대되는 추론 = 0가설

- 나의 추론 = 대립가설

 

 

0가설 검정

- H0는 True일 확률이 높은가 낮은가를 따지는 것

- 0가설이 참일 확률이 너무 낮으면 나의 반대추론이 참일 확률이 너무 낮다는 의미가 되므로 내 추론이 맞다고 결론 내릴 수 있음

- 통계적 추론을 위한 0가설 검정을 하려면 0가설이 참일 확률과 그 확률의 기준선이 필요 (a와 p의 존재 이유)

 

 

기준선 a

- 통상적으로 5%로 설정, 즉 5%보다 낮으면 낮은 확률로 봄

 

 

p-value

- 실제 샘플 데이터를 기반으로 9가설이 참일 확률을 구하는 것

- a > p이면 0가설 기각이므로 우리의 추론이 맞음

- a < p이면 0가설 기각불가이므로 우리의 추론은 통계적으로 근거가 없는 것이 됨

 

 

t분석을 하기위해 필요한 3가지

1. 정규성

2. 독립성

3. 등분산성

 

 

상관관계의 해석

- 인과관계와는 별개

- 아이스크림과 익사자수는 여름에 증가/겨울에 감소하는 유사한 패턴을 가졌지만 그것이 어떤 관계가 있다고 보기에는 x

 

 

상관강도의 기준 (절대값)

- r < 0.3 = 약한 상관강도
- 0.3 <= ㄱ < 0.7 = 보통 상관강도

- 0.7 <= r = 강한 상관강도

 

 

상관계수(r^2)

- 결정계수

- r의 제곱값

- r이 0.7이라면 r^2은 0.49 <- 49%의 설명력을 가지고 있다고 해석 (나머지 51%는 다른 요소)

 

 

예측

= 회귀분석

 

 

상관, 회귀

- 상관: 데이터의 변화패턴을 기반으로 한 유사도 계산

- 회귀: 상관으로 구한 데이터 간의 관계성을 가장 잘 설명하는 방정식 도출, modeling, data fitting

 

 

회귀분석

- model: 회귀의 목적인 방정식

- parameter: model을 구해내는데 필요한 매개변수 (기울기와 y절편)

- model 구하기 = 최적의 parameter를 구하는 것

 

 

머신러닝

1. 예측

2. 분류

'공공 데이터 교육' 카테고리의 다른 글

데이터 사이언스 3가지  (0) 2021.08.31
공공 데이터 시험 요약  (0) 2021.07.04
공공 데이터 15일  (0) 2021.07.03
공공 데이터 14일  (0) 2021.07.03
공공 데이터 13일  (0) 2021.07.02