통계 분석
목적: 데이터에서 인사이트를 추출하고, 정보에 입각한 결정을 내리고, 미래 결과를 예측하기
모수적 검정: 데이터가 특정 분포나 정규 분포를 따른다고 가정
비모수적 검정: 데이터 분포에 대해 가정하지 않음. 데이터 분포를 쉽게 식별할 수 없는 경우
가설 결과가 유의하다: 귀무가설을 가정할 때 관찰된 데이터가 우연히 발생했을 가능성이 낮다.
-> 실제 효과가 있다!!
통계 분석 종류
① 어떤 그룹 간의 차이 검정
② 요소 간의 인과 관계(상관 관계)
- 차이 검정: 데이터가 차이가 있는지 검정
① T-test : 1,2개 집단 평균 비교(모수적 검정법)
- shapiro.test(A)로 정규 분포인지 확인
- t.test(A,B,paired = T)로 귀무가설 채택할지 기각할지 정함
- p-value > 0.05 -> 귀무 가설 채택 / p-value < 0.05 -> 귀무 가설 기각(대립 가설)
귀무 가설: 유의한 차이가 없다.
대립 가설: 유의한 차이가 있다.
(표본이 2개인 경우+ 두 개의 모집단이 정규 분포하지 않는다고 가정 시)
- wilcox.test(A,B,exact=F,correct=F) <- error 없애기
- 분산 분석: 2개 이상 모집단의 평균이 같은지 판단
- oneway.test(data~group, var=T)
- 부호 검정 (예: 식사 전후 만족도 비교 +/-)
- binom.test(c(length(x[x>y]), length(x[x<y])))
- 비율 검정: 두 개의 데이터 사이 비율의 차이 검정 (예: 두 지역에서 특정 제품 선호도 차이)
- prop.test(A,B)
- 인과 관계 분석: 두 개의 데이터 간에 상관 관계 있는지 판별 (예: 담뱃값 인상 전후 매출 비교)
- 상관계수 구하기
- cor(A, method= "spearman") <- 석차 관계 보기
- cor(A, method= "pearson") <- 실제값 보기
- cor.test(x,y, method="pearson") 귀무 가설: 상관관계 없다. / 대립 가설: 상관관계 있다.