단순회귀

help 목록돌아가기


통계분석용 데이터 명 생성일자 출처 메모 데이터보기
상품재구매 2016-12-10 Sample Data R 조절매개 분석 연구용
데이터보기
label_important단순 회귀는 두 변수 간의 인과관계를 분석하는 방법입니다.
label_important단순 회귀에서의 (대립)가설은 '독립변수(X)는 종속변수(Y)에 영향을 미칠 것이다' 라고 제시합니다.
label_important회귀식은 Y=ß0+ß1+€로 제시합니다.
label_important아래의 선택 박스에서 변수를 선택하여 회귀분석 결과를 확인하십시오.
더 상세한 정보는 사용안내를 참고하십시오.

독립변수(X)

arrow image

종속변수(Y)


분석하기

poll단순회귀분석 결과

모형 요약

모형 R 조정된 R² 추정값의 표준오차
1 0.600 0.359 0.356 0.640

분산분석

모형 제곱합 자유도 평균 제곱 F 유의확률
회귀 모형 45.508 1 45.508 111.12 0.000
잔차 81.092 198 0.410
합계 126.600 199

계수

모형 비표준화 계수 표준화 계수 t 유의확률
계수 표준오차 베타
(상수)Y절편 1.455 0.170 0 8.542
V1.상품이미지 0.535 0.051 0.600 10.541 0.000

단순회귀 설명

·회귀식의 설명력
V1.상품이미지 변수와 V5.만족도 변수간의 추정 회귀선은 다음과 같다.
ý=1.455+0.535x
추정 회귀식에 의해 얻어진 예측치와 실제 관찰치 사이에서 나타나는 잔차들의 표준편차인 추정값의 표준오차는0.640이다.

한편, 결정계수(R²)가 0.359로 주어져 있다.
결정계수(R²)는 추정된 회귀식의 대한 설명력을 나타낸다.
즉, 회귀식은 수집된 자료에 대해 35.9%의 설명력을 가진다. 이 값은 0과 1 사이의 값으로 나타나는데, 1에 가까울수록 추정된 회귀식이 해당 자료를 잘 설명하고 있다고 할 수 있다.
일반적으로 2개 이상의 변수를 비교할 때는 수정된 R²를 사용한다. 여기에서는 0.356로 나타났다.

·회귀모형의 적합도 검정
[가설설정]
[H0, 귀무가설] 모형은 적합하지 않다.
[H1, 대립가설] 모형은 적합하다.
모형의 적합도 검정 결과 F값은111.120이고, 유의확률 p-value < 0.001로 유의수준 0.05에서 귀무가설을 기각하고 대립가설(모형은 적합하다)을 채택한다.

·회귀계수의 유의성 검정
[가설설정]
[H0,귀무가설] 𝛽_i=0 : 회귀계수는 0이다. 독립변수(X)가 종속변수(Y)에 영향을 미치지 않는다.
[H1,대립가설] 𝛽_i≠0 : 회귀계수는 0이 아니다. 독립변수(X)가 종속변수(Y)에 영향을 미친다.
회귀계수의 t-값이 의미하는 바는 해당 회귀계수가 통계적으로 얼마나 유의한지를 나타내는 지표이다.
만일 해당 회귀계수의 t-값이 유의하지 않으면, 통계적으로 그 회귀계수는 사실상 '0'으로 간주할 수 있다.
분석 결과, t값은 10.541 유의확률 p= 0.000 으로, 유의수준 0.05보다 작으므로 귀무가설을 기각하고 대립가설을 채택한다.(독립변수(X)가 종속변수(Y)에 영향을 미친다)
독립변수의 기울기의 추정치는 0.535으로 정(+)의 값을 가져, V1.상품이미지 변수가 한 단위 증가할 때 V5.만족도 변수는 평균적으로 0.535만큼 증가한다고 추정할 수 있다.

즉, 설정한 독립변수인 V1.상품이미지 변수가 종속변수인 V5.만족도 변수에 유의적인 정의(+) 영향을 미친다고 할 수 있다.(β = 0.600, 유의확률(0.000))

Call:
lm(formula = y ~ x)

Residuals:
	 Min       1Q   Median       3Q      Max 
-1.61875 -0.41691 -0.06013  0.42815  1.93987 

Coefficients:
			Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.45460    0.17028   8.542 3.49e-15 ***
x            0.53517    0.05077  10.541  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.64 on 198 degrees of freedom
Multiple R-squared:  0.3595,	Adjusted R-squared:  0.3562 
F-statistic: 111.1 on 1 and 198 DF,  p-value: < 2.2e-16
							

* 선형 회귀 모델의 잔차분석

첫 번째 차트인 Residuals vs Fitted는 X 축에 선형 회귀로 예측된 Y 값, Y 축에는 잔차를 보여준다. 선형 회귀에서 오차는 평균이 0이고 분산이 X값과 독립적으로 일정하다고 가정하였으므로, 예측된 Y 값과 무관하게 잔차의 평균은 0이고 분산은 일정해야 한다. 따라서 이 그래프에서는 기울기 0인 직선이 관측되는 것이 이상적이다.
두 번째 차트인 Normal Q-Q는 잔차가 정규 분포를 따르는지 확인하기 위한 Q-Q도다. 우상향 직선일수록 정규분포가 예측된다.
세 번째 차트인 Scale-Location은 X 축에 선형 회귀로 예측된 Y 값, Y 축에 표준화 잔차Standardized Residual3 를 보여준다. 이 경우도 기울기가 0인 직선을 중심으로 무작위적으로 퍼져있는 것이 이상적이다. 만약 특정 위치에서 0에서 멀리 떨어진 값(±2 밖으로 또는 ±3 밖으로)이 관찰된다면 해당 점에 대해서 표준화 잔차가 크다, 즉, 회귀 직선이 해당 Y를 잘 적합하지 못한다는 의미다. 이런 점들은 이상치outlier일 가능성이 있다.
네 번째 차트인 Residuals vs Leverage는 X 축에 레버리지Leverage, Y 축에 표준화 잔차를 보여준다. 레버리지는 설명 변수가 얼마나 극단에 치우쳐 있는지를 뜻한다. 예를 들어, 다른 관측치의 X 값은 모두 1 ~ 10 사이의 값인데 특정 관측치만 99999 값이라면 해당 관측치의 레버리지는 큰 값이 된다. 이런 관측치는 입력이 잘못되었거나, 해당 범위의 설명 변숫값을 가지는 관측치를 보충해야 하는 작업 등이 필요하므로 유심히 살펴봐야 한다. 네 번째 차트의 우측 상단과 우측 하단에는 선으로 통계량 Cook’s Distance가 표시되어 있다. 쿡의 거리는 회귀 직선의 추정에 크게 영향을 끼치는 관측치를 찾는 방법이다. 쿡 통계량은 잔차의 제곱과 지레값의 증가 함수이므로 쿡 통계량이 큰 관측치는 추정에 영향력을 많이 미치는 것으로 판단된다. 두 값이 큰 우측 상단과 우측 하단에 쿡의 거리가 큰 값들이 위치하게 된다.

* 선형 단순회귀 그래프