단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간
이미 알고 있는 사실과 새로운 가정
(H1) 단순 선형회귀모델은
→ 구체적인 통계적 추론에서는 오차에 대해
→ 오차의 구체적인 확률분포로 정규분포를 가정한다 (정규분포가 어떻게 유도되었는가를 생각할 때 이는 합당하다).
→ 따라서
(H2) 오차를 제외한 나머지 부분을 회귀함수라고 하고,
→
(H3) 모델의 파라미터를
→
→
→
(H4) 모델의 파라미터를
→
모평균의 통계적 추론 복습
모평균
모집단의 평균과 분산이 각각
샘플평균은 어떤 이유로든 정규분포를 따른다 (정규성 가정이 성립한다)고 해야 추후 논의가 진행될 수 있다.
→ 예 1) 모집단이 정규분포이므로 샘플도 정규분포고, 샘플의 함수인 샘플평균도 정규분포다.
→ 예 2) 모집단은 정규분포가 아니지만,
→ 샘플에 적당한 변환을 해서 정규분포로 만들면, 샘플평균이 정규분포다.
→ 샘플의 크기가 클 경우 중심극한정리에 의해 샘플평균이 정규분포다.
대부분의 경우 모집단의 분산
통계량을 만들 수 있는 이유: (1)
, (2) , (3) 이 서로 독립이기 때문에 가능하다.
통계적 추론 예시:
(1) 모평균의
(2)
파라미터 (회귀계수)의 추론
파라미터
오차의 분산
통계량을 만들 수 있는 이유: → (1)
, (2) , (3) 와 이 서로 독립이기 때문에 가능하다.
통계적 추론 예시:
(1) 회귀계수의
(2)
회귀함수의 추론
먼저,
그리고
통계량을 만들 수 있는 이유: (1)
, (2) , (3) 와 이 서로 독립이기 때문에 가능하다.
통계적 추론 예시:
회귀함수의
→ 이는 회귀선이 존재할 범위를 나타낸다.
새로운 실제 값에 대한 추론
새로운 테스트 데이터
통계량을 만들 수 있는 이유: (1)
, (2) , (3) 와 이 서로 독립이기 때문에 가능하다.
통계적 추론 예시:
새로운 실제 값의
→ 새로운 값이 존재할 범위를 나타낸다.
→ 예측구간의 너비가 신뢰구간보다 크다. 이는 모델 자체의 불확실성에 새로운 데이터의 불확실성이 추가되기 때문이다.