티스토리 뷰
1. 통계적 추정의 개요
- 통계적 추정
- 모집단으로부터 표본을 표본추출
- 표본에 대해 통계추론을 수행하여, 통계추론 방법과 데이터, 사전정보를 바탕으로 의사결정
- 의사결정 결과를 일반화하여 모집단에 적용한다.
- 모집단 → (표본추출) → 표본 → (통계추론) → 의사결정 → (일반화) → 모집단
- 구분
- 모집단
- 모수, 확률분포
- 표본
- 통계량, 표본분포( 통계량의 분포 )
- 의사결정
- 추정 및 검정
- 모집단
2. 바람직한 통계량
- 바람직한 통계량 : 𝑋̄, 𝑆², p̂
- 불편성
- 추정량(표본 통계량)의 평균이 모집단의 모수와 일치하는 성질
- 일치성
- 표본의 크기(n)가 커질수록 추정량이 진짜 모수에 수렴하는 성질
- 효율성
- 얼마나 밀집되어있는가
- 같은 조건(불편성, 일치성)을 가진 여러 추정량 중에서 분산이 가장 작은 추정량이 가장 효율적이다.
- 불편성
3. 모비율과 표본비율
- 비율 추정이 중요
- ex ) 지지율, 불량률, 실업률
- 모집단이 2개 배반사건( 찬성, 반대 )으로 구성
- X₁, X₂, ⋯, Xₙ ~ B(1, p)
- n개 표본 중 찬성자 수 X = Σᵢ₌₁ⁿ Xᵢ ~ B(n, p)
- X₁, X₂, ⋯, Xₙ ~ B(1, p)
- 표본비율
- 모집단의 찬성비율 추정
- p̂ = X / n = (Σᵢ₌₁ⁿ Xᵢ) / n
- p̂ (피 해트)는 표본 비율을 의미한다.
- 표본 비율은 표본 평균의 특정한 케이스를 의미
- X는 표본 내 찬성자 수.
- n은 전체 표본 수.
- Σᵢ₌₁ⁿ Xᵢ는 n개의 표본값을 모두 더한 값.
- p̂ (피 해트)는 표본 비율을 의미한다.
4. 표본비율의 특성
- 표본 비율은 모비율의 불편추정량
- E(p̂) = p
- 표본비율 p̂의 평균은 모집단의 비율 p와 같다.
- 즉, 표본비율은 모비율에 대해 불편하다 (평균적으로 정확하다).
- 표본비율의 분산
- Var(p̂) = (p(1 - p)) / n
- 표본비율 p̂의 분산은 모비율 p에 의해 결정된다.
- V̂ar(p̂) = (p̂(1 - p̂)) / n
- 즉, 모르는 p 대신 표본비율 p̂를 넣어 분산을 추정한다.
- Var(p̂) = (p(1 - p)) / n
5. 모비율의 특성
- 중심극한정리
- √n(p̂ - p) ⟶ᴰ N(0, p(1 - p))
- n이 커지면 p̂는 p를 중심으로 정규분포 형태로 퍼진다.
6. 모비율의 신뢰구간
- P( -z(α/2) ≤ (p̂ - p) / √(p̂(1-p̂)/n) ≤ z(α/2) ) = 1 - α
- 표본비율 p̂를 기준으로, 주어진 신뢰수준 (1 - α) 하에서, 모비율 p가 어느 범위 안에 있을지를 확률적으로 표현한 것
- 모비율의 100(1−α)% 신뢰구간
- [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]
7. 표본분산
- 모분산(σ²)의 분산 추정
- 제품의 품질, 금융시장 변동성 등 파악에 이용
- 표본분산
- S² = (1 / (n - 1)) Σᵢ₌₁ⁿ (Xᵢ - X̄)²
- 표본분산은 각 데이터 값(Xᵢ)과 표본평균(X̄) 간의 차이를 제곱하여 평균낸 값이다.
- E(S²) = σ²
- S²는 모분산 σ²의 불편추정량이다.
- S² = (1 / (n - 1)) Σᵢ₌₁ⁿ (Xᵢ - X̄)²
8. 표본분산의 분포
- ((n-1)S²) / σ² = (Σᵢ₌₁ⁿ (Xᵢ - X̄)²) / σ² ∼ χ²ₙ₋₁
- 표본분산을 변형한 이 값은 자유도 (n-1)를 가지는 카이제곱 분포를 따른다.
- χ²ₖ 분포
- 자유도 k가 커질수록 χ² 분포는 점점 대칭에 가까워지고, 정규분포에 근접한다.
9. 표본분산의 신뢰구간
- P( χ²ₙ₋₁,1-α/2 ≤ ((n-1)S²)/σ² ≤ χ²ₙ₋₁,α/2 ) = 1 - α
- 모분산 σ²에 대한 신뢰구간을 구하는 기본식
- χ²ₙ₋₁,1-α/2는 카이제곱 분포의 왼쪽 경계 값
- χ²ₙ₋₁,α/2는 카이제곱 분포의 오른쪽 경계 값
- (n-1)은 자유도
- 모분산 σ²에 대한 신뢰구간을 구하는 기본식
- σ²의 100(1−α)% 신뢰구간
- [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]
10. R을 이용한 실습 ( 모평균의 신뢰구간 추정 )
> # 데이터 입력
> score = c(88, 83, 83, 85, 94, 88, 91, 96, 89, 83, 81, 80, 84, 89, 83, 79)
> # 표본평균과 표본표준편차
> bar_x = mean(score)
> s = sd(score)
> n = length(score)
> # 모평균의 95% 신뢰구간
> qt(0.975, 15)
[1] 2.13145
> qt(0.025, 15, lower.tail = FALSE)
[1] 2.13145
> qt_95 = qt(0.975, 15)
> c(bar_x - qt_95 * s / sqrt(n), bar_x + qt_95 * s / sqrt(n))
[1] 83.36785 88.63215
> t.test(score)$conf.int
[1] 83.36785 88.63215
> attr(,"conf.level")
[1] 0.95
> # 모비율의 신뢰구간
> n = 500
> X = 200
> p_hat = X / n
> alpha = 0.05
> z_1 = qnorm(1 - alpha/2)
> c(p_hat - z_1 * sqrt(p_hat * (1 - p_hat) / n), p_hat + z_1 * sqrt(p_hat * (1 - p_hat) / n))
[1] 0.3570593 0.4429407
> prop.test(X, n)$conf.int
[1] 0.3570044 0.4445558
> attr(,"conf.level")
[1] 0.95
> # 모분산의 신뢰구간
> s2 = 4^2
> n = 40
> alpha = 0.05
> q_1 = qchisq(1 - alpha/2, n-1)
> q_2 = qchisq(alpha/2, n-1)
> c((n-1)*s2/q_1, (n-1)*s2/q_2)
[1] 10.73640 26.37995
11. 정리하기
- 불편성, 일치성, 효율성을 가지는 통계량을 이용하는 것이 바람직하다.
- 모비율의 100(1−α)% 신뢰구간
- [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]
- 모분산의 100(1−α)% 신뢰구간
- [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]
728x90
'방송대 > 통계학계론' 카테고리의 다른 글
8강. 추정 (1) (0) | 2025.04.10 |
---|---|
7강. 확률분포와 표본분포 (2) (0) | 2025.04.09 |
6강. 확률분포와 표본분포 (1) (0) | 2025.04.01 |
5강. 확률 및 확률 분포 함수 (2) (0) | 2025.03.23 |
4강. 확률 및 확률분포함수 (1) (0) | 2025.03.15 |
댓글