티스토리 뷰

방송대/통계학계론

9강. 추정 (2)

monimoni 2025. 4. 16. 20:24

1. 통계적 추정의 개요

  • 통계적 추정
    • 모집단으로부터 표본을 표본추출
    • 표본에 대해 통계추론을 수행하여, 통계추론 방법과 데이터, 사전정보를 바탕으로 의사결정
    • 의사결정 결과를 일반화하여 모집단에 적용한다.
    • 모집단 → (표본추출) → 표본 → (통계추론) → 의사결정 → (일반화) → 모집단
    • 구분
      • 모집단
        • 모수, 확률분포
      • 표본
        • 통계량, 표본분포( 통계량의 분포 )
      • 의사결정
        • 추정 및 검정

2. 바람직한 통계량

  • 바람직한 통계량 : 𝑋̄, 𝑆², p̂
    • 불편성
      • 추정량(표본 통계량)의 평균이 모집단의 모수와 일치하는 성질
    • 일치성
      • 표본의 크기(n)가 커질수록 추정량이 진짜 모수에 수렴하는 성질
    • 효율성
      • 얼마나 밀집되어있는가
      • 같은 조건(불편성, 일치성)을 가진 여러 추정량 중에서 분산이 가장 작은 추정량이 가장 효율적이다.

3. 모비율과 표본비율

  • 비율 추정이 중요
    • ex ) 지지율, 불량률, 실업률
  • 모집단이 2개 배반사건( 찬성, 반대 )으로 구성
    • X₁, X₂, ⋯, Xₙ ~ B(1, p)
      • n개 표본 중 찬성자 수 X = Σᵢ₌₁ⁿ Xᵢ ~ B(n, p)
  • 표본비율
    • 모집단의 찬성비율 추정
    • p̂ = X / n = (Σᵢ₌₁ⁿ Xᵢ) / n
      • p̂ (피 해트)는 표본 비율을 의미한다.
        • 표본 비율은 표본 평균의 특정한 케이스를 의미
      • X는 표본 내 찬성자 수.
      • n은 전체 표본 수.
      • Σᵢ₌₁ⁿ Xᵢ는 n개의 표본값을 모두 더한 값.

4. 표본비율의 특성

  • 표본 비율은 모비율의 불편추정량
    • E(p̂) = p
    • 표본비율 p̂의 평균은 모집단의 비율 p와 같다.
    • 즉, 표본비율은 모비율에 대해 불편하다 (평균적으로 정확하다).
  • 표본비율의 분산
    • Var(p̂) = (p(1 - p)) / n
      • 표본비율 p̂의 분산은 모비율 p에 의해 결정된다.
    • V̂ar(p̂) = (p̂(1 - p̂)) / n
      • 즉, 모르는 p 대신 표본비율 p̂를 넣어 분산을 추정한다.

5. 모비율의 특성

  • 중심극한정리
    • √n(p̂ - p) ⟶ᴰ N(0, p(1 - p))
    • n이 커지면 p̂는 p를 중심으로 정규분포 형태로 퍼진다.

6. 모비율의 신뢰구간

  • P( -z(α/2) ≤ (p̂ - p) / √(p̂(1-p̂)/n) ≤ z(α/2) ) = 1 - α
    • 표본비율 p̂를 기준으로, 주어진 신뢰수준 (1 - α) 하에서, 모비율 p가 어느 범위 안에 있을지를 확률적으로 표현한 것
  • 모비율의 100(1−α)% 신뢰구간
    • [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]

7. 표본분산

  • 모분산(σ²)의 분산 추정
    • 제품의 품질, 금융시장 변동성 등 파악에 이용
  • 표본분산
    • S² = (1 / (n - 1)) Σᵢ₌₁ⁿ (Xᵢ - X̄)²
      • 표본분산은 각 데이터 값(Xᵢ)과 표본평균(X̄) 간의 차이를 제곱하여 평균낸 값이다.
    • E(S²) = σ²
      • S²는 모분산 σ²의 불편추정량이다.

8. 표본분산의 분포

  • ((n-1)S²) / σ² = (Σᵢ₌₁ⁿ (Xᵢ - X̄)²) / σ² ∼ χ²ₙ₋₁
    • 표본분산을 변형한 이 값은 자유도 (n-1)를 가지는 카이제곱 분포를 따른다.
  • χ²ₖ 분포
    • 자유도 k가 커질수록 χ² 분포는 점점 대칭에 가까워지고, 정규분포에 근접한다.

9. 표본분산의 신뢰구간

  • P( χ²ₙ₋₁,1-α/2 ≤ ((n-1)S²)/σ² ≤ χ²ₙ₋₁,α/2 ) = 1 - α
    • 모분산 σ²에 대한 신뢰구간을 구하는 기본식
      • χ²ₙ₋₁,1-α/2는 카이제곱 분포의 왼쪽 경계 값
      • χ²ₙ₋₁,α/2는 카이제곱 분포의 오른쪽 경계 값
      • (n-1)은 자유도
  • σ²의 100(1−α)% 신뢰구간
    • [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]

10. R을 이용한 실습 ( 모평균의 신뢰구간 추정 )

> # 데이터 입력
> score = c(88, 83, 83, 85, 94, 88, 91, 96, 89, 83, 81, 80, 84, 89, 83, 79)

> # 표본평균과 표본표준편차
> bar_x = mean(score)
> s = sd(score)
> n = length(score)

> # 모평균의 95% 신뢰구간
> qt(0.975, 15)
[1] 2.13145

> qt(0.025, 15, lower.tail = FALSE)
[1] 2.13145

> qt_95 = qt(0.975, 15)
> c(bar_x - qt_95 * s / sqrt(n), bar_x + qt_95 * s / sqrt(n))
[1] 83.36785 88.63215

> t.test(score)$conf.int
[1] 83.36785 88.63215
> attr(,"conf.level")
[1] 0.95

> # 모비율의 신뢰구간
> n = 500
> X = 200
> p_hat = X / n
> alpha = 0.05
> z_1 = qnorm(1 - alpha/2)
> c(p_hat - z_1 * sqrt(p_hat * (1 - p_hat) / n), p_hat + z_1 * sqrt(p_hat * (1 - p_hat) / n))
[1] 0.3570593 0.4429407

> prop.test(X, n)$conf.int
[1] 0.3570044 0.4445558
> attr(,"conf.level")
[1] 0.95

> # 모분산의 신뢰구간
> s2 = 4^2
> n = 40
> alpha = 0.05
> q_1 = qchisq(1 - alpha/2, n-1)
> q_2 = qchisq(alpha/2, n-1)
> c((n-1)*s2/q_1, (n-1)*s2/q_2)
[1] 10.73640 26.37995

11. 정리하기

  • 불편성, 일치성, 효율성을 가지는 통계량을 이용하는 것이 바람직하다.
  • 모비율의 100(1−α)% 신뢰구간
    • [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]
  • 모분산의 100(1−α)% 신뢰구간
    • [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]
728x90
댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
최근에 올라온 글
Total
Today
Yesterday
공지사항