티스토리 뷰

방송대/통계학계론

9강. 추정 (2)

monimoni 2025. 4. 16. 20:24

1. 통계적 추정의 개요

통계적 추정
- 모집단으로부터 표본을 표본추출
- 표본에 대해 통계추론을 수행하여, 통계추론 방법과 데이터, 사전정보를 바탕으로 의사결정
- 의사결정 결과를 일반화하여 모집단에 적용한다.
- 모집단 → (표본추출) → 표본 → (통계추론) → 의사결정 → (일반화) → 모집단
- 구분
  - 모집단
    - 모수, 확률분포
  - 표본
    - 통계량, 표본분포( 통계량의 분포 )
  - 의사결정
    - 추정 및 검정

2. 바람직한 통계량

바람직한 통계량 : 𝑋̄, 𝑆², p̂
- 불편성
  - 추정량(표본 통계량)의 평균이 모집단의 모수와 일치하는 성질
- 일치성
  - 표본의 크기(n)가 커질수록 추정량이 진짜 모수에 수렴하는 성질
- 효율성
  - 얼마나 밀집되어있는가
  - 같은 조건(불편성, 일치성)을 가진 여러 추정량 중에서 분산이 가장 작은 추정량이 가장 효율적이다.

3. 모비율과 표본비율

비율 추정이 중요
- ex ) 지지율, 불량률, 실업률
모집단이 2개 배반사건( 찬성, 반대 )으로 구성
- X₁, X₂, ⋯, Xₙ ~ B(1, p)
  - n개 표본 중 찬성자 수 X = Σᵢ₌₁ⁿ Xᵢ ~ B(n, p)
표본비율
- 모집단의 찬성비율 추정
- p̂ = X / n = (Σᵢ₌₁ⁿ Xᵢ) / n
  - p̂ (피 해트)는 표본 비율을 의미한다.
    - 표본 비율은 표본 평균의 특정한 케이스를 의미
  - X는 표본 내 찬성자 수.
  - n은 전체 표본 수.
  - Σᵢ₌₁ⁿ Xᵢ는 n개의 표본값을 모두 더한 값.

4. 표본비율의 특성

표본 비율은 모비율의 불편추정량
- E(p̂) = p
- 표본비율 p̂의 평균은 모집단의 비율 p와 같다.
- 즉, 표본비율은 모비율에 대해 불편하다 (평균적으로 정확하다).
표본비율의 분산
- Var(p̂) = (p(1 - p)) / n
  - 표본비율 p̂의 분산은 모비율 p에 의해 결정된다.
- V̂ar(p̂) = (p̂(1 - p̂)) / n
  - 즉, 모르는 p 대신 표본비율 p̂를 넣어 분산을 추정한다.

5. 모비율의 특성

중심극한정리
- √n(p̂ - p) ⟶ᴰ N(0, p(1 - p))
- n이 커지면 p̂는 p를 중심으로 정규분포 형태로 퍼진다.

6. 모비율의 신뢰구간

P( -z(α/2) ≤ (p̂ - p) / √(p̂(1-p̂)/n) ≤ z(α/2) ) = 1 - α
- 표본비율 p̂를 기준으로, 주어진 신뢰수준 (1 - α) 하에서, 모비율 p가 어느 범위 안에 있을지를 확률적으로 표현한 것
모비율의 100(1−α)% 신뢰구간
- [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]

7. 표본분산

모분산(σ²)의 분산 추정
- 제품의 품질, 금융시장 변동성 등 파악에 이용
표본분산
- S² = (1 / (n - 1)) Σᵢ₌₁ⁿ (Xᵢ - X̄)²
  - 표본분산은 각 데이터 값(Xᵢ)과 표본평균(X̄) 간의 차이를 제곱하여 평균낸 값이다.
- E(S²) = σ²
  - S²는 모분산 σ²의 불편추정량이다.

8. 표본분산의 분포

((n-1)S²) / σ² = (Σᵢ₌₁ⁿ (Xᵢ - X̄)²) / σ² ∼ χ²ₙ₋₁
- 표본분산을 변형한 이 값은 자유도 (n-1)를 가지는 카이제곱 분포를 따른다.
χ²ₖ 분포
- 자유도 k가 커질수록 χ² 분포는 점점 대칭에 가까워지고, 정규분포에 근접한다.

9. 표본분산의 신뢰구간

P( χ²ₙ₋₁,1-α/2 ≤ ((n-1)S²)/σ² ≤ χ²ₙ₋₁,α/2 ) = 1 - α
- 모분산 σ²에 대한 신뢰구간을 구하는 기본식
  - χ²ₙ₋₁,1-α/2는 카이제곱 분포의 왼쪽 경계 값
  - χ²ₙ₋₁,α/2는 카이제곱 분포의 오른쪽 경계 값
  - (n-1)은 자유도
σ²의 100(1−α)% 신뢰구간
- [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]

10. R을 이용한 실습 ( 모평균의 신뢰구간 추정 )

> # 데이터 입력
> score = c(88, 83, 83, 85, 94, 88, 91, 96, 89, 83, 81, 80, 84, 89, 83, 79)

> # 표본평균과 표본표준편차
> bar_x = mean(score)
> s = sd(score)
> n = length(score)

> # 모평균의 95% 신뢰구간
> qt(0.975, 15)
[1] 2.13145

> qt(0.025, 15, lower.tail = FALSE)
[1] 2.13145

> qt_95 = qt(0.975, 15)
> c(bar_x - qt_95 * s / sqrt(n), bar_x + qt_95 * s / sqrt(n))
[1] 83.36785 88.63215

> t.test(score)$conf.int
[1] 83.36785 88.63215
> attr(,"conf.level")
[1] 0.95

> # 모비율의 신뢰구간
> n = 500
> X = 200
> p_hat = X / n
> alpha = 0.05
> z_1 = qnorm(1 - alpha/2)
> c(p_hat - z_1 * sqrt(p_hat * (1 - p_hat) / n), p_hat + z_1 * sqrt(p_hat * (1 - p_hat) / n))
[1] 0.3570593 0.4429407

> prop.test(X, n)$conf.int
[1] 0.3570044 0.4445558
> attr(,"conf.level")
[1] 0.95

> # 모분산의 신뢰구간
> s2 = 4^2
> n = 40
> alpha = 0.05
> q_1 = qchisq(1 - alpha/2, n-1)
> q_2 = qchisq(alpha/2, n-1)
> c((n-1)*s2/q_1, (n-1)*s2/q_2)
[1] 10.73640 26.37995

11. 정리하기

불편성, 일치성, 효율성을 가지는 통계량을 이용하는 것이 바람직하다.
모비율의 100(1−α)% 신뢰구간
- [ p̂ - z(α/2)√(p̂(1-p̂)/n) , p̂ + z(α/2)√(p̂(1-p̂)/n) ]
모분산의 100(1−α)% 신뢰구간
- [ (n-1)S² / χ²ₙ₋₁,α/2 , (n-1)S² / χ²ₙ₋₁,1-α/2 ]

728x90

'방송대 > 통계학계론' 카테고리의 다른 글

8강. 추정 (1) (0)	2025.04.10
7강. 확률분포와 표본분포 (2) (0)	2025.04.09
6강. 확률분포와 표본분포 (1) (0)	2025.04.01
5강. 확률 및 확률 분포 함수 (2) (0)	2025.03.23
4강. 확률 및 확률분포함수 (1) (0)	2025.03.15

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

최근에 올라온 글

Total

Today

Yesterday

공지사항

비전공 개발자의 일지

티스토리 뷰

9강. 추정 (2)

1. 통계적 추정의 개요

2. 바람직한 통계량

3. 모비율과 표본비율

4. 표본비율의 특성

5. 모비율의 특성

6. 모비율의 신뢰구간

7. 표본분산

8. 표본분산의 분포

9. 표본분산의 신뢰구간

10. R을 이용한 실습 ( 모평균의 신뢰구간 추정 )

11. 정리하기

'방송대 > 통계학계론' 카테고리의 다른 글

티스토리툴바