티스토리 뷰

1. 두 모집단의 비교 사례

  • 제품 A를 사용한 집단과 제품 B를 사용한 집단 간 선호도 차이는 있을까
  • 두 생산 라인에서 생산되는 제품 간 수율 차이는 있을까
  • 어느 직장의 직무연수가 연수 이전에 비해 직원들의 직무능력을 향상시켰는가
    • 각 모집단의 특성을 나타내는 값, 평균을 고려한다면 두 모집단의 비교는 모평균의 비교 문제로 귀결된다.

2. 독립표본 시 두 모집단의 비교

  • 두 모집단의 모평균 μ₁, μ₂ 차이에 대한 기준값이 δ₀일 때, 다음 세 가지 가설을 세울 수 있다.
  • ① H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 ) H₁: μ₁ − μ₂ > δ₀ ( 대립가설 )
  • ② H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 )
  • H₁: μ₁ − μ₂ < δ₀ ( 대립가설 )
  • ③ H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 ) H₁: μ₁ − μ₂ ≠ δ₀ ( 대립가설 )

3. 독립표본 시 두 모집단의 비교 ( 표본 수가 큰 경우 )

  • 표본 수가 충분히 큰 경우( 통상 30보다 큰 경우 )에는 모집단의 분포와 관계 없이 다음과 같은 검정통계량을 산출하고 표준정규분포를 이용하여 검정
  • Z = ((X̄₁ - X̄₂) - δ₀) / √(S₁² / n₁ + S₂² / n₂)

4. 독립표본 시 두 모집단의 비교 ( 표본 수가 작은 경우 1 )

  • 표본 수가 작은 경우
    • 정규분포를 따르고 두 집단의 모분산이 서로 같다면, 다음 검정통계량을 산출하고 t분포를 이용하여 검정
    • Sₚ² = ((n₁ - 1)S₁² + (n₂ - 1)S₂²) / (n₁ + n₂ - 2) 
      가설의 종류 선택기준
      ① H₀: μ₁ - μ₂ = δ₀
      H₁: μ₁ - μ₂ > δ₀
      (X̄₁ - X̄₂ - δ₀) / √(Sₚ²/n₁ + Sₚ²/n₂) > t₍n₁ + n₂ - 2, α₎ 이면 H₀ 기각
      ② H₀: μ₁ - μ₂ = δ₀
      H₁: μ₁ - μ₂ < δ₀
      (X̄₁ - X̄₂ - δ₀) / √(Sₚ²/n₁ + Sₚ²/n₂) < -t₍n₁ + n₂ - 2, α₎ 이면 H₀ 기각
      ③ H₀: μ₁ - μ₂ = δ₀
      H₁: μ₁ - μ₂ ≠ δ₀
      |(X̄₁ - X̄₂) - δ₀| / √(Sₚ² / n₁ + Sₚ² / n₂) > t₍n₁+n₂−2, α/2₎ 이면 H₀ 기각

5. 독립표본 시 두 모집단의 비교 ( 표본 수가 작은 경우 2 )

  • 표본 수가 작은 경우
    • 정규분포를 따르고 두 집단의 모분산이 서로 다를 때에는 t 분포의 자유도를 𝜙로 수정 [ 새터스웨이트( Satterthwaite )근사 ]
    • 검정통계량과 자유도를 계산하고 앞의 표를 이용하여 검정
      • 검정통계량
        • T = ((X̄₁ - X̄₂) - δ₀) / √(S₁² / n₁ + S₂² / n₂)
      • 자유도
        • 𝜙 = [(S₁² / n₁ + S₂² / n₂)²] / [ (S₁² / n₁)² / (n₁ - 1) + (S₂² / n₂)² / (n₂ - 1) ]

6. 대응표본 시 두 모집단의 비교

  • 짝지어진 n쌍( pair )의 표본의 차를 계산하여 단일표본의 검정문제로 단순화
    • Dᵢ의 평균 : D̄ = ΣDᵢ / n
    • Dᵢ의 분산 : Sᴰ² = Σ(Dᵢ - D̄)² / (n - 1) 
      모집단 1의 표본(Xᵢ₁) 모집단 2의 표본(Xᵢ₂) Dᵢ = Xᵢ₁ - Xᵢ₂
      X₁₁ X₁₂ D₁ = X₁₁ - X₁₂
      X₂₁ X₂₂ D₂ = X₂₁ - X₂₂
      Xₙ₁ Xₙ₂ Dₙ = Xₙ₁ - Xₙ₂
      가설의 종류 선택기준
      ① H₀ : μ₁ - μ₂ = D₀
      H₁ : μ₁ - μ₂ > D₀
      (D̄ - D₀) / (Sᴰ / √n) > t₍n-1, α₎ 이면 H₀ 기각
      ② H₀ : μ₁ - μ₂ = D₀
      H₁ : μ₁ - μ₂ < D₀
      (D̄ - D₀) / (Sᴰ / √n) < -t₍n-1, α₎ 이면 H₀ 기각
      ③ H₀ : μ₁ - μ₂ = D₀
      H₁ : μ₁ - μ₂ ≠ D₀
      |(D̄ - D₀) / (Sᴰ / √n)| > t₍n-1, α/2₎ 이면 H₀ 기각

7. 두 모분산의 비교

  • 두 모집단의 모분산 σ₁²와 σ₂², 각 모집단에서 추출한 크기 n₁, n₂개의 독립표본의 표본분산 각각 S₁²과 S₂²라 할 때
  • 검정통계량 F = (S₁² / σ₁²) / (S₂² / σ₂²)는 두 모분산이 같다는 귀무가설 하에서 자유도(n₁ - 1, n₂ - 1)인 F 분포를 따르므로 아래와 같이 검정
    가설의 종류 선택기준
    H₀ : σ₁² = σ₂²
    H₁ : σ₁² ≠ σ₂²
    S₁² / S₂² > F₍n₁-1, n₂-1, α/2₎
    또는
    S₁² / S₂² < F₍n₁-1, n₂-1, 1-α/2₎ 이면 H₀ 기각

8. 분산분석의 원리

  • 3개 이상 모집단의 비교
    • 두 모집단의 비교 중 독립표본의 표본평균을 이용한 모평균 비교의 확장
      • 분산분석( Analysis of Variance )
  • 분산분석이란 반응값의 변동을 제곱합( sum of square ) 으로 나타내고, 이것을 실험과 관련된 요인의 제곱합과 오차의 제곱합으로 분해하여 오차에 비해 영향이 큰 요인이 무엇인가를 찾아내는 분석 방법
    • Sᵀ( 전체 변동 ) = Sᴬ( 요인 제곱합 ) + Sᴱ( 오차 제곱합 )
  • 각 모집단( 요인의 수준 )의 분포가 정규분포이고, 개별 관측값은 서로 독립이며, 각 모집단의 분산이 동일하다는 가정이 필요

9. 일원배치법 데이터의 배열

  • 일원배치법은 여타 조건이 동일할 때, 어느 하나의 요인이 반응값에 영향을 주는지 파악할 수 있는 실험계획법( 랜덤화 )
    구분 요인의 수준 전체
      A₁  A₂  …  Aₗ  
    실험의 반복 x₁₁ x₂₁ … xₗ₁  
      x₁₂ x₂₂ … xₗ₂  
      …  …  …  
      x₁ₘ x₂ₘ … xₗₘ  
    합계 T₁․ T₂․ … Tₗ․  T T
    평균 x̄₁․ x̄₂․ … x̄ₗ․  x̄
  • i수준의 합계 : Tᵢ․ = Σⱼ xᵢⱼ, i수준의 표본평균 x̄ᵢ․ = Tᵢ․ / m (i = 1, 2, …, l)
  • 전체 합계 : T = Σᵢ Tᵢ․, 관측치의 평균 : x̄ = T / (l·m)
  • xᵢⱼ = μ + αᵢ + εᵢⱼ
    • εᵢⱼ는 N(0, σₑ²)에 따르고 서로 독립 (단, Σαᵢ = 0)

10. 일원배치법에서의 검정

  • 일원배치법의 분산분석표
    요인 제곱합 자유도 평균제곱 F
    A( 요인 ) Sₐ = Σᵢ=1ˡ Σⱼ=1ᵐ (x̄ᵢ․ - x̄)² φₐ = l - 1 Vₐ = Sₐ / φₐ F = Vₐ / Vₑ
    E( 에러 ) Sₑ = Sₜ - Sₐ φₑ = l(m - 1) Vₑ = Sₑ / φₑ  
    T( 전체 ) Sₜ = Σᵢ=1ˡ Σⱼ=1ᵐ (xᵢⱼ - x̄)² φₜ = lm - 1    
  • 가설
    • H₀: μ₁ = μ₂ = ⋯ = μₗ   or   H₀: α₁ = α₂ = ⋯ = αₗ = 0 H₁: μᵢ가 모두 같지는 않다      H₁: αᵢ가 모두 0은 아니다
  • 검정
    • F가 F(φₐ, φₑ; α) 보다 크면 유의수준 α에서 귀무가설 기각

11. 일원배치법에서의 추정

  • 각 수준의 모평균의 추정 : μᵢ의 100(1 − α)% 신뢰구간
    • μ̂ᵢ = x̄ᵢ․ = Σⱼ=1ᵐ xᵢⱼ / m
    • Var(x̄ᵢ․) = Var(Σ xᵢⱼ / m) = m · Var(xᵢ) / m² = σₑ² / m
    • 신뢰구간 : x̄ᵢ․ ± t(φₑ ; α/2) · √(Vₑ / m)
  • 각 수준의 모평균 차의 추정 : μᵢ − μᵢ′의 100(1 − α)% 신뢰구간
    • (x̄ᵢ․ − x̄ᵢ′․) ± t(φₑ ; α/2) · √(2Vₑ / m)
  • t 분포 자유도 : φₑ = l(m − 1)

12. 일원배치법에서의 다중비교

  • 다중비교란 분산분석에서 F검정을 통해 귀무가설이 기각되었음을 확인한 이후, 어느 수준에서 평균이 차이 나는지 비교하는 방법
  • 아래는 두 수준 Ai, Ai′의 모평균이 유의수준 α에서 유의한 차이가 있음을 의미
    • |x̄ᵢ․ − x̄ᵢ′․| ≥ t(φₑ ; α/2) · √(2Vₑ / m)
  • 위에서 기준이 되는 우변의 값을 LSD( Least Significant Difference; 최소유의차 ) 라고 함
    • LSD를 구하고 각 두 수준 조합 간의 표본평균 차이를 구하여 비교 ( 피셔의 LSD 방법 )

13. 이원배치법 데이터의 배열

  • 이원배치법은 관심 대상인 요인이 2개 존재하여 이 두 요인을 동시에 고려하여 행하는 실험계획법
    • Sₜ = Sₐ + Sᴮ + Sₑ 
      요인 B \ 요인 A A₁ A₂ … Aₗ 평균
      B₁ x₁₁ x₂₁ … xₗ₁ T․₁ x̄․₁
      B₂ x₁₂ x₂₂ … xₗ₂ T․₂ x̄․₂
      ⋮   ⋮   …   ⋮
      Bₘ x₁ₘ x₂ₘ … xₗₘ T․ₘ x̄․ₘ
      T₁․ T₂․ … Tₗ․ T  
      평균 x̄₁․ x̄₂․ … x̄ₗ․  
  • xᵢⱼ = μ + αᵢ + βⱼ + εᵢⱼ
    • εᵢⱼ ~ N(0, σₑ²)이고 서로 독립( Σαᵢ = 0, Σβⱼ = 0 )
    • i = 1, 2, …, l
    • j = 1, 2, …, m

14. 이원배치법에서의 검정

  • 이원배치법의 분산분석표 ( 반복이 없는 경우 ) 
    요인 S φ = 자유도 V = 평균제곱 F = 검정통계량
    A Sₐ φₐ = l − 1 Vₐ = Sₐ / φₐ Fₐ = Vₐ / Vₑ
    B Sᵦ φᵦ = m − 1 Vᵦ = Sᵦ / φᵦ Fᵦ = Vᵦ / Vₑ
    E Sₑ φₑ = (l − 1)(m − 1) Vₑ = Sₑ / φₑ  
    T Sₜ φₜ = lm − 1    
  • 가설
    • A 요인
      • H₀ : α₁ = α₂ = ⋯ = αₗ = 0
    • B 요인
      • H₀ : β₁ = β₂ = ⋯ = βₘ = 0
  • 검정 기준
    • Fₐ = Vₐ / Vₑ > F(φₐ, φₑ ; α)이면 유의수준 α에서 A 귀무가설 기각
    • Fᵦ = Vᵦ / Vₑ > F(φᵦ, φₑ ; α)이면 유의수준 α에서 B 귀무가설 기각

15. 이원배치법에서의 추정

  • 각 수준 모평균 μ(αᵢ) 및 μ(βⱼ) 의 점추정 및 100(1 − α)% 신뢰구간
    • μ̂(αᵢ) = μ̂ + α̂ᵢ = x̄ᵢ․ 신뢰구간: x̄ᵢ․ ± t(φₑ ; α/2) · √(Vₑ / m)
    • μ̂(βⱼ) = μ̂ + β̂ⱼ = x̄․ⱼ 신뢰구간: x̄․ⱼ ± t(φₑ ; α/2) · √(Vₑ / l)
  • 요인 A의 i수준과 요인 B의 j수준에서의 100(1 − α)% 신뢰구간
    • μ̂(αᵢβⱼ) = μ̂ + α̂ᵢ + β̂ⱼ = x̄ᵢ․ + x̄․ⱼ − x̄
    • Var(x̄ᵢ․ + x̄․ⱼ − x̄) = σₑ² / nₑ, nₑ = (l·m) / (l + m − 1)
    • 신뢰구간 : (x̄ᵢ․ + x̄․ⱼ − x̄) ± t(φₑ ; α/2) · √(Vₑ / nₑ)

16. 두 모집단의 비교 - 대응표본

  • t.test는 두 모평균을 비교하는 t검정을 실시하는 함수
  • mu = 0, alternative = "less"는 대립가설이 ‘두 모평균의 차가 0보다 작다’를 의미하고, paired = T는 대응표본을 이용한 검정을 의미
pre  <- c(72, 80, 83, 63, 66, 76, 82)
post <- c(78, 82, 82, 68, 70, 75, 88)

exam1 <- data.frame(pre, post)

t.test(exam1$pre, exam1$post, mu = 0, alternative = "less", paired = T)

17. 다수 모집단의 비교 - 분산분석법 1

  • 일원배치법
  • factor 함수를 이용하여 요인 A의 각 수준을 지정
  • aov 함수를 이용하여 분산분석을 실시
x <- c(84, 83, 82, 85, 89, 86, 93, 94, 96, 89, 89, 87)
A <- c(rep(1, 3), rep(2, 3), rep(3, 3), rep(4, 3))
A <- factor(A)

aovdat1 <- data.frame(x, A)

aovmodel1 <- aov(x ~ A, data = aovdat1)

summary(aovmodel1)

18. 다수 모집단의 비교 – 분산분석법 2

  • 이원배치법
  • 각 요인(factor)을 나타내는 변수의 합으로 반응값을 설명
y <- c(97.8, 97.5, 96.9, 98.5, 98.8, 97.1, 99.2, 98.4, 98.1, 98.2, 97.5, 96.8)

surface <- c(rep(1, 3), rep(2, 3), rep(3, 3), rep(4, 3))
manu <- rep(c(1, 2, 3), 4)

surface <- factor(surface)
manu <- factor(manu)

aovdat2 <- data.frame(surface, manu)

aovmodel2 <- aov(y ~ surface + manu, data = aovdat2)

summary(aovmodel2)

19. 정리하기

  • 서로 독립적으로 추출된 표본의 수가 충분히 큰 경우(통상 30보다 큰 경우)에는 두 모평균이 같다는 가설은 모집단의 분포와 관계 없이 표준정규분포를 이용하여 검정한다.
  • 서로 독립적으로 추출된 표본 수가 작을 경우, 두 모평균이 같다는 가설은 두 모집단이 정규분포를 따르고 두 모분산이 같다는 가정 하에서 t 분포를 이용하여 검정한다.
  • 모집단이 정규분포이고 두 표본이 쌍(종속적)으로 추출되었을 경우, 두 모평균의 가설검정은 짝지어진 n쌍(pair)의 표본의 차를 계산하여 단일표본의 검정문제로 단순화하여 검정한다.
  • 두 모집단이 정규분포인 경우, 두 모분산이 같다는 가설은 표본분산비를 계산하고 F 분포를 이용하여 검정한다.
  • 분산분석이란 실험계획법에 의하여 얻어진 특성값의 분포를 총제곱합으로 나타내고, 이 총제곱합을 요인마다 제곱합으로 분해하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 검토하는 분석방법이다.
728x90

'방송대 > 통계학계론' 카테고리의 다른 글

11강. 가설검정 (2)  (0) 2025.05.12
10강. 가설검정 (1)  (0) 2025.05.12
9강. 추정 (2)  (0) 2025.04.16
8강. 추정 (1)  (0) 2025.04.10
7강. 확률분포와 표본분포 (2)  (0) 2025.04.09
댓글
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
최근에 올라온 글
Total
Today
Yesterday
공지사항