티스토리 뷰
1. 두 모집단의 비교 사례
- 제품 A를 사용한 집단과 제품 B를 사용한 집단 간 선호도 차이는 있을까
- 두 생산 라인에서 생산되는 제품 간 수율 차이는 있을까
- 어느 직장의 직무연수가 연수 이전에 비해 직원들의 직무능력을 향상시켰는가
- 각 모집단의 특성을 나타내는 값, 평균을 고려한다면 두 모집단의 비교는 모평균의 비교 문제로 귀결된다.
2. 독립표본 시 두 모집단의 비교
- 두 모집단의 모평균 μ₁, μ₂ 차이에 대한 기준값이 δ₀일 때, 다음 세 가지 가설을 세울 수 있다.
- ① H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 ) H₁: μ₁ − μ₂ > δ₀ ( 대립가설 )
- ② H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 )
- H₁: μ₁ − μ₂ < δ₀ ( 대립가설 )
- ③ H₀: μ₁ − μ₂ = δ₀ ( 귀무가설 ) H₁: μ₁ − μ₂ ≠ δ₀ ( 대립가설 )
3. 독립표본 시 두 모집단의 비교 ( 표본 수가 큰 경우 )
- 표본 수가 충분히 큰 경우( 통상 30보다 큰 경우 )에는 모집단의 분포와 관계 없이 다음과 같은 검정통계량을 산출하고 표준정규분포를 이용하여 검정
- Z = ((X̄₁ - X̄₂) - δ₀) / √(S₁² / n₁ + S₂² / n₂)
4. 독립표본 시 두 모집단의 비교 ( 표본 수가 작은 경우 1 )
- 표본 수가 작은 경우
- 정규분포를 따르고 두 집단의 모분산이 서로 같다면, 다음 검정통계량을 산출하고 t분포를 이용하여 검정
- Sₚ² = ((n₁ - 1)S₁² + (n₂ - 1)S₂²) / (n₁ + n₂ - 2)
가설의 종류 선택기준 ① H₀: μ₁ - μ₂ = δ₀
H₁: μ₁ - μ₂ > δ₀(X̄₁ - X̄₂ - δ₀) / √(Sₚ²/n₁ + Sₚ²/n₂) > t₍n₁ + n₂ - 2, α₎ 이면 H₀ 기각 ② H₀: μ₁ - μ₂ = δ₀
H₁: μ₁ - μ₂ < δ₀(X̄₁ - X̄₂ - δ₀) / √(Sₚ²/n₁ + Sₚ²/n₂) < -t₍n₁ + n₂ - 2, α₎ 이면 H₀ 기각 ③ H₀: μ₁ - μ₂ = δ₀
H₁: μ₁ - μ₂ ≠ δ₀|(X̄₁ - X̄₂) - δ₀| / √(Sₚ² / n₁ + Sₚ² / n₂) > t₍n₁+n₂−2, α/2₎ 이면 H₀ 기각
5. 독립표본 시 두 모집단의 비교 ( 표본 수가 작은 경우 2 )
- 표본 수가 작은 경우
- 정규분포를 따르고 두 집단의 모분산이 서로 다를 때에는 t 분포의 자유도를 𝜙로 수정 [ 새터스웨이트( Satterthwaite )근사 ]
- 검정통계량과 자유도를 계산하고 앞의 표를 이용하여 검정
- 검정통계량
- T = ((X̄₁ - X̄₂) - δ₀) / √(S₁² / n₁ + S₂² / n₂)
- 자유도
- 𝜙 = [(S₁² / n₁ + S₂² / n₂)²] / [ (S₁² / n₁)² / (n₁ - 1) + (S₂² / n₂)² / (n₂ - 1) ]
- 검정통계량
6. 대응표본 시 두 모집단의 비교
- 짝지어진 n쌍( pair )의 표본의 차를 계산하여 단일표본의 검정문제로 단순화
- Dᵢ의 평균 : D̄ = ΣDᵢ / n
- Dᵢ의 분산 : Sᴰ² = Σ(Dᵢ - D̄)² / (n - 1)
모집단 1의 표본(Xᵢ₁) 모집단 2의 표본(Xᵢ₂) Dᵢ = Xᵢ₁ - Xᵢ₂ X₁₁ X₁₂ D₁ = X₁₁ - X₁₂ X₂₁ X₂₂ D₂ = X₂₁ - X₂₂ ⋮ ⋮ ⋮ Xₙ₁ Xₙ₂ Dₙ = Xₙ₁ - Xₙ₂ 가설의 종류 선택기준 ① H₀ : μ₁ - μ₂ = D₀
H₁ : μ₁ - μ₂ > D₀(D̄ - D₀) / (Sᴰ / √n) > t₍n-1, α₎ 이면 H₀ 기각 ② H₀ : μ₁ - μ₂ = D₀
H₁ : μ₁ - μ₂ < D₀(D̄ - D₀) / (Sᴰ / √n) < -t₍n-1, α₎ 이면 H₀ 기각 ③ H₀ : μ₁ - μ₂ = D₀
H₁ : μ₁ - μ₂ ≠ D₀|(D̄ - D₀) / (Sᴰ / √n)| > t₍n-1, α/2₎ 이면 H₀ 기각
7. 두 모분산의 비교
- 두 모집단의 모분산 σ₁²와 σ₂², 각 모집단에서 추출한 크기 n₁, n₂개의 독립표본의 표본분산 각각 S₁²과 S₂²라 할 때
- 검정통계량 F = (S₁² / σ₁²) / (S₂² / σ₂²)는 두 모분산이 같다는 귀무가설 하에서 자유도(n₁ - 1, n₂ - 1)인 F 분포를 따르므로 아래와 같이 검정
가설의 종류 선택기준 H₀ : σ₁² = σ₂²
H₁ : σ₁² ≠ σ₂²S₁² / S₂² > F₍n₁-1, n₂-1, α/2₎
또는
S₁² / S₂² < F₍n₁-1, n₂-1, 1-α/2₎ 이면 H₀ 기각
8. 분산분석의 원리
- 3개 이상 모집단의 비교
- 두 모집단의 비교 중 독립표본의 표본평균을 이용한 모평균 비교의 확장
- 분산분석( Analysis of Variance )
- 두 모집단의 비교 중 독립표본의 표본평균을 이용한 모평균 비교의 확장
- 분산분석이란 반응값의 변동을 제곱합( sum of square ) 으로 나타내고, 이것을 실험과 관련된 요인의 제곱합과 오차의 제곱합으로 분해하여 오차에 비해 영향이 큰 요인이 무엇인가를 찾아내는 분석 방법
- Sᵀ( 전체 변동 ) = Sᴬ( 요인 제곱합 ) + Sᴱ( 오차 제곱합 )
- 각 모집단( 요인의 수준 )의 분포가 정규분포이고, 개별 관측값은 서로 독립이며, 각 모집단의 분산이 동일하다는 가정이 필요
9. 일원배치법 데이터의 배열
- 일원배치법은 여타 조건이 동일할 때, 어느 하나의 요인이 반응값에 영향을 주는지 파악할 수 있는 실험계획법( 랜덤화 )
구분 요인의 수준 전체 A₁ A₂ … Aₗ 실험의 반복 x₁₁ x₂₁ … xₗ₁ x₁₂ x₂₂ … xₗ₂ … … … x₁ₘ x₂ₘ … xₗₘ 합계 T₁․ T₂․ … Tₗ․ T T 평균 x̄₁․ x̄₂․ … x̄ₗ․ x̄ x̄
- i수준의 합계 : Tᵢ․ = Σⱼ xᵢⱼ, i수준의 표본평균 x̄ᵢ․ = Tᵢ․ / m (i = 1, 2, …, l)
- 전체 합계 : T = Σᵢ Tᵢ․, 관측치의 평균 : x̄ = T / (l·m)
- xᵢⱼ = μ + αᵢ + εᵢⱼ
- εᵢⱼ는 N(0, σₑ²)에 따르고 서로 독립 (단, Σαᵢ = 0)
10. 일원배치법에서의 검정
- 일원배치법의 분산분석표
요인 제곱합 자유도 평균제곱 F A( 요인 ) Sₐ = Σᵢ=1ˡ Σⱼ=1ᵐ (x̄ᵢ․ - x̄)² φₐ = l - 1 Vₐ = Sₐ / φₐ F = Vₐ / Vₑ E( 에러 ) Sₑ = Sₜ - Sₐ φₑ = l(m - 1) Vₑ = Sₑ / φₑ T( 전체 ) Sₜ = Σᵢ=1ˡ Σⱼ=1ᵐ (xᵢⱼ - x̄)² φₜ = lm - 1
- 가설
- H₀: μ₁ = μ₂ = ⋯ = μₗ or H₀: α₁ = α₂ = ⋯ = αₗ = 0 H₁: μᵢ가 모두 같지는 않다 H₁: αᵢ가 모두 0은 아니다
- 검정
- F가 F(φₐ, φₑ; α) 보다 크면 유의수준 α에서 귀무가설 기각
11. 일원배치법에서의 추정
- 각 수준의 모평균의 추정 : μᵢ의 100(1 − α)% 신뢰구간
- μ̂ᵢ = x̄ᵢ․ = Σⱼ=1ᵐ xᵢⱼ / m
- Var(x̄ᵢ․) = Var(Σ xᵢⱼ / m) = m · Var(xᵢ) / m² = σₑ² / m
- 신뢰구간 : x̄ᵢ․ ± t(φₑ ; α/2) · √(Vₑ / m)
- 각 수준의 모평균 차의 추정 : μᵢ − μᵢ′의 100(1 − α)% 신뢰구간
- (x̄ᵢ․ − x̄ᵢ′․) ± t(φₑ ; α/2) · √(2Vₑ / m)
- t 분포 자유도 : φₑ = l(m − 1)
12. 일원배치법에서의 다중비교
- 다중비교란 분산분석에서 F검정을 통해 귀무가설이 기각되었음을 확인한 이후, 어느 수준에서 평균이 차이 나는지 비교하는 방법
- 아래는 두 수준 Ai, Ai′의 모평균이 유의수준 α에서 유의한 차이가 있음을 의미
- |x̄ᵢ․ − x̄ᵢ′․| ≥ t(φₑ ; α/2) · √(2Vₑ / m)
- 위에서 기준이 되는 우변의 값을 LSD( Least Significant Difference; 최소유의차 ) 라고 함
- LSD를 구하고 각 두 수준 조합 간의 표본평균 차이를 구하여 비교 ( 피셔의 LSD 방법 )
13. 이원배치법 데이터의 배열
- 이원배치법은 관심 대상인 요인이 2개 존재하여 이 두 요인을 동시에 고려하여 행하는 실험계획법
- Sₜ = Sₐ + Sᴮ + Sₑ
요인 B \ 요인 A A₁ A₂ … Aₗ 합 평균 B₁ x₁₁ x₂₁ … xₗ₁ T․₁ x̄․₁ B₂ x₁₂ x₂₂ … xₗ₂ T․₂ x̄․₂ ⋮ ⋮ ⋮ … ⋮ ⋮ ⋮ Bₘ x₁ₘ x₂ₘ … xₗₘ T․ₘ x̄․ₘ 합 T₁․ T₂․ … Tₗ․ T 평균 x̄₁․ x̄₂․ … x̄ₗ․ x̄
- Sₜ = Sₐ + Sᴮ + Sₑ
- xᵢⱼ = μ + αᵢ + βⱼ + εᵢⱼ
- εᵢⱼ ~ N(0, σₑ²)이고 서로 독립( Σαᵢ = 0, Σβⱼ = 0 )
- i = 1, 2, …, l
- j = 1, 2, …, m
14. 이원배치법에서의 검정
- 이원배치법의 분산분석표 ( 반복이 없는 경우 )
요인 S φ = 자유도 V = 평균제곱 F = 검정통계량 A Sₐ φₐ = l − 1 Vₐ = Sₐ / φₐ Fₐ = Vₐ / Vₑ B Sᵦ φᵦ = m − 1 Vᵦ = Sᵦ / φᵦ Fᵦ = Vᵦ / Vₑ E Sₑ φₑ = (l − 1)(m − 1) Vₑ = Sₑ / φₑ T Sₜ φₜ = lm − 1
- 가설
- A 요인
- H₀ : α₁ = α₂ = ⋯ = αₗ = 0
- B 요인
- H₀ : β₁ = β₂ = ⋯ = βₘ = 0
- A 요인
- 검정 기준
- Fₐ = Vₐ / Vₑ > F(φₐ, φₑ ; α)이면 유의수준 α에서 A 귀무가설 기각
- Fᵦ = Vᵦ / Vₑ > F(φᵦ, φₑ ; α)이면 유의수준 α에서 B 귀무가설 기각
15. 이원배치법에서의 추정
- 각 수준 모평균 μ(αᵢ) 및 μ(βⱼ) 의 점추정 및 100(1 − α)% 신뢰구간
- μ̂(αᵢ) = μ̂ + α̂ᵢ = x̄ᵢ․ 신뢰구간: x̄ᵢ․ ± t(φₑ ; α/2) · √(Vₑ / m)
- μ̂(βⱼ) = μ̂ + β̂ⱼ = x̄․ⱼ 신뢰구간: x̄․ⱼ ± t(φₑ ; α/2) · √(Vₑ / l)
- 요인 A의 i수준과 요인 B의 j수준에서의 100(1 − α)% 신뢰구간
- μ̂(αᵢβⱼ) = μ̂ + α̂ᵢ + β̂ⱼ = x̄ᵢ․ + x̄․ⱼ − x̄
- Var(x̄ᵢ․ + x̄․ⱼ − x̄) = σₑ² / nₑ, nₑ = (l·m) / (l + m − 1)
- 신뢰구간 : (x̄ᵢ․ + x̄․ⱼ − x̄) ± t(φₑ ; α/2) · √(Vₑ / nₑ)
16. 두 모집단의 비교 - 대응표본
- t.test는 두 모평균을 비교하는 t검정을 실시하는 함수
- mu = 0, alternative = "less"는 대립가설이 ‘두 모평균의 차가 0보다 작다’를 의미하고, paired = T는 대응표본을 이용한 검정을 의미
pre <- c(72, 80, 83, 63, 66, 76, 82)
post <- c(78, 82, 82, 68, 70, 75, 88)
exam1 <- data.frame(pre, post)
t.test(exam1$pre, exam1$post, mu = 0, alternative = "less", paired = T)
17. 다수 모집단의 비교 - 분산분석법 1
- 일원배치법
- factor 함수를 이용하여 요인 A의 각 수준을 지정
- aov 함수를 이용하여 분산분석을 실시
x <- c(84, 83, 82, 85, 89, 86, 93, 94, 96, 89, 89, 87)
A <- c(rep(1, 3), rep(2, 3), rep(3, 3), rep(4, 3))
A <- factor(A)
aovdat1 <- data.frame(x, A)
aovmodel1 <- aov(x ~ A, data = aovdat1)
summary(aovmodel1)
18. 다수 모집단의 비교 – 분산분석법 2
- 이원배치법
- 각 요인(factor)을 나타내는 변수의 합으로 반응값을 설명
y <- c(97.8, 97.5, 96.9, 98.5, 98.8, 97.1, 99.2, 98.4, 98.1, 98.2, 97.5, 96.8)
surface <- c(rep(1, 3), rep(2, 3), rep(3, 3), rep(4, 3))
manu <- rep(c(1, 2, 3), 4)
surface <- factor(surface)
manu <- factor(manu)
aovdat2 <- data.frame(surface, manu)
aovmodel2 <- aov(y ~ surface + manu, data = aovdat2)
summary(aovmodel2)
19. 정리하기
- 서로 독립적으로 추출된 표본의 수가 충분히 큰 경우(통상 30보다 큰 경우)에는 두 모평균이 같다는 가설은 모집단의 분포와 관계 없이 표준정규분포를 이용하여 검정한다.
- 서로 독립적으로 추출된 표본 수가 작을 경우, 두 모평균이 같다는 가설은 두 모집단이 정규분포를 따르고 두 모분산이 같다는 가정 하에서 t 분포를 이용하여 검정한다.
- 모집단이 정규분포이고 두 표본이 쌍(종속적)으로 추출되었을 경우, 두 모평균의 가설검정은 짝지어진 n쌍(pair)의 표본의 차를 계산하여 단일표본의 검정문제로 단순화하여 검정한다.
- 두 모집단이 정규분포인 경우, 두 모분산이 같다는 가설은 표본분산비를 계산하고 F 분포를 이용하여 검정한다.
- 분산분석이란 실험계획법에 의하여 얻어진 특성값의 분포를 총제곱합으로 나타내고, 이 총제곱합을 요인마다 제곱합으로 분해하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 검토하는 분석방법이다.
728x90
'방송대 > 통계학계론' 카테고리의 다른 글
11강. 가설검정 (2) (0) | 2025.05.12 |
---|---|
10강. 가설검정 (1) (0) | 2025.05.12 |
9강. 추정 (2) (0) | 2025.04.16 |
8강. 추정 (1) (0) | 2025.04.10 |
7강. 확률분포와 표본분포 (2) (0) | 2025.04.09 |
댓글