티스토리 뷰

방송대/통계학계론

2강. 데이터 요약 1

monimoni 2025. 3. 2. 16:01

1. 변수

변수 : 각 단위에 대해 관측되는 특성 ( ex. 성별, 나이, 학력 등 )
데이터 : 하나 이상의 변수에 대한 관찰값의 모음

2. 변수의 종류

질적 변수( Qualitative Variable 범주형 변수 )
- 유한개의 범주 중 하나의 값을 취하는 변수 ( ex. 성별, 학력 )
- 종류
  - 명목형 변수( Nominal Variable ) : 범주들에 의미 있는 순서를 정할 수 없는 질적 변수 ( ex. 성별 )
  - 순서형 변수( Ordinal Variable ) : 범주 간의 의미 있는 순서를 정할 수 있는 질적 변수 ( ex. 학력 )
양적 변수( Quantitative Variable )
- 양적인 수치로 측정되는 변수 ( ex. 나이, 몸무게 )
- 종류
  - 연속형 변수( Continuous Variable) : 어떤 실수 구간 안의 모든 값을 가질 수 있는 변수 ( ex. 몸무게 )
  - 이산형 변수( Discrete Variable ) : 취할 수 있는 값을 셀 수 있는 양적 변수 ( ex. 나이 )

3. 변수의 분포

변수의 데이터에는 변동( Variability )이 있다
변수의 분포는 변수가 취할 수 있는 모든 값에 대해 각 값이 발생하는 빈도를 나열한 것
도수분포표( Frequency Table )
- 데이터에서 각 값의 출현빈도나 비슷한 값끼리 묶은 구간별로 관측된 데이터의 개수를 정리한 표
- ex ) 한 학급의 학생들의 혈액형 분포, 한 학급의 학생들의 키 분포

4. 도수분포표 만드는 법

질적 변수의 경우
- 각 범주에 속하는 단위의 개수를 제시
양적 변수의 경우
- 계급을 정한 후 각 계급에 속하는 단위의 개수를 제시
- 계급은 임의로 정할 수 있으나, 각 계급의 폭을 일정하게 하는 것이 좋다
- 계급의 폭이 너무 좁을 경우 계급의 개수가 너무 많아지거나, 각 계급의 도수가 너무 작아진다
- 계급의 폭이 너무 넓을 경우 전체적인 분포가 잘 드러나지 않을 수도 있다
- 각 계급의 경계점에 놓이는 관찰값의 개수가 적어지도록 계급을 정하는 것이 좋다

5. 질적 데이터의 요약 : 막대 그래프

각 범주에 속한 관찰값의 개수 또는 비율을 막대의 길이로 나타낸 그래프
명목형 변수일 경우
- 큰 빈도부터 작은 빈도, 또는 작은 빈도부터 큰 빈도 순서로 정렬하면 좋다
- ex ) 어느 학급 학생들의 등하교 교통수단
순서형 변수일 경우
- 범주의 순서를 지켜서 그리는 것이 좋다
- ex ) 어느 의원 환자들의 비만도 분포

6. 질적 데이터의 요약 : 원 그래프

각 범주에 속한 관찰값의 비율의 원의 면적으로 표현한 그래프
막대그래프에 비해서 정보 파악이 어렵기 때문에, 최근에는 선호되지 않는다
ex ) 어느 학급 학생들의 등하교 교통수단

7. 양적 데이터 요약하는 방법

히스토그램, 점도표, 상자그림
평균, 표준편차, 분산
중앙값, 사분위수 범위

8. 양적 데이터의 요약 : 히스토그램 ( Histogram )

도수분포표를 그래프로 나타낸 것
계급을 수평축에 표시
각 계급의 도수에 비례하는 넓이의 직사각형
ex ) 어느 학급의 영어점수 분포를 나타낸 히스토그램

9. 히스토그램과 특이점

히스토그램을 이용하면 특이점을 쉽게 찾을 수 있다
특이점( Outlier ) : 대부분의 데이터로부터 멀리 떨어져 있는관찰값

10. 히스토그램과 분포

히스토그램을 이용하면 전체적인 분포를 한눈에 파악할 수 있다
주의점 : 같은 데이터라도 계급의 폭에 따라 분포의 특성이 달라보일 수 있다

11. 분포 유형

종 모양 분포( Bell-shaped Distribution ) : 좌우 대칭이고 데이터가 가운데에 모여있다
쌍봉우리형 분포( Bimodal Distribution ) : 2개의 봉우리 주변으로 데이터가 모여있는 분포
치우친 분포( Skewed Distribution): 비대칭으로 한쪽 꼬리가 다른 쪽 꼬리보다 긴 분포
- 왼쪽으로 치우친( Right-skewed ) 분포 : 오른쪽 꼬리가 더 길다
- 오른쪽으로 치우친( Left-skewed ) 분포 : 왼쪽 꼬리가 더 길다
균등분포( Uniform Distribution): 어떤 범위 내의 값이 고르게 나타나는 분포

12. 양적 데이터의 요약 : 점도표

수평선 위에 데이터 값에 해당하는 위치에 점을 찍는 그래프
데이터가 적을 때 유용하다
관찰값의 개수가 20~30개를 넘어가면 너무 복잡해진다

13. 양적 데이터의 요약 : 최빈값( Mode )

관찰값 중에서 발생빈도가 가장 높은 값
여러개일 수도 있고, 하나도 없을 수도 있다

14. 양적 데이터의 요약 : 무게 중심과 평균

점도표를 시소 위에 물체가 놓여있는 것으로 생각하면, 시소가 평형을 이루는 무게 중심의 위치가 데이터를 대표한다고 생각할 수 있다
평균( Mean )
- 양적 변수의 분포의 균형을 이루는 무게중심의 위치에 해당하는 값
- 어떤 변수의 관찰값의 총합을 관찰값의 개수로 나눈 값

15. 평균의 특징

표본데이터가 기울어진 분포를 가졌거나 특이점이 있는 경우, 평균이 데이터 전체를 잘 대표하지 못한다
특이점의 영향을 크게 받는다
데이터의 분포가 좌우 대칭인 경우 평균은 분포의 가운데에 위치한다
데이터 중 하나라도 한쪽으로 치우치면 평균은 특이점 쪽으로 움직이게 된다

16. 분산과 표준편차

편차 : 관찰값 – 평균
분산( Variance )
- 편차의 제곱의 평균
  - 단, 평균을 낼때 데이터 개수 - 1개로 낸다. ( n-1 )
- 데이터가 중심으로부터 퍼져있는 정도를 나타냄
표준편차( Standard Deviatoin ) : 분산의 제곱근
특징
- 분산, 표준편차가 크면 데이터가 평균을 중심으로 광범위하게 분포되어 있다는 뜻
- 분산, 표준편차가 작으면 데이터가 평균을 중심으로 조밀하게 모여 있다는 뜻
- 분산, 표준편차는 특이점의 영향을 많이 받는다
분산의 단위 = 데이터 측정단위의 제곱
표준편차의 단위 = 데이터 측정단위

17. 변이계수 ( Coefficient Of Variation )

표준편차를 평균으로 나눈 값
변동을 비교할 때는 측정 단위나 데이터 중심위치의 차이를 고려해야 한다.
ex ) 만 9세의 체중과 만 21세 체중의 표준편차

18. R 패키지 설치

R 자체에 내장되지 않은, 사용자들이 개별적으로 만들어낸 함수들의 모음
누구나 새로운 패키지를 만들어서 공유할 수 있다
CRAN에서 Packages > Table of available packages, sorted by name을 선택하면 공개된 모든 패키지를 볼 수 있다

19. ggplot2 패키지

Wilkinson의 The grammar of graphics의 원칙에 따라 그래프를 만들 수 있는 함수들의 모음
기본 구조에 레이어를 추가하는 방식으로 원하는 그래프의 형태를 지정한다
디테일을 상세하게 지정하지 않아도 자동으로 예쁜 그래프를 그려준다

20. R 패키지 설치하는 방법

R Studio의 오른쪽 아래 Packages 창에서 원하는 패키지 이름 검색 후, 체크박스 선택하고 Install 클릭하기
R Studio의 위쪽 메뉴에서 Tools>Install Packages 메뉴를 선택하고 대화창에 원하는 패키지 이름 입력, Install 클릭하기
콘솔에 install.packages(“원하는 패키지 이름”) 입력

21. 패키지 로드

패키지를 설치한 후, 반드시 ‘로드( load )’해야 사용할 수 있다
로드하는 명령어 : library(ggplot2)
한번 설치한 패키지는 ( 일부러 지우거나 R을 업그레이드 하지 않는 한 ) 없어지지 않으므로 재설치가 필요없다
한번 로드한 패키지는 R Studio를 닫으면 주기억장치에서사라진다.
따라서 R Studio를 닫았다가 다시 열 경우, 필요한 패키지를 다시 로드해야 한다
- 패키지를 로드하는 명령어를 스크립트에 저장하는 것이 좋다

22. ggplot2 이용하여 그래프 그리기

기본 형태
- ggplot( data = <DATA> ) + <GEOM_FUNCTION>( mapping = aes(<MAPPINGS>))
- ggplot은 그래프를 그릴 데이터셋을 지정
- GEOM_FUNCTION에는 그리고자 하는 그래프 함수를 지정하고
- aes에는 x축과 y축 설정을 하면 된다.
ggplot( )은 먼저 자료의 좌표축을 만든다
geom function은 mapping = aes() 구문을 통해 x축과 y축 변수를 지정한다
그래프의 종류에 따라 다른 geom function을 사용한다
주의: “+”는 항상 라인의 마지막에 위치해야 한다

23. ggplot2 사용 예제 1

library(ggplot2)
transp <- c ("bicycle", "bus", "walking", "bicycle", "bicycle", "bicycle", "bus")
data1 <- data.frame(transp)
View(data1)
// 막대그래프
// xlab 함수는 x축 라벨 변경시 사용
ggplot(data = data1) + geom_bar (mapping = aes(x = transp)) + 
  xlab("Transportation")

24. forcats 사용 예제 1

forcats 사용시 빈도수에 따라서 막대 그래프가 생성된다.
빈도수가 높은 -> 낮은 순으로 나타난다.

ggplot(data = data1) + geom_bar (mapping = aes(x = fct_infreq(transp))) + 
  xlab("Transportation")

25. ggplot2 사용 예제 2

levels를 통해 factor에서 지정한 범주형 변수의 순서를 정할 수 있다.

besity<-factor(c("underweight", "normal", "overweight", "obese"),
                levels=c("underweight", "normal", "overweight", "obese"))
count<-c(6, 69, 27, 13)
perc<-count/sum(count)*100
dat2<-data.frame(obesity, count, perc)
ggplot(data=dat2) + geom_bar(mapping=aes(x=obesity, y=perc),
                             stat="identity") + xlab("Obesity") + ylab("Percentage (%)")

26. ggplot2 사용 예제 3 : 원 그래프

원 그래프 사용 시, x 축에는 “”를 입력해야 한다.
stat에는 identity를 입력해야 한다.

table(transp)
dat3<-data.frame(transportation=c("bus", "bicyle", "walking"), count=c(15, 13, 4))
ggplot(data=dat3) + geom_bar(mapping=aes(x="", y=count, fill=transportation),
                             stat="identity") +
  coord_polar("y", start=0) + xlab("") + ylab("")

27. ggplot2 사용 예제 4 : 원 그래프 2

원 그래프의 보조축을 나태내지 않는 방법

ggplot(data=dat3) + geom_bar(mapping=aes(x="", y=count, fill=transportation),
                             stat="identity") +
  coord_polar("y", start=0) + xlab("") + ylab("") +
  theme(axis.text = element_blank(),
        axis.ticks = element_blank(),
        panel.grid = element_blank())

28. 요약

변수는 질적 변수와 양적 변수로 나뉜다.
질적 변수에는 명목형 변수, 순서형 변수가 있다.
양적 변수에는 연속형 변수와 이산형 변수가 있다.
변수의 분포를 나타내기 위하여 각 값의 출현빈도나 비슷한 값끼리 묶은 구간별로 관측된 데이터의 개수를 정리한 표를 도수분포표라고 한다.
막대그래프, 히스토그램, 점도표를 이용하여 데이터를 요약할 수 있다.
특이점은 대부분의 데이터로부터 멀리 떨어져있는 관찰값이다.
평균은 분포의 무게 중심으로서 관찰값의 총합을 표본크기로 나눈 값이다.
분산은 편차의 제곱의 평균이고, 표준편차는 분산의 제곱근이다.

728x90

'방송대 > 통계학계론' 카테고리의 다른 글

7강. 확률분포와 표본분포 (2) (0)	2025.04.09
6강. 확률분포와 표본분포 (1) (0)	2025.04.01
5강. 확률 및 확률 분포 함수 (2) (0)	2025.03.23
4강. 확률 및 확률분포함수 (1) (0)	2025.03.15
1강. 데이터와 통계학 (0)	2025.02.20

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

최근에 올라온 글

Total

Today

Yesterday

공지사항

비전공 개발자의 일지

티스토리 뷰

2강. 데이터 요약 1

1. 변수

2. 변수의 종류

3. 변수의 분포

4. 도수분포표 만드는 법

5. 질적 데이터의 요약 : 막대 그래프

6. 질적 데이터의 요약 : 원 그래프

7. 양적 데이터 요약하는 방법

8. 양적 데이터의 요약 : 히스토그램 ( Histogram )

9. 히스토그램과 특이점

10. 히스토그램과 분포

11. 분포 유형

12. 양적 데이터의 요약 : 점도표

13. 양적 데이터의 요약 : 최빈값( Mode )

14. 양적 데이터의 요약 : 무게 중심과 평균

15. 평균의 특징

16. 분산과 표준편차

17. 변이계수 ( Coefficient Of Variation )

18. R 패키지 설치

19. ggplot2 패키지

20. R 패키지 설치하는 방법

21. 패키지 로드

22. ggplot2 이용하여 그래프 그리기

23. ggplot2 사용 예제 1

24. forcats 사용 예제 1

25. ggplot2 사용 예제 2

26. ggplot2 사용 예제 3 : 원 그래프

27. ggplot2 사용 예제 4 : 원 그래프 2

28. 요약

'방송대 > 통계학계론' 카테고리의 다른 글

티스토리툴바