티스토리 뷰
1. 통계학이란?
- 데이터 : 세상을 이해하는 창
- 어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집
- 전통적인 데이터 수집 방법
- 관찰, 설문조사, 실험 등
- 데이터 폭발 ( Data Explosion )
- 컴퓨터와 정보통신 기술 발달로 매일 방대한 양의 데이터가 생산됨
- 통계학
- 데이터에서 쓸모 있는 정보를 얻기 위한 별도의 과정이 필요해짐
- 정의
- 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문
2. 통계학의 역할
- 데이터의 수집
- 알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용
- 데이터의 요약
- 데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용
- 기술 통계
- 추론
- 데이터를 이용하여 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화
- 추측 통계 ( 추론 통계 )
3. 데이터
- 데이터의 기본 요소
- 단위 ( Unit ) : 관측되는 개발 대상
- 변수 ( Variable ) : 각 단위에 대해 관측되는 특성
- 관찰값 ( Observation ) : 각 단위로부터 관측한 특성의 값
- 데이터란?
- 하나 이상의 변수에 대한 관찰값의 모음
4. 통계학의 주요 개념
- 모집단과 표본
- 모집단 ( Population ) : 관심 대상이 되는 모든 개체의 모임
- 모수 ( Parameter ) : 모집단의 특성을 나타내는 대푯값
- 표본 ( Sample ) : 모집단을 알기 위해 실제로 관측한 모집단의 일부
- 통계량 ( Statistic ) : 표본의 특성을 나타내는 대푯값
- 모집단과 모수
- 대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다.
- 모집단의 종류
- 유한 모집단 : 개체 수가 유한개
- 무한 모집단 : 개체 수가 무한개
- 모수
- 값이 고정
- 대부분의 경우 값을 알 수 없다.
- 예외 : 개체수가 작은 유한 모집단의 경우 가능
- 표본과 통계량
- 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요
- 단순 램덤 표집 ( Simple random sampling )
- 유한 모집단에서 n개의 개체로 이루어진 가능한 모든 부분 집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
- 통계량
- 모수를 추정하기 위해 표본에서 얻은 값
- 표본을 새로 뽑으면 통계량의 값이 달라진다.
5. R
- 통계 분석과 그래프 작성에 쓰이는 무료 소프트웨어
- Window, MacOS, Linux 등 다양한 컴퓨터 환경에 쉽게 설치 및 사용 가능
- R development core team에 의하여 유지, 개선
- 누구나 새로운 함수를 개발하여 ‘패키지’ 형태로 공유 가능
- 상업용 소프트웨어에 비해 다양한 분석 가능
6. R 설치
- CRAN에서 다운로드 ( Base )
- 다운로드 받은 파일을 실행하여 설치 마법사 실행
- ‘구성 요소 설치’ 단계에서 ‘Message translations’ 체크박스 해제하는 것을 추천
- R의 출력 언어가 한글 대신 영어로 세팅
- 오류 메세지가 영어로 되어있으면 검색을 통해 해결책을 찾기가 훨씬 쉬움
7. R Studio
- R을 편리하게 이용할 수 있게 해주는 편집기
- R을 설치한 후 https://www.rstudio.com 에서 Products > Rstudio Desktop 선택
- 다운로드 받을 파일을 실행하여 설치
- R을 실제로 이용할 때는 RStudio를 열면 된다.
- File > New File > R Script를 클릭하여 스크립트 창을 열어 사용하는 것이 편리
- 단축키 변경은 Tools > Modify Keyboard Shortcuts에서 수정 가능
8. R Studio에서 명령어 실행하는 방법
- 콘솔 창을 이용하는 방법
- 콘솔 창에 직접 입력하고 Enter를 누른다.
- 스크립트 창을 이용하는 방법
- 1줄만 실행할 경우
- 실행하려는 명령어에 커서를 놓은 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.
- 여러줄 또는 1줄 전체가 아닌 일부분만 실행할 경우
- 실행하려는 명령어를 마우스로 드래그한 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.
- 1줄만 실행할 경우
9. 작업 디렉토리
- 작업 디렉토리 지정
- 데이터 파일을 읽어 들이거나 내보낼 때, 일일이 위치를 지정하지 않아도 디폴트 위치를 설정하는 것
- setwd( ) 함수 안에 큰 따옴표를 씌운 경로를 넣는다.
- 경로의 각 단계를 구분할 때 일반적으로 쓰는 역슬래시(\)대신 슬래시(/) 또는 두개의 역슬래시(\\)를 써야 한다.
- ex) setwd(”C:/Users/KNOU_stat/R_exercise”)
- 작업 디렉토리는 RStudio를 종료하면 해제된다.
10. R의 데이터 형태와 연산
- 객체의 생성과 저장
- 객체 이름 ← 저장하고 싶은 값
- ex ) a ← 1
- 저장 후 해당 값을 불러오고 싶은 경우 객체 이름 작성 후 Run
- 백터 ( Vector )
- 백터 : 어떤 요소(값)들이 일렬로 늘어선 것
- 백터를 만드는 법
- c ( ) 함수 안에 백터의 각 요소를 쉼표로 구분하여 넣는다.
- ex ) height ← c ( 165, 151, 162, 160, 142 )
- seq( ) 등의 함수를 이용
- ex ) e ← seq ( 1, 10, 2 )
- 위의 함수는 1부터 10까지 값을 2씩 늘려서 저장하라는 의미
- e에는 1, 3, 5, 7, 9값이 저장되게 된다. ( Sequence 함수 )
- d ← 1 : 3는 d라는 변수 안에 1부터 3까지를 저장하라는 의미
- d에는 1, 2, 3이 저장된다.
- f ← rep(10, 5)는 10을 5번 반복해서 저장하라는 의미 ( Repeat 함수 )
- f에는 10, 10, 10, 10, 10가 저장된다.
- c ( ) 함수 안에 백터의 각 요소를 쉼표로 구분하여 넣는다.
- 백터는 서로 합칠 수도 있다.
- g ← c ( d, f )를 실행하면 1, 2, 3, 10, 10, 10, 10, 10가 g에 저장된다.
- h ← c ( 4:1, seq ( 0, 9, 3 ) )은 4부터 1까지의 값과 0부터 9까지 값을 3씩 늘린 값을 모두 저장하게된다.
- h에는 4, 3, 2, 1, 0, 3, 6, 9가 저장된다.
- 백터의 연산
- 백터들 간 사칙연산이 가능
- 백터의 길이가 같은 경우 : 각 백터에서 같은 위치에 있는 숫자끼리 연산
- 백터의 길이가 다른 경우 : 길이가 짧은 백터의 각 요소를 앞에서부터 재활용하면서 연산
- 경고 메세지가 출력된다.
- ex ) e + f / e - f / e * f / e/f 등
- 백터들 간 사칙연산이 가능
11. R의 데이터형
- 숫자형 : 사칙연산 가능
- 범주형 : factor ( ) 또는 as.factor ( ) 이용하여 생성
- j <- as.factor(1: 4)
- 출력결과 : Levels: 1 2 3 4
- 단순히 숫자값으로 인식하는 것이 아닌 카테고리의 값으로 인식
- 사칙연산이 불가능하다.
- j <- as.factor(1: 4)
- 문자형 : as.character( ) 이용하여 생성
- k <- as.character(1:4)
- 출력결과 : [1] "1" "2" "3" "4”
- l <- c("K", "N", "O", "U")
- 위와 같이 “를 활용하여 문자형으로 저장할 수도 있다.
- k <- as.character(1:4)
- 논리형 : TRUE 또는 FALSE 값을 지닌다
- m <- i > 2
- 출력결과 : [1] FALSE FALSE TRUE TRUE
- i에 저장된 값이 각각 2보다 큰지 판단
- m <- i > 2
12. 행렬
- 백터 여러개의 모임
- 행렬의 요소들은 데이터형이 모두 같아야 한다.
- cbind( ), rbind( ), matrix( )함수 이용해서 생성
- cbind ( )
- n <- rep(10, 5)
- o <- 1:5
- p <- cbind(n, o)
- 출력결과 :
- rbind ( )
- q <- rbind(n, o)
- 출력결과 :
- matrix ( 값, 행, 열 )
- r <- matrix(1:4, 2, 2)
- 1부터 4의 값을 2행 2열의 형태로 저장하게 된다.
- 값이 들어가는 순서는 가장 왼쪽의 위부터 아래로 값을 넣은 후 오른쪽으로 넘어간다.
- 같은 행과 같은 열의 개수를 가질 시 사칙연산이 가능하다
- ex ) s <- matrix(c(1, 4, 2, 7), 2, 2)
- r + s, r %*% s (곱하기)
- 출력결과 :
- solve ( 행렬 변수 )
- 역행렬의 값을 보여준다.
- 행렬 변수[ 행 번호, 열 번호 ]
- 입력한 행 번호와 열번호에 맞는 값을 보여준다.
- ex ) r[1, 2]는 3 값을 나타낸다.
- ex ) r [1, ]을 입력시 1행 전체를 보여주기에 1 3을 보여준다.
- ex ) r[ , 1]을 입력시 1열 전체를 보여주기에 3 4를 보여준다.
13. 데이터 프레임 ( Data frame )
- 행렬과 비슷하나 데이터형이 다른 백터들도 하나의 데이터 프레임에 저장 가능
- data.frame( ) 함수 이용해서 생성
- 다른 데이털형도 하나의 프레임 안에 저장이 가능하다.
- 출력 결과 :
- 출력 결과 2 :
14. 요약
- 통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
- 통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.데이터는 하나 이상의 변수에 대한 관찰값의 모음이다.
- 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다.
- 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
- 모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다.
- 통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
- 통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.
- 데이터는 하나 이상의 변수에 대한 관찰값의 모음이다. 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.
- 관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다. 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
- 모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다.
728x90
'방송대 > 통계학계론' 카테고리의 다른 글
7강. 확률분포와 표본분포 (2) (0) | 2025.04.09 |
---|---|
6강. 확률분포와 표본분포 (1) (0) | 2025.04.01 |
5강. 확률 및 확률 분포 함수 (2) (0) | 2025.03.23 |
4강. 확률 및 확률분포함수 (1) (0) | 2025.03.15 |
2강. 데이터 요약 1 (0) | 2025.03.02 |
댓글