티스토리 뷰

방송대/통계학계론

1강. 데이터와 통계학

monimoni 2025. 2. 20. 20:44

1. 통계학이란?

데이터 : 세상을 이해하는 창
- 어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집
- 전통적인 데이터 수집 방법
  - 관찰, 설문조사, 실험 등
데이터 폭발 ( Data Explosion )
- 컴퓨터와 정보통신 기술 발달로 매일 방대한 양의 데이터가 생산됨
통계학
- 데이터에서 쓸모 있는 정보를 얻기 위한 별도의 과정이 필요해짐
- 정의
  - 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문

2. 통계학의 역할

데이터의 수집
- 알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용
데이터의 요약
- 데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용
- 기술 통계
추론
- 데이터를 이용하여 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화
- 추측 통계 ( 추론 통계 )

3. 데이터

데이터의 기본 요소
- 단위 ( Unit ) : 관측되는 개발 대상
- 변수 ( Variable ) : 각 단위에 대해 관측되는 특성
- 관찰값 ( Observation ) : 각 단위로부터 관측한 특성의 값
데이터란?
- 하나 이상의 변수에 대한 관찰값의 모음

4. 통계학의 주요 개념

모집단과 표본
- 모집단 ( Population ) : 관심 대상이 되는 모든 개체의 모임
- 모수 ( Parameter ) : 모집단의 특성을 나타내는 대푯값
- 표본 ( Sample ) : 모집단을 알기 위해 실제로 관측한 모집단의 일부
- 통계량 ( Statistic ) : 표본의 특성을 나타내는 대푯값
모집단과 모수
- 대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다.
- 모집단의 종류
  - 유한 모집단 : 개체 수가 유한개
  - 무한 모집단 : 개체 수가 무한개
- 모수
  - 값이 고정
  - 대부분의 경우 값을 알 수 없다.
    - 예외 : 개체수가 작은 유한 모집단의 경우 가능
표본과 통계량
- 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요
- 단순 램덤 표집 ( Simple random sampling )
  - 유한 모집단에서 n개의 개체로 이루어진 가능한 모든 부분 집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
- 통계량
  - 모수를 추정하기 위해 표본에서 얻은 값
  - 표본을 새로 뽑으면 통계량의 값이 달라진다.

5. R

통계 분석과 그래프 작성에 쓰이는 무료 소프트웨어
Window, MacOS, Linux 등 다양한 컴퓨터 환경에 쉽게 설치 및 사용 가능
R development core team에 의하여 유지, 개선
누구나 새로운 함수를 개발하여 ‘패키지’ 형태로 공유 가능
- 상업용 소프트웨어에 비해 다양한 분석 가능

6. R 설치

CRAN에서 다운로드 ( Base )
다운로드 받은 파일을 실행하여 설치 마법사 실행
‘구성 요소 설치’ 단계에서 ‘Message translations’ 체크박스 해제하는 것을 추천
- R의 출력 언어가 한글 대신 영어로 세팅
- 오류 메세지가 영어로 되어있으면 검색을 통해 해결책을 찾기가 훨씬 쉬움

7. R Studio

R을 편리하게 이용할 수 있게 해주는 편집기
R을 설치한 후 https://www.rstudio.com 에서 Products > Rstudio Desktop 선택
다운로드 받을 파일을 실행하여 설치
R을 실제로 이용할 때는 RStudio를 열면 된다.
File > New File > R Script를 클릭하여 스크립트 창을 열어 사용하는 것이 편리
단축키 변경은 Tools > Modify Keyboard Shortcuts에서 수정 가능

8. R Studio에서 명령어 실행하는 방법

콘솔 창을 이용하는 방법
- 콘솔 창에 직접 입력하고 Enter를 누른다.
스크립트 창을 이용하는 방법
- 1줄만 실행할 경우
  - 실행하려는 명령어에 커서를 놓은 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.
- 여러줄 또는 1줄 전체가 아닌 일부분만 실행할 경우
  - 실행하려는 명령어를 마우스로 드래그한 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.

9. 작업 디렉토리

작업 디렉토리 지정
- 데이터 파일을 읽어 들이거나 내보낼 때, 일일이 위치를 지정하지 않아도 디폴트 위치를 설정하는 것
setwd( ) 함수 안에 큰 따옴표를 씌운 경로를 넣는다.
경로의 각 단계를 구분할 때 일반적으로 쓰는 역슬래시(\)대신 슬래시(/) 또는 두개의 역슬래시(\\)를 써야 한다.
- ex) setwd(”C:/Users/KNOU_stat/R_exercise”)
작업 디렉토리는 RStudio를 종료하면 해제된다.

10. R의 데이터 형태와 연산

객체의 생성과 저장
- 객체 이름 ← 저장하고 싶은 값
- ex ) a ← 1
- 저장 후 해당 값을 불러오고 싶은 경우 객체 이름 작성 후 Run
백터 ( Vector )
- 백터 : 어떤 요소(값)들이 일렬로 늘어선 것
- 백터를 만드는 법
  - c ( ) 함수 안에 백터의 각 요소를 쉼표로 구분하여 넣는다.
    - ex ) height ← c ( 165, 151, 162, 160, 142 )
  - seq( ) 등의 함수를 이용
    - ex ) e ← seq ( 1, 10, 2 )
    - 위의 함수는 1부터 10까지 값을 2씩 늘려서 저장하라는 의미
    - e에는 1, 3, 5, 7, 9값이 저장되게 된다. ( Sequence 함수 )
  - d ← 1 : 3는 d라는 변수 안에 1부터 3까지를 저장하라는 의미
    - d에는 1, 2, 3이 저장된다.
  - f ← rep(10, 5)는 10을 5번 반복해서 저장하라는 의미 ( Repeat 함수 )
    - f에는 10, 10, 10, 10, 10가 저장된다.
- 백터는 서로 합칠 수도 있다.
  - g ← c ( d, f )를 실행하면 1, 2, 3, 10, 10, 10, 10, 10가 g에 저장된다.
  - h ← c ( 4:1, seq ( 0, 9, 3 ) )은 4부터 1까지의 값과 0부터 9까지 값을 3씩 늘린 값을 모두 저장하게된다.
    - h에는 4, 3, 2, 1, 0, 3, 6, 9가 저장된다.
백터의 연산
- 백터들 간 사칙연산이 가능
  - 백터의 길이가 같은 경우 : 각 백터에서 같은 위치에 있는 숫자끼리 연산
  - 백터의 길이가 다른 경우 : 길이가 짧은 백터의 각 요소를 앞에서부터 재활용하면서 연산
    - 경고 메세지가 출력된다.
  - ex ) e + f / e - f / e * f / e/f 등

11. R의 데이터형

숫자형 : 사칙연산 가능
범주형 : factor ( ) 또는 as.factor ( ) 이용하여 생성
- j <- as.factor(1: 4)
  - 출력결과 : Levels: 1 2 3 4
- 단순히 숫자값으로 인식하는 것이 아닌 카테고리의 값으로 인식
- 사칙연산이 불가능하다.
문자형 : as.character( ) 이용하여 생성
- k <- as.character(1:4)
  - 출력결과 : [1] "1" "2" "3" "4”
- l <- c("K", "N", "O", "U")
  - 위와 같이 “를 활용하여 문자형으로 저장할 수도 있다.
논리형 : TRUE 또는 FALSE 값을 지닌다
- m <- i > 2
  - 출력결과 : [1] FALSE FALSE TRUE TRUE
  - i에 저장된 값이 각각 2보다 큰지 판단

12. 행렬

백터 여러개의 모임
행렬의 요소들은 데이터형이 모두 같아야 한다.
cbind( ), rbind( ), matrix( )함수 이용해서 생성
cbind ( )
- n <- rep(10, 5)
- o <- 1:5
- p <- cbind(n, o)
- 출력결과 :

rbind ( )
- q <- rbind(n, o)
- 출력결과 :

matrix ( 값, 행, 열 )
- r <- matrix(1:4, 2, 2)
- 1부터 4의 값을 2행 2열의 형태로 저장하게 된다.
- 값이 들어가는 순서는 가장 왼쪽의 위부터 아래로 값을 넣은 후 오른쪽으로 넘어간다.
- 같은 행과 같은 열의 개수를 가질 시 사칙연산이 가능하다
  - ex ) s <- matrix(c(1, 4, 2, 7), 2, 2)
  - r + s, r %*% s (곱하기)
- 출력결과 :

solve ( 행렬 변수 )
- 역행렬의 값을 보여준다.
행렬 변수[ 행 번호, 열 번호 ]
- 입력한 행 번호와 열번호에 맞는 값을 보여준다.
- ex ) r[1, 2]는 3 값을 나타낸다.
- ex ) r [1, ]을 입력시 1행 전체를 보여주기에 1 3을 보여준다.
- ex ) r[ , 1]을 입력시 1열 전체를 보여주기에 3 4를 보여준다.

13. 데이터 프레임 ( Data frame )

행렬과 비슷하나 데이터형이 다른 백터들도 하나의 데이터 프레임에 저장 가능
data.frame( ) 함수 이용해서 생성
다른 데이털형도 하나의 프레임 안에 저장이 가능하다.
출력 결과 :

출력 결과 2 :

14. 요약

통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.데이터는 하나 이상의 변수에 대한 관찰값의 모음이다.
데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다.
모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다.
통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.
데이터는 하나 이상의 변수에 대한 관찰값의 모음이다. 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.
관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다. 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다.

728x90

'방송대 > 통계학계론' 카테고리의 다른 글

7강. 확률분포와 표본분포 (2) (0)	2025.04.09
6강. 확률분포와 표본분포 (1) (0)	2025.04.01
5강. 확률 및 확률 분포 함수 (2) (0)	2025.03.23
4강. 확률 및 확률분포함수 (1) (0)	2025.03.15
2강. 데이터 요약 1 (0)	2025.03.02

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

최근에 올라온 글

Total

Today

Yesterday

공지사항

비전공 개발자의 일지

티스토리 뷰

1강. 데이터와 통계학

1. 통계학이란?

2. 통계학의 역할

3. 데이터

4. 통계학의 주요 개념

5. R

6. R 설치

7. R Studio

8. R Studio에서 명령어 실행하는 방법

9. 작업 디렉토리

10. R의 데이터 형태와 연산

11. R의 데이터형

12. 행렬

13. 데이터 프레임 ( Data frame )

'방송대 > 통계학계론' 카테고리의 다른 글

티스토리툴바