티스토리 뷰

1. 통계학이란?

  • 데이터 : 세상을 이해하는 창
    • 어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집
    • 전통적인 데이터 수집 방법
      • 관찰, 설문조사, 실험 등
  • 데이터 폭발 ( Data Explosion )
    • 컴퓨터와 정보통신 기술 발달로 매일 방대한 양의 데이터가 생산됨
  • 통계학
    • 데이터에서 쓸모 있는 정보를 얻기 위한 별도의 과정이 필요해짐
    • 정의
      • 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문

2. 통계학의 역할

  • 데이터의 수집
    • 알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용
  • 데이터의 요약
    • 데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용
    • 기술 통계
  • 추론
    • 데이터를 이용하여 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화
    • 추측 통계 ( 추론 통계 )

3. 데이터

  • 데이터의 기본 요소
    • 단위 ( Unit ) : 관측되는 개발 대상
    • 변수 ( Variable ) : 각 단위에 대해 관측되는 특성
    • 관찰값 ( Observation ) : 각 단위로부터 관측한 특성의 값
  • 데이터란?
    • 하나 이상의 변수에 대한 관찰값의 모음

4. 통계학의 주요 개념

  • 모집단과 표본
    • 모집단 ( Population ) : 관심 대상이 되는 모든 개체의 모임
    • 모수 ( Parameter ) : 모집단의 특성을 나타내는 대푯값
    • 표본 ( Sample ) : 모집단을 알기 위해 실제로 관측한 모집단의 일부
    • 통계량 ( Statistic ) : 표본의 특성을 나타내는 대푯값
  • 모집단과 모수
    • 대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다.
    • 모집단의 종류
      • 유한 모집단 : 개체 수가 유한개
      • 무한 모집단 : 개체 수가 무한개
    • 모수
      • 값이 고정
      • 대부분의 경우 값을 알 수 없다.
        • 예외 : 개체수가 작은 유한 모집단의 경우 가능
  • 표본과 통계량
    • 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요
    • 단순 램덤 표집 ( Simple random sampling )
      • 유한 모집단에서 n개의 개체로 이루어진 가능한 모든 부분 집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
    • 통계량
      • 모수를 추정하기 위해 표본에서 얻은 값
      • 표본을 새로 뽑으면 통계량의 값이 달라진다.

5. R

  • 통계 분석과 그래프 작성에 쓰이는 무료 소프트웨어
  • Window, MacOS, Linux 등 다양한 컴퓨터 환경에 쉽게 설치 및 사용 가능
  • R development core team에 의하여 유지, 개선
  • 누구나 새로운 함수를 개발하여 ‘패키지’ 형태로 공유 가능
    • 상업용 소프트웨어에 비해 다양한 분석 가능

6. R 설치

  • CRAN에서 다운로드 ( Base )
  • 다운로드 받은 파일을 실행하여 설치 마법사 실행
  • ‘구성 요소 설치’ 단계에서 ‘Message translations’ 체크박스 해제하는 것을 추천
    • R의 출력 언어가 한글 대신 영어로 세팅
    • 오류 메세지가 영어로 되어있으면 검색을 통해 해결책을 찾기가 훨씬 쉬움

7. R Studio

  • R을 편리하게 이용할 수 있게 해주는 편집기
  • R을 설치한 후 https://www.rstudio.com 에서 Products > Rstudio Desktop 선택
  • 다운로드 받을 파일을 실행하여 설치
  • R을 실제로 이용할 때는 RStudio를 열면 된다.
  • File > New File > R Script를 클릭하여 스크립트 창을 열어 사용하는 것이 편리
  • 단축키 변경은 Tools > Modify Keyboard Shortcuts에서 수정 가능

8. R Studio에서 명령어 실행하는 방법

  • 콘솔 창을 이용하는 방법
    • 콘솔 창에 직접 입력하고 Enter를 누른다.
  • 스크립트 창을 이용하는 방법
    • 1줄만 실행할 경우
      • 실행하려는 명령어에 커서를 놓은 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.
    • 여러줄 또는 1줄 전체가 아닌 일부분만 실행할 경우
      • 실행하려는 명령어를 마우스로 드래그한 후 Run 버튼을 클릭하거나 단축키 Ctrl + Enter를 누른다.

9. 작업 디렉토리

  • 작업 디렉토리 지정
    • 데이터 파일을 읽어 들이거나 내보낼 때, 일일이 위치를 지정하지 않아도 디폴트 위치를 설정하는 것
  • setwd( ) 함수 안에 큰 따옴표를 씌운 경로를 넣는다.
  • 경로의 각 단계를 구분할 때 일반적으로 쓰는 역슬래시(\)대신 슬래시(/) 또는 두개의 역슬래시(\\)를 써야 한다.
    • ex) setwd(”C:/Users/KNOU_stat/R_exercise”)
  • 작업 디렉토리는 RStudio를 종료하면 해제된다.

10. R의 데이터 형태와 연산

  • 객체의 생성과 저장
    • 객체 이름 ← 저장하고 싶은 값
    • ex ) a ← 1
    • 저장 후 해당 값을 불러오고 싶은 경우 객체 이름 작성 후 Run
  • 백터 ( Vector )
    • 백터 : 어떤 요소(값)들이 일렬로 늘어선 것
    • 백터를 만드는 법
      • c ( ) 함수 안에 백터의 각 요소를 쉼표로 구분하여 넣는다.
        • ex ) height ← c ( 165, 151, 162, 160, 142 )
      • seq( ) 등의 함수를 이용
        • ex ) e ← seq ( 1, 10, 2 )
        • 위의 함수는 1부터 10까지 값을 2씩 늘려서 저장하라는 의미
        • e에는 1, 3, 5, 7, 9값이 저장되게 된다. ( Sequence 함수 )
      • d ← 1 : 3는 d라는 변수 안에 1부터 3까지를 저장하라는 의미
        • d에는 1, 2, 3이 저장된다.
      • f ← rep(10, 5)는 10을 5번 반복해서 저장하라는 의미 ( Repeat 함수 )
        • f에는 10, 10, 10, 10, 10가 저장된다.
    • 백터는 서로 합칠 수도 있다.
      • g ← c ( d, f )를 실행하면 1, 2, 3, 10, 10, 10, 10, 10가 g에 저장된다.
      • h ← c ( 4:1, seq ( 0, 9, 3 ) )은 4부터 1까지의 값과 0부터 9까지 값을 3씩 늘린 값을 모두 저장하게된다.
        • h에는 4, 3, 2, 1, 0, 3, 6, 9가 저장된다.
  • 백터의 연산
    • 백터들 간 사칙연산이 가능
      • 백터의 길이가 같은 경우 : 각 백터에서 같은 위치에 있는 숫자끼리 연산
      • 백터의 길이가 다른 경우 : 길이가 짧은 백터의 각 요소를 앞에서부터 재활용하면서 연산
        • 경고 메세지가 출력된다.
      • ex ) e + f / e - f / e * f / e/f 등

11. R의 데이터형

  • 숫자형 : 사칙연산 가능
  • 범주형 : factor ( ) 또는 as.factor ( ) 이용하여 생성
    • j <- as.factor(1: 4)
      • 출력결과 : Levels: 1 2 3 4
    • 단순히 숫자값으로 인식하는 것이 아닌 카테고리의 값으로 인식
    • 사칙연산이 불가능하다.
  • 문자형 : as.character( ) 이용하여 생성
    • k <- as.character(1:4)
      • 출력결과 : [1] "1" "2" "3" "4”
    • l <- c("K", "N", "O", "U")
      • 위와 같이 “를 활용하여 문자형으로 저장할 수도 있다.
  • 논리형 : TRUE 또는 FALSE 값을 지닌다
    • m <- i > 2
      • 출력결과 : [1] FALSE FALSE TRUE TRUE
      • i에 저장된 값이 각각 2보다 큰지 판단

12. 행렬

  • 백터 여러개의 모임
  • 행렬의 요소들은 데이터형이 모두 같아야 한다.
  • cbind( ), rbind( ), matrix( )함수 이용해서 생성
  • cbind ( )
    • n <- rep(10, 5)
    • o <- 1:5
    • p <- cbind(n, o)
    • 출력결과 :

  • rbind ( )
    • q <- rbind(n, o)
    • 출력결과 :

  • matrix ( 값, 행, 열 )
    • r <- matrix(1:4, 2, 2)
    • 1부터 4의 값을 2행 2열의 형태로 저장하게 된다.
    • 값이 들어가는 순서는 가장 왼쪽의 위부터 아래로 값을 넣은 후 오른쪽으로 넘어간다.
    • 같은 행과 같은 열의 개수를 가질 시 사칙연산이 가능하다
      • ex ) s <- matrix(c(1, 4, 2, 7), 2, 2)
      • r + s, r %*% s (곱하기)
    • 출력결과 :

  • solve ( 행렬 변수 )
    • 역행렬의 값을 보여준다.
  • 행렬 변수[ 행 번호, 열 번호 ]
    • 입력한 행 번호와 열번호에 맞는 값을 보여준다.
    • ex ) r[1, 2]는 3 값을 나타낸다.
    • ex ) r [1, ]을 입력시 1행 전체를 보여주기에 1 3을 보여준다.
    • ex ) r[ , 1]을 입력시 1열 전체를 보여주기에 3 4를 보여준다.

13. 데이터 프레임 ( Data frame )

  • 행렬과 비슷하나 데이터형이 다른 백터들도 하나의 데이터 프레임에 저장 가능
  • data.frame( ) 함수 이용해서 생성
  • 다른 데이털형도 하나의 프레임 안에 저장이 가능하다.
  • 출력 결과 :

  • 출력 결과 2 : 

14. 요약
  • 통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
  • 통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.데이터는 하나 이상의 변수에 대한 관찰값의 모음이다.
  • 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다.
  • 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
  • 모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다.
  • 통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.
  • 통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.
  • 데이터는 하나 이상의 변수에 대한 관찰값의 모음이다. 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.
  • 관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다. 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집이다.
  • 모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대푯값이고, 모수를 알기 위해 표집한 표본의 특성을 나타내는 대푯값을 통계량이라고 한다. 
728x90
댓글
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
최근에 올라온 글
Total
Today
Yesterday
공지사항