방송대/R 컴퓨팅
1강. R 입문( 1 )
monimoni
2025. 2. 23. 13:58
1. R 프로그램 소개
- R 프로그램( R )은 통계 컴퓨팅과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경
- R은 벨연구소애서 만들어진 S언어를 기반으로 뉴질랜드 오클랜드 대학의 Robert Gentleman과 Ross Ihaka에 의해 개발
- 현재 R Development Core Tea에 의하여 지속적으로 유지되고 개선되고 있으면 CRAN이라 불리는 R 네크워크를 통하여 전 세계의 연구자들이 수정 및 보완
2. R 프로그램의 장점
- GPL( General Public License ) 개념으로 오픈 소스이며 무료
- Window, Mac OS, Unix 등 여러 운영체제에서 구동이 가능하고 프로그램 용량이 작아 쉽게 설치
- 행렬의 개념의 데이터 관리를 통해 대용량 데이터 관리 및 처리에 유리하여 기계학습, 금융, 생명정보 공학 등 빅데이터 분석에 널리 활용
- 대화식으로 프로그램을 수행하며 배우기 쉬움
- 다른 프로그래밍 언어(C, Java)로 개발된 함수와도 통합가능
3. R 프로그램의 단점
- 프로그램 명령어를 직접 입력해야 하므로 통계나 프로그래밍에 대해 익숙하지 않은 사용자들이 쓰기에 어려울 수 있음
- 연구자들이 만들어 공유한 함수 및 패키지를 사용하기 위해 사용자들이 개별 프로그램의 사용법을 따로 익혀야 함
- 프로그램의 일관성이나 안전성이 다소 떨어질 수 있고 잠재적인 오류에 대해 유의하여야 함
4. R 프로그램 설치
- R 프로그램은 홈페이지인 CRAN 사이트를 통해 최신 버전을 다운로드할 수 있음
- 우분투나 맥을 사용하고 있으면 apt-get이나 brew 등으로 설치할 수도 있음
- R Base 프로그램을 먼저 설치 해야 함
5. R 프로그램 실행
- R 프로그램은 바탕화면에 생성된 아이콘을 더블 클릭하면 실행할 수 있음
- 초기 화면 상단에는 주 메뉴가 있고 R 콘솔 창이 활성화됨
- R 콘솔창
- R 콘솔 창은 일종의 대화식 계산기로 프롬프트( > ) 뒤에 명령어를 입력하고 엔터키를 눌러 결과 바로 확인
- 명령문 입력
- 간단한 사칙연산 ( +, -, *, / )
- R의 강점은 기본적인 산술연산에 있는 것이 아니라 객체에 값을 할당하고 함수들을 사용하여 이 객체들을 다루고 분석하는데 있음
- 변수를 생성하고 값을 할당한 후 간단한 연산을 수행
- R 프로그램에서 세미콜론(;)을 사용하면 여러 개의 명령문을 한 줄에 입력할 수도 있음
- ex ) a = 1; b = 2; c = 3; a + b
- ex 출력결과 ) [1] 3
- R에서 사용가능한 변수의 이름은 다음의 규칙을 따라야만 함
- 문자 a~z, A~Z, 숫자 0~9, 그리고 ‘ . ’과 ‘ _ ’의 조합으로 구성
- 이름의 첫 글자로 숫자와 ‘ _ ‘는 사용불가
- 대문자와 소문자는 서로 구분
- 변수에는 숫자뿐만이 아니라 벡터, 행렬, 함수, 문자 등 다양한 형태의 객체 값을 지정할 수 있음
- R 프로그램에서 세미콜론(;)을 사용하면 여러 개의 명령문을 한 줄에 입력할 수도 있음
- 변수에 문자형 값을 저장
- “ 를 사용하면 문자형으로 인식하게 됨
- ex ) r ← “userR”
- 변수에 논리형 값을 저장
- TRUE나 FALSE 값을 저장하게 됨
- ex ) c ← 1 > 2
- ex 출력결과 ) FALSE
- 변수의 속성 확인 : mode ( 변수명 )
- 변수의 속성을 확인해주는 R의 내장 함수
- ex ) mode( r )
- ex 출력결과 ) [1] “character”
- 간단한 사칙연산 ( +, -, *, / )
- 스크립트 실행
- R 콘솔창에 필요한 명령문을 입력해서 결과를 얻는 방식은 대화식이지만, 만약 명령문의 개수가 많거나 수정하며 재사용 필요 시 편집기를 활용
- R 편집기( 스크립트 윈도우 )는 R에 내장되어 있는 일종의 메모장으로 나중에 실행할 R 스크립트를 기록하고 적절한 위치에 저장
- R 편집기는 R 풀다운 메뉴의 ‘파일’ → ‘새 스크립트’로 실행
- 일부만을 실행시키조자할 때에는, 원하는 부분만 영역으로 선택한 후 R 편집기 풀다운 메뉴의 ‘편집’ → ‘줄 또는 선택영역 실행’ 클릭
- 단축키 Ctrl + R
- R 편집기에 입력된 스크립트는 R 편집기 풀다운 메뉴의 ‘파일’ → ‘저장’을 선택하여 ‘파일이름.R’와 같은 파일로 저장할 수 있음
6. R의 기본 활용
- 벡터의 생성
- 벡터는 R 활용에 있어 핵심적인 역할
- 숫자형뿐만이 아니라 문자형과 논리형을 다룰 수는 있지만, 한 벡터 내에 여러 형태가 섞일 수는 없으면 c( ) 함수를 통해 생성
- 벡터의 통계값 계산에 있어서 주의해야 할 사항은 결측값( missing value )의 처리인데 결측이 발생한 경우 R에서는 NA( Not Available )로 표현
- R의 내장함수
- sort( x ) : 숫자를 오름차순으로 정렬
- sum( x ) : 합
- mean( x ) : 표본평균
- sum( x ) / length( x ) : 표본 평균
- var( x ) : 포준분산
- min( x ) : 최솟값
- which.min( x ) : 최솟값이 있는 위치
- summary ( x ) : 기초 통계량
- mean ( x, na.rm = TRUE ) : 연산에서 NA 제외 옵션
- is.na ( x ) : 각 관측치가 NA 여부 판단
- which(is.na(y)) : NA인 관측치의 위치 값
- sum ( is.na(y) ) : 관측치가 NA 여부 판단 시 TRUE이면 1, FALSE이면 0
- 도움말 보기
- R에서는 활용하고자 하는 함수에 대한 도움말을 호출할 수 있음
- 기본 브라우저를 통해 도움말을 부르는 경우 >help 함수명 또는 ? 함수명
- 주어진 키워드를 포함한 도움말을 부를 경우 help.search(”검색 키워드”) 혹은 ?? 검색키워드
- 도움말의 사용 예제를 부를 경우 example( 함수명 )
- 도움말의 시작 페이지는 help.start( )로 볼 수 있으며 R 매뉴얼 페이지나 구글링을 통해서도 도움이 되는 문서를 찾을 수 있음
728x90