1. 단변수 범주형 자료MASS 패키지의 Cars93 자료를 불러서 자동차 타입에 따른 빈도를 이용하여 막대그래프 그리기library(MASS)head(Cars93) - head는 상위의 몇 개의 데이터만 불러오게 한다.Cars93 자료는 1993년 미국에서 판매되는 93종의 자동차에 대한 여러 정보를 포함2. 기본막대그림 ( barplot )barplot은 대표적인 단변수 범주형 데이터를 표현할 수 있는 도구사용 예시# with 함수를 통해 Cars93내의 Type 타입의 데이터가 나타나는 빈도수를 테이블로 구성tab x축: 자동차 유형( Type )y축: 각 자동차 유형의 빈도수( Number of Car )col=1:6: 막대의 색상을 6가지로 지정legend: 오른쪽 범례 추가names.arg: ..
1. 함수의 정의함수( function )란 특정한 작업을 독립적으로 수행하는 프로그램 코드의 집합체R의 내장함수에 사용자가 원하는 특정한 기능이 구현되어 있지 않다면 사용자 스스로 직접 함수를 생성하여 원하는 기능을 수행할 수 있음2. 함수의 장점작업을 작은 단위로 분할하여 수행하도록 함으로써 효율성 제고자유로운 수정·보완이 가능하므로 작업의 유연성이 확보됨작업에 사용하는 코드의 오류 등의 발생 원인 파악이 용이코드의 크기를 줄임으로써 작업 프로세스 이해가 용이사용자가 정의한 함수를 자유롭게 활용하여 작업 목적을 충족3. 함수의 구조함수의 일반적인 구조는 다음과 같음함수이름 ← function(매개변수) {함수의 몸체}function은 함수를 정의를 위해 사용하는 R의 내장 함수list()함수가 lis..
1. 수치적 함수pi : 원주율삼각함수sin(x) : sin 함수cos(x) : cosine 함수tan(x) : tangent 함수asin(x) : arcsin 함수acos(x) : arccosine 함수atan(x) : arctangent 함수log(x) : 자연로그 함수log10(x) : 상용로그 함수exp(x) : 지수 로그 함수sqrt(x) : 루트 함수min(x) : 벡터에서 최솟값max(x) : 벡터에서 최댓값min(x1, x2, ...) : 전체 벡터 원소 중에서 최솟값range(x) : 벡터의 범위 ( 최솟값과 최댓값 ) → c(min(x), max(x))pmin(x1, x2) : 두 벡터의 상응하는 원소들 중 작은 값pmax(x1, x2) : 두 벡터의 상응하는 원소들 중 큰 값2. 통계..
1. 프로그래밍의 이해프로그래밍이란?목적을 달성하기 위해 알고리즘( 문제 해결을 위한 일련의 절차 또는 방법 )을 프로그램으로 작성하는 과정프로그래밍의 절차프로그램 작성 방법 결정코딩에러 수정2. 프로그래밍의 기본 요소주요 명령문 ( 제어문 )반복문조건문분기문R 프로그래밍은 다음과 같은 기본 요소를 토대로 이루어짐함수연산자3. 산술 연산자덧셈 연산자 : +# 일반적인 숫자의 덧셈> 1+2 [1] 3# 값을 변수에 할당한 후에 덧셈> x y x+y[1] 3> v1 v2 v1+v2 # 벡터의 덧셈[1] 4 6> A B A+B # 행렬의 덧셈[,1] [,2][1,] 4 8[2,] 6 10뺄셈 연산자 : -> 3-2[1] 1> x y x-y[1] 1> v1 v2 v1-v2 # 벡터의 뺄셈[1] 1 3> A B ..
1. 배열의 정의배열( Array )은 행렬을 2차원 이상으로 확장시킨 객체를 의미2차원 구조로 이루어진 행렬도 일종의 배열이라고 할 수 있으며 일반적으로는 3차원 이상의 데이터 객체를 배열이라고 함배열의 주요 속성length : 자료의 개수mode : 자료의 형태dim : 각 차원 벡터의 크기dimnames : 각 차원 리스트의 이름2. 배열의 생성배열을 생성하는데 사용되는 array( ) 함수를 이용하여 1에서 18까지의 원소를 갖는 3행 3열의 행렬 2개를 생성#1~18까지의 자료 생성# c(행의 개수, 열의 개수, 행렬의 개수)를 지정함으로써 원소의 개수를 제한> arr dimnames(arr) arr, , ar 1col 1 col 2 col 3row 1 1 4 7row 2 2 5 8row 3..
1. 데이터의 기본 형태R의 특징 중 하나는 다양한 형태의 데이터 입수와 가공이 용이하며 통계분석에 최적화된 형태의 데이터 구조를 형성한다는 점R에서 다루는 데이터의 기본적인 형태는 크게 벡터, 행렬, 배열과 리스트, 데이터 프레임으로 나눌 수 있음2. 벡터의 생성벡터는 한 개 이상의 원소로 구성된 자료구조로서 R의 자료 객체 중에서 가장 기본이 되는 자료 객체를 의미하나의 벡터의 원소는 한 가지 형태( Mode )만이 가능하다는 점에 유의벡터는 c( ), scan( ), seq( ), rep( ) 함수를 이용하여 생성 가능3. 벡터 생성의 예시c( )함수를 이용하여 3에서 7까지의 자연수로 이루어진 벡터를 생성# c() 함수 내에 입력된 값을 조합하여 벡터 생성> c(3,4,5,6,7) [1] 3 4 ..
1. 작업 directory 설정 및 현재 directory 확인R을 활용할 때 작업 디렉토리 변경의 필요성이 있음기본 작업경로가 길고 복잡한 경우에는 경로를 일일이 찾아 지정하는 것이 매우 번거로울 수 있으므로 작업디렉토리를 변경ex ) D 드라이브 하에 “datav” 라는 directory가 만들어져 있다고 가정할 경우, 아래와 같은 명령으로 작업 디렉토리를 설정 및 향후 접근 가능ex ) setwd('D:\\datav'), setwd(‘D:/datav’)serwd는 Set Working Directory의미현 작업 디렉토리의 확인은 getwd( ) 함수를 이용2. c( ) 함수를 이용한 데이터 입력c( ) 함수는 가장 기본적인 데이터 입력 방법좌측에 벡터 이름( 객체명 )이 위치하며 ‘←’ 나 ‘=..

1. 데이터 요약 방법질적 데이터 요약막대 그래프양적 데이터 요약히스토그램점도표평균, 분산, 표준편차상자 그림중앙값, 사분위수 범위2. 평균의 특징데이터의 분포가 좌우 대칭인 경우 평균은 분포의 가운데에 위치한다데이터 중 하나라도 한쪽으로 치우치면 평균은 특이점 쪽으로 움직이게된다3. 중앙값 ( Median )데이터를 크기 순서대로 늘어놓았을 때 정확히 중앙에 위치하는값관찰값의 개수가 홀수일 때 : 중앙에 위치하는 관찰값관찰값의 개수가 짝수일 때: 중앙에 위치하는 2개 관찰값의 평균ex ) 1, 2, 3, 4, 5, 6일 경우 중앙값 = ( 3 + 4 ) / 2 = 3.5특이점의 영향을 거의 받지 않는다분포가 한쪽으로 쏠려 있거나,특이점이 존재하는 데이터를 요약할 때 주로 사용된다4. 사분위수( Quar..
1. R 패키지의 소개 및 설치R에서 패키지란 특정 분석을 수행할 수 있는 함수, 객체, 도움말, 데이터 등의 집합R 설치 시 기본 설치되는 패키지는 library( ) 함수로 조회R 시작과 함께 동시에 시작되는 기본 패키지는 search( ) 함수로 조회R에서 기본 설치가 되지 않는 패키지도 많으므로 사용자가 CRAN을 통해 직접 설치할 필요Install.packages(“패키지 이름”)과 같이 R 콘솔에서 명령을 직접 실행하거나풀다운 메뉴의 패키지들 > 패키지(들) 설치하기 클릭하고 미러 사이트 목록을 선택한 뒤 원하는 패키지를 목록에서 찾아 설치할수도 있음2. R 패키지의 활성화R에 기본적으로 설치되어 있는 패키지 외의 사용자가 직접 설치한 패키지의 경우에는 이를 활성화할 필요R 콘솔에서 libra..
1. R 프로그램 소개R 프로그램( R )은 통계 컴퓨팅과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경R은 벨연구소애서 만들어진 S언어를 기반으로 뉴질랜드 오클랜드 대학의 Robert Gentleman과 Ross Ihaka에 의해 개발현재 R Development Core Tea에 의하여 지속적으로 유지되고 개선되고 있으면 CRAN이라 불리는 R 네크워크를 통하여 전 세계의 연구자들이 수정 및 보완2. R 프로그램의 장점GPL( General Public License ) 개념으로 오픈 소스이며 무료Window, Mac OS, Unix 등 여러 운영체제에서 구동이 가능하고 프로그램 용량이 작아 쉽게 설치행렬의 개념의 데이터 관리를 통해 대용량 데이터 관리 및 처리에 유리하여 기계학습, 금융, 생명정..