본문 바로가기

R

(9)
[R] dplyr패키지, stringr패키지, reshape2패키지, 데이터 시각화 《데이터 관련 정보 사이트》 《R for Data Science 한국어 번역 사이트(웹북)》 https://bookdown.org/sulgi/r4ds/workflow-pipes.html 6 워크플로: 파이프 | R for Data Science - 한국어 6.1 들어가기 파이프는 일련의 다중연산을 깔끔하게 표현할 수 있는 강력한 도구이다. 앞 장에서 간단하게 소개했지만 더 진행하기에 앞서 파이프가 작동하는 방법과 대략적인 역사를 조금 설명 bookdown.org 《공공데이터포털》 https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도..
[R] 데이터 입출력, 기술통계량, 패키지 《인코딩과 디코딩》 인코딩 방식 : 문자 -> 이진 숫자로 변환하는 규칙 디코딩 방식 : 이진 숫자 -> 문자로 변환하는 규칙 파일을 생성할 때 사용한 인코딩 방식과 파일을 읽을 때 사용하는 방식이 일치해야 한다 맥북 : UTF-8 Windows : EUC-KR 《파일 가져오기(데이터 입력)》 1. readLines() 파일의 문자들을 한줄씩 읽어서 벡터에 저장하여 반환한다 2. read.table() 파일의 문자들을 테이블 형태(데이터프레임)으로 읽어온다 3. read.csv() "," 구분문자를 사용하여 파일의 문자들을 데이터프레임으로 읽어온다 * csv(comma-separated values) : 콤마를 사용하여 데이터를 구분하여 표기하는 방식 4. read_excel() excel 파일 형식의 ..
[R] 반복문, 기타제어문, 사용자 정의 함수, 데이터 입출력 《제어문》 코드의 실행을 제어한다 1. 조건문 2. 반복문 3. 기타제어문 《반복문》 코드를 반복 실행한다 1. for문 2. while문 3. repeat문 《for문》 for(변수 in 반복가능대상) { 반복 실행할 코드 } * 반복가능대상의 데이터의 개수가 반복횟수다 for(item in 1:5) { print("안녕") } item 문자로 변환할 때 사용하는 방식 아스키코드, UTF-8, EUC-KR(cp949, ms949) 등... 파일을 생성할 때 사용한 규칙과 파일을 읽을 때 사용하는 규칙이 일치해야 데이터를 정상적으로 읽을 수 있다
[R] 리스트, 요인, 제어문, 함수 《리스트(list)》 벡터, 행렬, 배열, 데이터프레임과 같은 자료구조값을 저장하는 벡터 * 파이썬의 dictionary 라는 자료구조와 유사하다 * key-value 한쌍으로 데이터가 저장된다 -> 직접 key를 명시하지 않으면 자동으로 정수형 인덱스 번호가 부여된다 * 리스트 -> 벡터(generic vector) 기존 백터 -> 원자벡터(atomic vector) 《리스트 생성》 list(벡터, 행렬, 데이터프레임, 배열...) list(키1 = 벡터, 키2 = 행렬, 키3 = 데이터프레임..) 《리스트의 요소 가져오기》 1. 리스트명[인덱스번호] : 요소를 리스트로 가져온다 2. 리스트명[[인덱스번호]] : 요소를 요소 자료형태로 가져온다 3. 리스트명[키] : 요소를 리스트로 가져온다 4. 리스..
[R] 배열, 데이터프레임, 리스트 《배열(array)》 행, 열, 면(장)의 3차원 형태 행렬이 여러면으로 쌓인 구조 같은 자료형의 데이터만 저장할 수 있다 《배열 생성》 array(데이터, dim = c(행의 수, 열의 수, 면의 수)) 《배열의 요소 가져오기》 배열명[행의 인덱스번호, 열의 인덱스번호, 면의 인덱스번호] 인덱스번호를 생략하면 모든 요소를 가져온다 배열명[행의 인덱스번호, , ] : 해당 행의 모든 열과 모든 면의 데이터 배열명[, 열의 인덱스번호, ] : 해당 열의 모든 행과 모든 면의 데이터 배열명[, , 면의 인덱스번호] : 해당 면의 모든 행과 모든 열의 데이터 《배열의 정보》 1. str() : 배열의 정보 2. length() : 배열의 데이터 개수 3. dim() : 배열의 행, 열, 면의 수 4. dimn..
[R] 벡터, 행렬, 배열 《벡터에서 요소 가져오기》 1. 벡터에서 하나의 요소 가져오기 벡터명[인덱스번호] 벡터명[열 이름] 2.벡터에서 여러개 요소 가져오기 벡터명[여러개 인덱스번호가 담긴 벡터] 벡터명[여러개 열 이름이 담긴 벡터] 벡터명[-인덱스번호] -> 인덱스번호를 제외한 나머지 요소를 가져온다 3. 벡터에서 조건에 해당하는 요소 가져오기 벡터명[논리벡터] -> 각각의 요소에 논리벡터의 논리값이 부여된다 -> 부여된 논리값이 참(TRUE)인 요소만 가져온다 《벡터의 연산》 1. 산술 연산자 각 요소의 값을 산술 연산한다 * 연산하는 벡터의 길이가 같지 않으면, 길이가 짧은 벡터의 값을 재사용하여 연산이 진행된다 2. 관계 연산자 각 요소의 값을 관계 연산한다 3. 논리 연산자 각 요소의 값을 논리 연산한다 《매트릭스(행..
[R] 벡터 《R의 자료구조》 스칼라 : 하나의 값을 저장하는 구조 벡터 : 1차원의 구조. 같은 자료형만 저장가능 행렬(매트릭스) : 2차원의 구조. 같은 자료형만 저장가능 배열 : 행렬을 여러개 저장하는 구조(N차원). 같은 자료형만 저장가능 데이터프레임 : 행렬과 같은 구조. 다른 자료형을 저장가능 리스트 : 여러 자료구조를 저장하는 구조. 다른 자료형을 저장가능 * 요인 : 범주형 자료를 사용하는 벡터 * 다른 자료형을 저장할 수 있는 구조 : 데이터프레임, 리스트 * 같은 자료형을 저장할 수 있는 구조 : 벡터(1차원), 행렬(2차원), 배열(N차원) 《벡터(vector)》 같은 자료형을 가진 여러개의 값들을 저장하는 구조 여러개의 값들은 나열되어 저장되기 때문에 순서가 존재한다 인덱스(index) : 각 ..
[R] 변수명 규칙, 자료형, 연산자 《변수(variable)》 값을 저장하는 저장공간(박스) 《변수 생성》 변수명 참, 거짓 결과 is.logical(값) : 값의 자료형이 논리이니? -> 참, 거짓 결과 《그외의 자료형》 NULL : 값이 존재하지 않는다 is.null(NULL) : TRUE is.null(0) : FALSE NA : 값이 존재하지 않는다 not available(값이 있어야 하는 자리에 없는 경우) 결측치 -> 결측값 is.na(NA) : TRUE is.na(0) : FALSE NaN : 사용할 수 없는 숫자값 not a number -> 수학적 연산 불가 is.nan(NaN) : TRUE is.nan(0) : FALSE Inf : infinite -> 무한값 is.infinite(Inf) : TRUE is.infini..