본문 바로가기

R

[R] 데이터 입출력, 기술통계량, 패키지

728x90

 

 

 

 

 

 

 

《인코딩과 디코딩》

        인코딩 방식 : 문자 -> 이진 숫자로 변환하는 규칙

        디코딩 방식 : 이진 숫자 -> 문자로 변환하는 규칙

 

        파일을 생성할 때 사용한 인코딩 방식과 파일을 읽을 때 사용하는 방식이 일치해야 한다

 

        맥북 : UTF-8

        Windows : EUC-KR

 

 

《파일 가져오기(데이터 입력)》

 

        1. readLines()

                 파일의 문자들을 한줄씩 읽어서 벡터에 저장하여 반환한다

        2. read.table()

                 파일의 문자들을 테이블 형태(데이터프레임)으로 읽어온다

        3. read.csv()

                 "," 구분문자를 사용하여 파일의 문자들을 데이터프레임으로 읽어온다

                 * csv(comma-separated values) : 콤마를 사용하여 데이터를 구분하여 표기하는 방식

        4. read_excel()

                 excel 파일 형식의 데이터를 읽어온다

                 * readxl 패키지를 설치하여 사용해야 한다

 

 

《RData 파일》

        데이터(변수, 함수 등..)을 저장할 수 있는 R의 파일 형식

 

        1. save(데이터명, file = 경로와 파일명)

                 지정한 데이터를 파일로 저장한다

        2. load(경로와 파일명)

                 파일에 존재하는 데이터를 가져온다

        3. save.image(경로와 파일명)

                 작업공간의 모든 데이터를 파일로 저장한다

        4. source(스크립트파일명)

                스크립트의 모든 데이터 불러오기

                 * 한글이 깨질 경우 encoding = "utf-8" 사용

 

 

《질적 데이터(quanlitative) 와 양적 데이터(quantitative)》

        1. 질적데이터(범주형)

                 명목형(nominal) : 범주들 간의 순서가 의미 없는 것

                           -> 혈액형, 성별, 출생지

                  순서형(ordinal) : 범주들 간의 순서가 의미 있는 것

                           -> 순위, 학력, 학년, 선호도

 

         2. 양적데이터(수치형)

                  연속형(continous) : 셀 수 없는 것

                           -> 시간, 키, 온도, 무게, 길이

                  이산형(discrete) : 셀 수 없는 것

                           -> 물건의 개수, 과목점수, 교통사고 건수

 

 

《기술통계량(Descriptive Statistics Analysis)》

         1. 평균(mean)

         2. 합계(sum)

         3. 중위수(median) : 값들을 크기순서대로 정렬했을 때 가장 중앙에 위치하는 값

         4. 최빈수(mode) : 가장 자주 나오는 값

         5. 사분위수(quartile) : 값들을 크기순서대로 정렬하고 4등분 했을 때 각 등위에 속하는 값

         6. 분산(variance) : 값들이 퍼져있는 정도

         7. 표준편차(standard deviation) : 값들이 평균으로부터 얼마나 떨어져있는지의 정도

         8. 최솟값(minimum) 

         9. 최댓값(maximum)

         10. 범위(range) : 최솟값 ~ 최댓값

         11. 첨도(kurtosis) : 분포의 비대칭 정도

         12. 왜도(skewness) : 분포의 뾰족함 정도

 

 

《패키지(package)》

         다른 개발자들이 만들어놓은 함수와 데이터의 묶음

 

        1. 패키지 설치 경로 확인

                 .libPaths()

        2. 패키지 설치

                 install.packages("패키지명")

        3. 패키지 설치 확인

                 installed.packages()

        4. 패키지 사용 준비(로드)

                 library(패키지명)

                 * 설치는 스튜디오를 종료해도 남아있지만 사용준비는 스튜디오를 실행할 때 매번 해야한다(메모리에 올리는 것)

        5. 로드된 패키지 확인

                 search()

        6. 패키지 사용 준비 해제(언로드)

                 detach(package:패키지명)

        7. 패키지 삭제

                remove.package("패키지명")

 

 

《tidyverse 패키지》

        tibble, stringr, readr, dplyr.. 등 많이 사용하는 여러개의 패키지가 속해있다

        https://www.tidyverse.org/ 

 

Tidyverse

The tidyverse is an integrated collection of R packages designed to make data science fast, fluid, and fun.

www.tidyverse.org

        

 

 

《dplyr 패키지》

        데이터 가공 관련 패키지

        https://dplyr.tidyverse.org/ 

 

A Grammar of Data Manipulation

A fast, consistent tool for working with data frame like objects, both in memory and out of memory.

dplyr.tidyverse.org

 

        1. filter() : 조건에 맞는 행 추출

        2. select() : 열 이름으로 열 추출

        3. mutate() : 함수 등을 이용하여 새로운 열 생성

        4. arrange() : 행 정렬

        5. group_by() : 기준에 따라 소그룹화

        6. summarise() : 요약 데이터 추출

 

 

 

《stringr 패키지》

        문자 처리 관련 패키지

        https://stringr.tidyverse.org/ 

 

Simple, Consistent Wrappers for Common String Operations

A consistent, simple and easy to use set of wrappers around the fantastic stringi package. All function and argument names (and positions) are consistent, all functions deal with "NA"'s and zero length vectors in the same way, and the output from one funct

stringr.tidyverse.org

        

 

《reshape2 패키지》

        1. melt() : 넓은 형식의 데이터를 긴 형식의 데이터로 변환

        2. cast() : 긴 형식의 데이터를 넓은 형식의 데이터로 변환

728x90