본문 바로가기

전체 글

(100)
3. 문자열 다루기 1. 문자열 다루기파이썬에서 문자열은 텍스트 데이터를 다루는 데 사용되는 중요한 데이터 타입이다. 문자열은 작은 따옴표(')나 큰 따옴표("), 세 개의 따옴표(",""")로 둘러싸인 텍스트로 표현된다. 파이썬의 문자열은 유니코드(Unicode) 문자의 시퀀스로 구성되며, 문자열 값은 메모리에 저장되고 해당 값은 불변(immutable)한 특성을 가진다. 파이썬은 문자열 리터럴의 공유 문자열 최적화와 같은 기술을 사용하여 문자열을 메모리 효율적으로 다루도록 설계되었다.최적화: 문자열 재사용 is 연산자는 파이썬에서 두 객체의 식별(Identity)을 비교할 때 사용되는 연산자이다. 객체의 식별은 메모리 내에서 객체가 저장된 위치를 의미한다. is 연산자는 두 객체가 동일한 메모리 위치에 저장되어 있는지 ..
2. 파이썬의 변수 1. 파이썬의 변수변수는 프로그래밍에서 데이터를 저장하고 관리하는 데 사용되는 중요한 개념이다. 변수는 이름이 붙은 메모리 공간으로, 값을 저장하거나 참조할 때 사용된다. 2. 변수의 이름 작성하는 방법파이썬의 변수는 대소문자를 구분하며, 예약어 (예: if, while, for등)는 변수 이름으로 사용할 수 없다. 변수 이름은 알파벳으로 시작해야 하며, 숫자나 특수문자는 첫 글자로 올 수 없다. 변수 이름은 의미있고 알아보기 쉬운 이름으로 지정하는 것이 좋다. 3. 변수의 자료형파이썬은 동적 타이핑(dynamic typing) 언어로, 변수의 타입을 선언할 필요 없이 값을 할당할 때 자동으로 타입을 추론한다. 이는 프로그래머가 변수의 타입을 직접 명시할 필요 없이 더 유연하게 코드를 작성할 수 있는 장..
1. 파이썬의 출력 1. print 함수print() 함수는 파이썬의 기본 출력 함수로, 터미널이나 콘솔 창에 텍스트나 데이터를 출력하기 위해 사용된다.end=' '는 문자를 출력할 때, 무엇을 마지막에 쓸 건지 정해준다. 또한 end를 사용하게 되면 공백없이 다음 출력값이 출력된다. 2. 파이썬의 escape 문자파이썬에서 이스케이프 문자는 문자열 안에서 특별한 의미를 가지는 문자들을 나타내기 위해 사용된다. 이스케이프 문자는 백슬랙시(\)로 시작하며, 문자열 내에서 특정한 동작이나 특수문자를 표현하기 위해 사용된다. 3. print 함수내의 연산print() 함수는 문자열뿐만 아니라 숫자와 연산 결과도 출력할 수 있다. 4. 출력서식 지정파이썬의 print() 함수는 출력 서식을 지정하여 값을 형식화하고 출력하는 기능을..
[R] dplyr패키지, stringr패키지, reshape2패키지, 데이터 시각화 《데이터 관련 정보 사이트》 《R for Data Science 한국어 번역 사이트(웹북)》 https://bookdown.org/sulgi/r4ds/workflow-pipes.html 6 워크플로: 파이프 | R for Data Science - 한국어 6.1 들어가기 파이프는 일련의 다중연산을 깔끔하게 표현할 수 있는 강력한 도구이다. 앞 장에서 간단하게 소개했지만 더 진행하기에 앞서 파이프가 작동하는 방법과 대략적인 역사를 조금 설명 bookdown.org 《공공데이터포털》 https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도..
[R] 데이터 입출력, 기술통계량, 패키지 《인코딩과 디코딩》 인코딩 방식 : 문자 -> 이진 숫자로 변환하는 규칙 디코딩 방식 : 이진 숫자 -> 문자로 변환하는 규칙 파일을 생성할 때 사용한 인코딩 방식과 파일을 읽을 때 사용하는 방식이 일치해야 한다 맥북 : UTF-8 Windows : EUC-KR 《파일 가져오기(데이터 입력)》 1. readLines() 파일의 문자들을 한줄씩 읽어서 벡터에 저장하여 반환한다 2. read.table() 파일의 문자들을 테이블 형태(데이터프레임)으로 읽어온다 3. read.csv() "," 구분문자를 사용하여 파일의 문자들을 데이터프레임으로 읽어온다 * csv(comma-separated values) : 콤마를 사용하여 데이터를 구분하여 표기하는 방식 4. read_excel() excel 파일 형식의 ..
[R] 반복문, 기타제어문, 사용자 정의 함수, 데이터 입출력 《제어문》 코드의 실행을 제어한다 1. 조건문 2. 반복문 3. 기타제어문 《반복문》 코드를 반복 실행한다 1. for문 2. while문 3. repeat문 《for문》 for(변수 in 반복가능대상) { 반복 실행할 코드 } * 반복가능대상의 데이터의 개수가 반복횟수다 for(item in 1:5) { print("안녕") } item 문자로 변환할 때 사용하는 방식 아스키코드, UTF-8, EUC-KR(cp949, ms949) 등... 파일을 생성할 때 사용한 규칙과 파일을 읽을 때 사용하는 규칙이 일치해야 데이터를 정상적으로 읽을 수 있다
[R] 리스트, 요인, 제어문, 함수 《리스트(list)》 벡터, 행렬, 배열, 데이터프레임과 같은 자료구조값을 저장하는 벡터 * 파이썬의 dictionary 라는 자료구조와 유사하다 * key-value 한쌍으로 데이터가 저장된다 -> 직접 key를 명시하지 않으면 자동으로 정수형 인덱스 번호가 부여된다 * 리스트 -> 벡터(generic vector) 기존 백터 -> 원자벡터(atomic vector) 《리스트 생성》 list(벡터, 행렬, 데이터프레임, 배열...) list(키1 = 벡터, 키2 = 행렬, 키3 = 데이터프레임..) 《리스트의 요소 가져오기》 1. 리스트명[인덱스번호] : 요소를 리스트로 가져온다 2. 리스트명[[인덱스번호]] : 요소를 요소 자료형태로 가져온다 3. 리스트명[키] : 요소를 리스트로 가져온다 4. 리스..
[R] 배열, 데이터프레임, 리스트 《배열(array)》 행, 열, 면(장)의 3차원 형태 행렬이 여러면으로 쌓인 구조 같은 자료형의 데이터만 저장할 수 있다 《배열 생성》 array(데이터, dim = c(행의 수, 열의 수, 면의 수)) 《배열의 요소 가져오기》 배열명[행의 인덱스번호, 열의 인덱스번호, 면의 인덱스번호] 인덱스번호를 생략하면 모든 요소를 가져온다 배열명[행의 인덱스번호, , ] : 해당 행의 모든 열과 모든 면의 데이터 배열명[, 열의 인덱스번호, ] : 해당 열의 모든 행과 모든 면의 데이터 배열명[, , 면의 인덱스번호] : 해당 면의 모든 행과 모든 열의 데이터 《배열의 정보》 1. str() : 배열의 정보 2. length() : 배열의 데이터 개수 3. dim() : 배열의 행, 열, 면의 수 4. dimn..