데이터 분석 (16) 썸네일형 리스트형 9. 머신러닝 1. 머신러닝(Machine Learning) 2. 머신러닝 정의배경: 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 머신러닝으로 할 수 있는 일들이 많아짐머신러닝은 데이터로부터 특징이 패턴을 찾아내는 것이기 때문에 데이터가 가장 중요함인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야"무엇(x)으로 무엇(y)을 예측하고 싶다"의 f(함수)를 찾아내는 것x: 입력변수(독립변수), y: 출력변수(종속변수), f모형(머신러닝 알고리즘) 3. 머신러닝으로 할 수 있는 것 3-1. 회귀(Regression)시계열(시간적인 변화를 연속적으로 관측한 데이터)데이터 같은 연속된 데이터를 취급할 때 사용하는 기법예측예) 과거 주식 추세를 학습하여 내일의 주가를 예측하는 시스템을.. 8. 떡볶이 프렌차이즈의 입점전략 데이터: 소상공인시장진흥공단_상가(상권)정보_서울_202303.csvimport pandas as pddf = pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')'|'.join(shop) : 'shop'리스트에 있는 요소들을 '|' 기호를 사용하여 하나의 문자열로 결합한다. 여기서 '|'.join(shop)은 '신전떡볶이|죠스떡볶이|죠스떡볶이|엽기떡볶이|청년떡복이|감탄떡복이' 가 된다.'({})'.format('|'.join(shop)) : 결합된 문자열을 정규 표현식 패턴으로 만든다. 이 경우, 'format'.. 7. 서울시 따릉이 API 활용 1. 따릉이 APIhttps://www.bikeseoul.com/app/station/getStationRealtimeStatus.do 1-1. 데이터 요청하기 1-2. json 데이터 처리하기json.loads(): json 타입의 문자열 데이터를 파이썬에서 처리할 수 있도록 변환(딕셔너리로 변환) 1-3. 딕셔너리 타입의 데이터를 데이터프레임으로 변환하기json_normalize(): 딕셔너리 자료구조의 타입의 데이터를 판다스 데이터프레임으로 변환stationName: 대여소 이름stationId: 고유한 대여소 번호stationLongitude: 대여소 경도stationLatitude: 대여소 위도rackTorCnt: 주차 가능한 전체 자전거 대수parkingBikeTotCnt: 주차된 따릉.. 6. 전국 도시공원 데이터 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 파일 인코딩# pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/전국도시공원표준데이터.csv', encoding='ms949')# pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/전국도시공원표준데이터.csv', encoding='euc-kr')park = pd.read_csv('/content/drive/MyDrive/컴퓨터비.. 4. 가상 온라인 쇼핑몰 데이터 데이터: OnlineRetail.csvimport pandas as pdretail = pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/OnlineRetail.csv')# 비회원/탈퇴/휴먼회원 제거retail = retail[pd.notnull(retail['CustomerID'])]# 구입 수량이 0 이하인 데이터를 확인retail[retail['Quantity'] = 1]# 구입 가격이 0 이하인 데이터를 확인retail[retail['UnitPrice'] 0] 💡문제1월별 매출 구하기💡문제2요일별 매출 구하기 💡문제3시간대별 매출 구하기 ✔️데이터로부터 Insight전체 매출의 약 82%가 UK에서 발생매.. 3. Matplotlib 1. Matplotlib파이썬 기반 시각화 라이브러리한글에 대한 지원이 완벽하지 않음pandas와 연동이 용이함https://matplotlib.org/ Matplotlib — Visualization with Pythonseaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package desmatplotlib.org # .. 2. 판다스(Pandas) 1. 판다스(Pandas)데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터를 쉽게 처리하고 분석데이터프레임(DataFrame)이라는 자료구조를 제공import pandas as pd 2. Series와 DataFrame 2-1. SeriesSeries는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음값은 넘파이의 ndarray 기반으로 저장됨Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있음 2-2. DataFrame데이터프레임은 판다스 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로 2차원의 테이블 형태 데이터를 다룸데이터프레임의 요소는.. 1. 넘파이(Numpy) 1. 넘파이(Numpy)파이썬에서 사용되는 과학 및 수학 연산을 위한 강력한 라이브러리주로 다차원 배열을 다루는 데에 특화되어 있어, 데이터 분석, 머신러닝, 과학계산 등 다양한 분야에서 널리 사용넘파이 배열은 c언어로 구현되어 있어 연산이 빠르고 효율적넘파이 배열은 큰 데이텃셋에서 수치 연산을 수행할 때 뛰어난 성능을 보이며, 메모리 사용을 최적화하고 효율적으로 관리 2. 넘파이의 주요 특징과 기능 2-1. 다차원 배열(N-dimensional array)넘파이의 핵심은 다차원 배열 ndarrayndarray는 동일한 자료형을 가지는 원소들로 이루어져 있음 2-2. 리스트와 ndarry 변환 2-3. ndarray의 데이터 타입넘파이의 ndarray는 동일한 자료형을 가지는 원소들로 이루어져 있으며, .. 이전 1 2 다음