본문 바로가기

데이터 분석

(16)

17. KMeans 1. Clusters(클러스터)유사한 특성을 가진 개체들의 집합고객분류, 유전자 분석, 이미지 분할'x=X[0]' : 데이터셋의 첫 번째 특성(열)'y=X[1]' : 데이터셋의 두 번째 특성(열)'hue=y' : 각 데이터 포인트의 색상을 'y'에 따라 다르게 설정 2. marketing 데이터셋데이터: marketing.csvfit(): 데이터의 평균과 표준편차를 계산한다.transform(): 데이터를 표준화(평균이 1, 표준편차가 1이 되도록)한다. 3. KMeansk개의 중심점을 찍은 후에 이 중심점에서 각 점간의 거리의 합이 가장 최소가 되는 중심점 k의 위치를 찾고, 이 중심점에서 가까운 점들을 중심점을 기준으로 묶는 알고리즘(k개의 클러스터의 수는 정해줘야 함) 군집의 개수(k) 설..

16. 랜덤 포레스트 데이터: hotel.csv 1. hotel 데이터셋hotel: 호텔 종류 is_canceled: 취소 여부 lead_time: 예약 시점으로부터 체크인 될 때까지의 기간(얼마나 미리 예약했는지) arrival_date_year: 예약 연도 arrival_date_month: 예약 월 arrival_date_week_number: 예약 주 arrival_date_day_of_month: 예약 일 stays_in_weekend_nights: 주말을 끼고 얼마나 묶었는지 stays_in_week_nights: 평일을 끼고 얼마나 묶었는지 adults: 성인 인원수 children: 어린이 인원수 babies: 아기 인원수 meal: 식사 형태 country: 지역 distribution_channel: 어떤 ..

15. 서포트 벡터 머신 1. 손글씨 데이터셋('load_digits')손글씨 숫자 이미지를 포함하고 있다.0부터 9까지의 숫자 이미지를 포함하며, 각 이미지는 8*8 픽셀 크기이다.주로 분류 알고리즘을 테스트하고 비교하는 데 사용된다. 📌'load_digits'에서 10개의 샘플 이미지를 시각화 - 이미지 그리기'enumerate(axes.flatten())' 을 사용하여 서브플롯의 인덱스와 축 객체를 가져온다.'data[i].reshape((8, 8))'을 통해 데이터 배열을 (8, 8) 모양으로 변환하여 이미지로 만든다.'ax.imshow'를 사용하여 서브플롯에 이미지를 그린다. 2. 스케일링(Scaling)데이터를 특정한 스케일로 통일하는 것다차원의 값들을 비교 분석하기 쉽게 만들어주며, 자료의 오버플로우나 언더..

14. 로지스틱 회귀 데이터: hr.csv 1. hr 데이터셋employee_id: 임의의 직원 아이디department: 부서region: 지역education: 학력gender: 성별recruitment_channerl: 채용 방법no_of_trainings: 트레이닝 받은 횟수age: 나이previous_year_rating: 이전 년도 고과 점수length_of_service: 근속 년수awards_won: 수상 경력avg_training_score: 평균 고과 점수is_promoted: 승진 여부 📌결측치 확인 📌결측치 제거(axis=0 : 행 제거)결측치가 있는 행들을 제거한다. (54808개의 행 -> 48660개의 행) 📌get_dummies() 필요없는 열 제거 📌학습'is_promoted' 예..

13. 의사 결정 나무 데이터: bike.csv 1. bike 데이터셋datetime: 날짜count: 대여 개수holiday: 휴일workingday: 근무일temp: 기온feels_like: 체감온도temp_min: 최저온도temp_max: 최고온도pressure: 기압humidity: 습도wind_speed: 풍속wind_deg: 풍향rain_1h: 1시간당 내리는 비의 양snow_1h: 1시간당 내리는 눈의 양clouds_all: 구름의 양weather_main: 날씨 결측치 확인하고 채우기2020년 4-5월 그래프 이상 발견 📌covid에 따라 데이터 분류하기 📌season에 따라 데이터 분류하기 📌day night에 따라 데이터 분류하기 필요없는 열 삭제하기 대여개수('count') 예측하기 2. 의..

12. 선형 회귀 데이터: rent.csv1. Rent 데이터셋Posted On: 매물 등록 날짜BHK: 베드, 홀, 키친의 개수Rent: 렌트비Size: 집 크기Floor: 총 층수 중 몇층Area Type: 공용공간을 포함하는지, 집의 면적만 포함하는지Area Locality: 지역City: 도시Furnishing Status: 풀옵션 여부Tenant Preferred: 선호하는 가족형태Bathroom: 화장실 개수Point of Contact: 연락할 곳 'BHK' 와 'Rent' 모두 독립변수 역할이 가능해보인다. 'rent_df['size']' 열에서 결측값을 해당 열의 중앙값(median)으로 채운다.'rent_df' 의 모든 열에서 숫자형 데이터에 대해서만 중앙값을 계산하고 결측값을 해당 중앙값으로 채운다...

11. 아이리스 데이터셋 1. Iris DataSet데이터셋: 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 것https://scikit-learn.org/stable/api/sklearn.datasets.html#module-sklearn.datasets sklearn.datasetsUtilities to load popular datasets and artificial data generators. User guide. See the Dataset loading utilities section for further details. Loaders: Sample generators:scikit-learn.org 'load_iris'는 Scikit-Learn 라이브러리에서 제공하는 함수 중 하나로, 유명한 Iris 데이터셋을..

10. 사이킷런 1. 사이킷런(Scikit-learn)대표적인 파이썬 머신러닝 모듈다양한 머신러닝 알고리즘을 제공다양한 샘플 데이터를 제공머신러닝 결과를 검증하는 기능을 제공BSD 라이선스이기 때문에 무료로 사용 및 배포가 가능https://scikit-learn.org/ scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation scikit-learn.org 2. LinearSVCScikit-Learn 라이브러리에서 제공하는 클래스 중 하나로, 선형 서포트 벡터머신(Linear Support Vector Machine, SVM)을 구현함클래스를 구분으로 하는 분류 문제에서 각 클래스를 잘 구분하는 선을 그려주는 방식을 사용하는 알고리즘지..

이전 1 2 다음

티스토리툴바