티스토리

Uno_says

검색하기

13. 의사 결정 나무

데이터 분석

13. 의사 결정 나무

Uno_says 2024. 7. 9. 17:29

728x90

데이터: bike.csv

1. bike 데이터셋

datetime: 날짜
count: 대여 개수
holiday: 휴일
workingday: 근무일
temp: 기온
feels_like: 체감온도
temp_min: 최저온도
temp_max: 최고온도
pressure: 기압
humidity: 습도
wind_speed: 풍속
wind_deg: 풍향
rain_1h: 1시간당 내리는 비의 양
snow_1h: 1시간당 내리는 눈의 양
clouds_all: 구름의 양
weather_main: 날씨

결측치 확인하고 채우기

2020년 4-5월 그래프 이상 발견

📌covid에 따라 데이터 분류하기

📌season에 따라 데이터 분류하기

📌day night에 따라 데이터 분류하기

필요없는 열 삭제하기

대여개수('count') 예측하기

2. 의사 결정 나무(Decision Tree)

데이터를 분석하고 패턴을 파악하여 결정 규칙을 나무 구조로 나타낸 기계학습
간단하고 강력한 모델 중 하나로, 분류와 회귀 문제에 모두 사용
엔트로피: 데이터의 불확실성을 측정. 특정 속성으로 데이터를 나누었을 때, 엔트로피가 얼마나 감소하는지를 계산하여 정보를 얻음. 정보 익득이 높은 속성을 선택하여 데이터를 나누게 됨.
지니계수: 데이터의 불순도를 측정하는 또 다른 방법. 임의로 선택된 두 개의 요소가 서로 다른 클래스에 속할 확률을 나타냄. 지니 불순도가 낮을수록 데이터가 잘 분리된 것
의사 결정 나무는 오버피팅이 매우 잘 일어남

3. 선형 회귀 vs 의사 결정 나무

📌선형 회귀

📌하이퍼 파라미터 적용

하이퍼 파라미터는 모델의 성능에 직접적인 영향을 미치는 요소들이다. 'random_state', 'max_depth', 'min_samples_leaf' 등의 매개변수들을 올바르게 설정하면 모델이 데이터를 잘 학습하고 일반화할 수 있도록 도와준다.

💡결론

세 가지의 방법을 모두 학습시킨 결과 하이퍼 파라미터를 사용한 의사 결정 나무가 가장 성능이 좋은 걸 알 수 있다.

의사 결정 나무 시각화

각 특성(feature)의 이름을 지정하여 시각화

728x90