데이터 분석

11. 아이리스 데이터셋

Uno_says 2024. 7. 9. 15:18
728x90

1. Iris DataSet

 

sklearn.datasets

Utilities to load popular datasets and artificial data generators. User guide. See the Dataset loading utilities section for further details. Loaders: Sample generators:

scikit-learn.org

 

 

'load_iris'는 Scikit-Learn 라이브러리에서 제공하는 함수 중 하나로, 유명한 Iris 데이터셋을 로드하는 데 사용된다. Iris 데이터셋은 머신러닝과 통계학에서 자주 사용되는 다중 클래스 분류 데이터셋으로, 세 가지 종류의 붓꽃을 분류하는 문제를 다룬다.

  • 데이터셋 구성: Iris 데이터셋은 150개의 샘플과 4개의 features로 구성되어 있다.
  • features: 각 샘플은 꽃잎과 꽃받침의 길이와 너비를 나타내는 4개의 수치 피처를 가진다.

  • 타겟: 세 가지 종류의 붓꽃을 나타내는 3개의 클래스(0, 1, 2)로, 각각의 클래스는 특정한 붓꽃의 종류를 나타낸다.

 

 

iris 데이터셋을 학습용 데이터와 테스트용 데이터로 나누어 모델을 학습시키고 평가한다.

  • train_test_split() : scikit-learn 라이브러리의 함수로, 주어진 데이터를 학습용 데이터와 테스트용 데이터로 나눈다.
  • df_iris.drop('target', axis=1) : DataFrame에서 'target'이라는 열을 삭제하고, 나머지 데이터만 반환한다. 이 부분은 특성 데이터(features)만을 추출하기 위한 것이다.
  • df_iris['target'] : 이는 DataFrame의 'target' 열을 선택하여 레이블 데이터(labels)를 추출한다. 
  • test_size=0.2 : 전체 데이터의 20%를 테스트용 데이터로 사용하고, 나머지 80%를 학습용 데이터로 사용하겠다는 의미이다.
  • random_state=2024 : 무작위 분한 시드(seed)를 설정하여 실행할 때마다 동일한 결과가 나오도록 한다. 이는 결과의 재현성을 보장하기 위해 사용된다.

 

'random_state' 는 데이터 분할을 위한 난수 생성기의 시드를 설정하는 역할을 한다. 'random_state=2024'일 때와 'random_state=2023'일 때, 분할 방식이 달라지므로 학습용 데이터와 테스트용 데이터에 할당되는 데이터가 다르게 된다. 즉, 동일한 데이터셋이더라도 각 시드 값에 따라 학습용과 테스트용 데이터에 포함되는 샘플들이 달라진다.

 

 

 

 

2. AI 통합 플랫폼 사이트

2-1. 캐글(Kaggle)

  • 구글에서 운영하는 전세계 AI개발자, 데이터 사이언티스트들이 데이터를 분석하고 토론할 수 있는 자료 등을 제공
  • 데이터분석 및 머신러닝, 딥러닝 대회를 개최
  • 다량의 데이터셋, 파이썬 자료, R 자료 등을 제공
  • https://kaggle.com/
 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

2-2. 데이콘(Dacon)

  • 국내 최초 AI 해커톤 플랫폼
  • 전문 인력 채용과 학습을 할 수 있는 여러가지 AI자료 등을 제공
  • https://dacon.io/
 

데이터사이언티스트 AI 컴피티션

10만 AI 팀이 협업하는 데이터 사이언스 플랫폼. AI 경진대회와 대상 맞춤 온/오프라인 교육, 문제 기반 학습 서비스를 제공합니다.

dacon.io

 

2-3. AI 허브(AI Hub)

  • 한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼
  • AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 제공
  • https://www.aihub.or.kr/
 

AI-Hub

[교통물류] 상용 자율주행차 야간 자동차 전용도로 데이터 #자율주행차 # 상용 자율주행 # 상용 자율주행차 # 자율주행 데이터 #자율주행 조회수 6,847 관심등록 10 다운수 16

www.aihub.or.kr

 

728x90