데이터: 소상공인시장진흥공단_상가(상권)정보_서울_202303.csv
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')
- '|'.join(shop) : 'shop'리스트에 있는 요소들을 '|' 기호를 사용하여 하나의 문자열로 결합한다. 여기서 '|'.join(shop)은 '신전떡볶이|죠스떡볶이|죠스떡볶이|엽기떡볶이|청년떡복이|감탄떡복이' 가 된다.
- '({})'.format('|'.join(shop)) : 결합된 문자열을 정규 표현식 패턴으로 만든다. 이 경우, 'format' 메서드를 사용하여 ''({})''문자열 내부에 'shop' 리스트 요소들을 결합한 문자열을 삽입한다. 따라서 최종패턴은 ''(신전떡볶이|죠스떡볶이|엽기떡볶이|청년떡볶이|감탄떡볶이)''가 된다. 괄호는 그룹화를 의미한다.
- 위의 코드는 결국 '상호명' 열에서 'shop' 리스트에 포함된 문자열 중 하나와 일치하는 부분을 찾아 추출하고, 그 결과를 새로운 '상호명' 열에 저장한다.
- dropna(subset=['상호명']) : '상호명' 열에서 'NaN' 값을 가진 행을 제거한다.
- iloc[:, [0, 1, 14, 37, 38]] : 특정 열 (0, 1, 14, 37, 38)만 선택한다.
- reset_index(drop=True) : 인덱스를 다시 설정하며, 기존 인덱스를 버린다.
✔️how='cross' : 교차결합. 두 데이터프레임의 모든 조합을 계산하여 각 행을 join하는 방식이다. 모든 가능한 쌍을 생성한다.
✔️agg() 메서드
- 하나의 열 또는 여러 열에 대해 여러 집계 함수를 적용할 수 있다.
- 문자열, 함수, 리스트, 딕셔너리 등 다양한 형식으로 집계 함수를 지정할 수 있다.
- 주로 그룹화된 데이터에 대해 여러 종류의 통계적 요약을 계산하는 데 사용된다.
✔️IPython : 대화형 파이썬 인터프리터
- 대화형 셸: 코드 실행과 결과를 즉각적으로 확인할 수 있는 환경을 제공한다.
- 매직 명령어: '%timeit', '%run', '%load', '%store' 등의 매직 명령어를 사용하여 코드 실행을 보다 효율적으로 관리할 수 있다.
✔️pandasecharts : 데이터 시각화 라이브러리
- 데이터 시각화: 다양한 차트를 생성할 수 있다. 라인, 차트, 바 차트, 파이 차트 등 여러 종류의 차트를 지원한다.
- 인터랙티브 차트: ECharts 기반의 인터랙티브 차트를 생성하여 사용자가 데이터를 상호작용할 수 있게 한다.
pandasecharts 라이브러리를 사용하여 파이차트를 생성하고, 그 결과를 HTML 파일로 렌더링하여 IPython 환경에서 표시한다.
- pie() : 'pandasecharts' 라이브러리의 'pie' 메서드를 사용하여 파이 차트를 생성한다.
- x=' ', y=' ' : 파이 차트의 각 조각에 사용할 데이터프레임의 열을 지정, 각 조각의 크기를 나타낼 데이터프레임 열을 지정한다.
- radius=['20%', '60%'] : 파이 차트의 반지름을 설정한다. 안쪽 반지름은 전체 차트의 20%, 바깥쪽 반지름은 60%로 설정된다.
- label_opt={'position':'outer'} : 라벨의 위치를 설정. 라벨이 파이 차트의 외부에 위치하도록 설정한다.
- legend_opts={'pos_right':'0%', 'orient':'vertical'} : 범례는 차트의 오른쪽 0% 위치에 수직으로 배치한다.
- .render() : 차트를 HTML 형식으로 렌더링한다. 기본적으로 'render.html' 파일에 저장된다.
- IPython.display.HTML : IPython 환경에서 HTML 파일을 표시하는 데 사용된다.
'pyecharts' 라이브러리는 파이썬에서 사용되는 강력한 데이터 시각화 라이브러리이다. 'Timeline' 과 'Grid'는 'pyecharts'에서 제공하는 두 가지 유용한 차트 유형이다.
✔️Timeline
시간의 흐름에 따라 데이터 변화를 시각화할 수 있는 차트를 생성할 때 사용된다.
✔️Grid
여러 개의 차트를 하나의 레이아웃에 배치할 때 사용된다. 서로 다른 차트들을 하나의 화면에 조합하여 표시할 수 있어 복합적인 데이터 시각화에 유용하다.
t1.add(pie1, '100m') : 생성된 파이 차트 'pie1'을 타임라인 't1' 에 '100m' 라는 라벨과 함께 추가한다.
반복문을 통해 거리별 파이 차트 생성 및 타임라인에 추가한다.
tl.add(pie1, '{}m'.format(i)).render() : 생성된 파이차트 'pie1'을 타임라인 't1' 에 추가한다. 두 번째 인자는 타임라인의 상의 라벨로, 각 반경 거리를 나타낸다.
'데이터 분석' 카테고리의 다른 글
10. 사이킷런 (0) | 2024.07.09 |
---|---|
9. 머신러닝 (0) | 2024.07.09 |
7. 서울시 따릉이 API 활용 (0) | 2024.07.08 |
6. 전국 도시공원 데이터 (0) | 2024.07.08 |
4. 가상 온라인 쇼핑몰 데이터 (0) | 2024.07.06 |