본문 바로가기

데이터 분석

8. 떡볶이 프렌차이즈의 입점전략

728x90

데이터: 소상공인시장진흥공단_상가(상권)정보_서울_202303.csv

import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/컴퓨터비전/3. 데이터 분석/Data/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')

  • '|'.join(shop) : 'shop'리스트에 있는 요소들을 '|' 기호를 사용하여 하나의 문자열로 결합한다. 여기서 '|'.join(shop)은 '신전떡볶이|죠스떡볶이|죠스떡볶이|엽기떡볶이|청년떡복이|감탄떡복이' 가 된다.
  • '({})'.format('|'.join(shop)) : 결합된 문자열을 정규 표현식 패턴으로 만든다. 이 경우, 'format' 메서드를 사용하여 ''({})''문자열 내부에 'shop' 리스트 요소들을 결합한 문자열을 삽입한다. 따라서 최종패턴은 ''(신전떡볶이|죠스떡볶이|엽기떡볶이|청년떡볶이|감탄떡볶이)''가 된다. 괄호는 그룹화를 의미한다.
  • 위의 코드는 결국 '상호명' 열에서 'shop' 리스트에 포함된 문자열 중 하나와 일치하는 부분을 찾아 추출하고, 그 결과를 새로운 '상호명' 열에 저장한다.

 

  • dropna(subset=['상호명']) : '상호명' 열에서 'NaN' 값을 가진 행을 제거한다.
  • iloc[:, [0, 1, 14, 37, 38]] : 특정 열 (0, 1, 14, 37, 38)만 선택한다.
  • reset_index(drop=True) : 인덱스를 다시 설정하며, 기존 인덱스를 버린다.

 

 

 

✔️how='cross' : 교차결합. 두 데이터프레임의 모든 조합을 계산하여 각 행을 join하는 방식이다. 모든 가능한 쌍을 생성한다.

df_shop과 df_paris 병합

 

 

 

✔️agg() 메서드 

  • 하나의 열 또는 여러 열에 대해 여러 집계 함수를 적용할 수 있다.
  • 문자열, 함수, 리스트, 딕셔너리 등 다양한 형식으로 집계 함수를 지정할 수 있다.
  • 주로 그룹화된 데이터에 대해 여러 종류의 통계적 요약을 계산하는 데 사용된다.

 

 

✔️IPython : 대화형 파이썬 인터프리터

  • 대화형 셸: 코드 실행과 결과를 즉각적으로 확인할 수 있는 환경을 제공한다.
  • 매직 명령어: '%timeit', '%run', '%load', '%store' 등의 매직 명령어를 사용하여 코드 실행을 보다 효율적으로 관리할 수 있다.

✔️pandasecharts : 데이터 시각화 라이브러리

  • 데이터 시각화: 다양한 차트를 생성할 수 있다. 라인, 차트, 바 차트, 파이 차트 등 여러 종류의 차트를 지원한다.
  • 인터랙티브 차트: ECharts 기반의 인터랙티브 차트를 생성하여 사용자가 데이터를 상호작용할 수 있게 한다.

pandasecharts 라이브러리를 사용하여 파이차트를 생성하고, 그 결과를 HTML 파일로 렌더링하여 IPython 환경에서 표시한다.

  • pie() : 'pandasecharts' 라이브러리의 'pie' 메서드를 사용하여 파이 차트를 생성한다.
  • x=' ', y=' ' : 파이 차트의 각 조각에 사용할 데이터프레임의 열을 지정, 각 조각의 크기를 나타낼 데이터프레임 열을 지정한다.
  • radius=['20%', '60%'] : 파이 차트의 반지름을 설정한다. 안쪽 반지름은 전체 차트의 20%, 바깥쪽 반지름은 60%로 설정된다.
  • label_opt={'position':'outer'} : 라벨의 위치를 설정. 라벨이 파이 차트의 외부에 위치하도록 설정한다.
  • legend_opts={'pos_right':'0%', 'orient':'vertical'} : 범례는 차트의 오른쪽 0% 위치에 수직으로 배치한다.
  • .render() : 차트를 HTML 형식으로 렌더링한다. 기본적으로 'render.html' 파일에 저장된다.
  • IPython.display.HTML : IPython 환경에서 HTML 파일을 표시하는 데 사용된다.

 

 

'pyecharts' 라이브러리는 파이썬에서 사용되는 강력한 데이터 시각화 라이브러리이다. 'Timeline' 과 'Grid'는 'pyecharts'에서 제공하는 두 가지 유용한 차트 유형이다.

✔️Timeline

시간의 흐름에 따라 데이터 변화를 시각화할 수 있는 차트를 생성할 때 사용된다.

 

✔️Grid

여러 개의 차트를 하나의 레이아웃에 배치할 때 사용된다. 서로 다른 차트들을 하나의 화면에 조합하여 표시할 수 있어 복합적인 데이터 시각화에 유용하다.

t1.add(pie1, '100m') : 생성된 파이 차트 'pie1'을 타임라인 't1' 에 '100m' 라는 라벨과 함께 추가한다.

 

반복문을 통해 거리별 파이 차트 생성 및 타임라인에 추가한다.

tl.add(pie1, '{}m'.format(i)).render() : 생성된 파이차트 'pie1'을 타임라인 't1' 에 추가한다. 두 번째 인자는 타임라인의 상의 라벨로, 각 반경 거리를 나타낸다.

728x90

'데이터 분석' 카테고리의 다른 글

10. 사이킷런  (0) 2024.07.09
9. 머신러닝  (0) 2024.07.09
7. 서울시 따릉이 API 활용  (0) 2024.07.08
6. 전국 도시공원 데이터  (0) 2024.07.08
4. 가상 온라인 쇼핑몰 데이터  (0) 2024.07.06