[상권 분석] 프랜차이즈 입점분석 (2편-시각화)

2020. 12. 1. 21:31PROJECT/Python_공간데이터분석

728x90
반응형

1편에서 전처리한 파일을 바탕으로 특정 상호의 분석을 시작한다.

<배스킨라빈스 vs 던킨도너츠 위치 분석>


먼저 전처리한 파일에서 배스킨라빈스 브랜드명을 추출한다.

-> 대소문자가 섞여있을 수도 있기 때문에 대소문자를 변환해준다.

-> 배스킨라빈스/베스킨라빈스가 상호명인 곳을 추출한다.

배스킨라빈스 : 347곳 / 베스킨라빈스 : 117곳

다음은 던킨도너츠의 갯수를 세어본다.

던킨도너츠 : 191곳

"배스킨/베스킨/baskin/던킨/dunkin"를 가져와 df_31변수에 담아준다.

브랜드명이 배스킨라빈스가 아닌 데이터를 찾아본다. head()로 데이터 살펴보기

데이터가 제대로 모아졌는지 확인한다. 

"상권업종대분류명"의 빈도수를 계산한다.

"소매"와 "생활서비스"가 있다는 게 이상하다 ?

"상권업종대분류명"컬럼에서 "소매", "생활서비스"인 데이터만 가져온다.

광고/인쇄 ? 소매?

"상권업종대분류명"에서 "소매", "생활서비스"는 제외시킨다.

범주형 값으로 countplot을 그린다.

value_counts로 "브랜드명"의 빈도수를 구한다.

normalize=True로 빈도수의 비율을 구한다.

배스킨라빈스와 던킨도너츠의 갯수를 살펴본다.

배스킨라빈스 > 던킨도너츠

시군구명으로 빈도수를 세고, 브랜드명으로 색상을 다르게 표현하는 countplot을 그린다.

배스킨라빈스는 주거지역인 은평구, 노원구 등에서도 많은 것을 볼 수 있다.

Pandas의 plot으로 scatterplot을 그린다.

Seaborn의 scatterplot으로 hue에 브랜드명을 지정해서 시각화를 해본다.

위에서 그렸던 그래프를 jointplot으로 kind="hex"을 사용해 그려본다.

Folium으로 지도 활용하기

지도의 중심을 지정하기 위해 위도와 경도의 평균을 구한다.

샘플을 하나 추출해서 지도에 표시해본다.

기본 마커로 표현해본다.(던킨도너츠 매장만)

상호명과 도로명주소를 나타내고, 던킨도너츠는 파란색/ 배스킨라빈스는 빨간색 마커로 나타낸다.

지도로 본 결과 배스킨라빈스 매장이 던킨도너츠에 비해 훨씬 많은 것을 바로 이해할 수 있었다.

 

마지막으로 MarkerCluster로 표현해보기.

MarkerCluster는 클러스트로 묶어서 데이터를 표현해준다.


지금까지 소상공인시장진흥공단 상가업소정보 데이터를 활용하여 프랜차이즈 분석을 해볼 수 있었다.

이를 응용해서 다양한 프랜차이즈 분석을 할 수 있다.

다음은 파리바게뜨와 뚜레주르... 뒤이어 스타벅스와 이디야를 해본다!