[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)
2020. 11. 29. 16:38ㆍPROJECT/Python_공간데이터분석
728x90
반응형
- 배스킨라빈스 vs 던킨도너츠 -> 근처에 입지한 것을 종종 볼 수 있다.
- 파리바게뜨 vs 뚜레주르 -> 주변에서 많이 볼 수 있는 프랜차이즈 중 하나
이런 프랜차이즈 매장이 얼마나 모여 있는지, 흩어져 있는지 지도에 표시를 해보면서
대용량 데이터에서 원하는 특정 데이터를 추출해본다.

- 데이터 불러오기
공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용
df = pd.read_csv 한 뒤
df.head를 통해 데이터 구조를 확인한다.

- 데이터 크기 보기
df_shape를 통해 데이터 크기를 볼 수 있다.

- info 보기
info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등)

- 결측치 보기
isnull을 사용하여 결측치를 본다.
결측치는 True로 값이 있다면 False로 표시되는데 True는 1과 같기 때문에 True값을 더하여 합계를 볼 수 있다.
mean을 사용하여 결측치의 비율을 본다.

- 사용하지 않는 컬럼 제거하기
drop을 하는 방법도 있지만 사용할 컬럼만 따로 모아서 보는 방법도 있다.
여기서는 '상호명', '상권업종대분류명', '상권업종중분류명', '상권업종소분류명', '시도명', '시군구명', '행정동명', '법정동명', '도로명주소', '경도', '위도' 만 사용하기로 한다.
- 제거 후 메모리 사용량 보기
앞서 사용했던 info로 메모리 사용량을 볼 수 있다.

- 서울데이터만 따로 보기
시도명이 서울로 시작하는 데이터만 본다.

unique를 사용하여 중복을 제거한 시군구명을 가져온다.

- 파일로 저장하기
전처리한 파일을 저장해준다.
다음 편에서는 전처리한 파일을 바탕으로 위치 분석을 해본다!
'PROJECT > Python_공간데이터분석' 카테고리의 다른 글
[서울상권분석] 스타벅스 vs 이디야 매장 위치 비교하기(1편-전처리 과정) (0) | 2020.12.17 |
---|---|
[상권 분석] 프랜차이즈 입점분석 (2편-시각화) (0) | 2020.12.01 |
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(2편) (0) | 2020.11.26 |
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(1편) (0) | 2020.11.23 |