[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)

2020. 11. 29. 16:38PROJECT/Python_공간데이터분석

728x90
반응형
  1. 배스킨라빈스 vs 던킨도너츠 -> 근처에 입지한 것을 종종 볼 수 있다.
  2. 파리바게뜨 vs 뚜레주르 -> 주변에서 많이 볼 수 있는 프랜차이즈 중 하나

이런 프랜차이즈 매장이 얼마나 모여 있는지, 흩어져 있는지 지도에 표시를 해보면서

대용량 데이터에서 원하는 특정 데이터를 추출해본다.


  • 데이터 불러오기

공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용

 

df = pd.read_csv 한 뒤

df.head를 통해 데이터 구조를 확인한다.

  • 데이터 크기 보기

df_shape를 통해 데이터 크기를 볼 수 있다.

  • info 보기

info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등)

  • 결측치 보기

isnull을 사용하여 결측치를 본다.

결측치는 True로 값이 있다면 False로 표시되는데 True는 1과 같기 때문에 True값을 더하여 합계를 볼 수 있다.

mean을 사용하여 결측치의 비율을 본다.

  • 사용하지 않는 컬럼 제거하기

drop을 하는 방법도 있지만 사용할 컬럼만 따로 모아서 보는 방법도 있다.

여기서는 '상호명', '상권업종대분류명', '상권업종중분류명', '상권업종소분류명', '시도명', '시군구명', '행정동명', '법정동명', '도로명주소', '경도', '위도' 만 사용하기로 한다.

 

  • 제거 후 메모리 사용량 보기

앞서 사용했던 info로 메모리 사용량을 볼 수 있다.

  • 서울데이터만 따로 보기

시도명이 서울로 시작하는 데이터만 본다.

unique를 사용하여 중복을 제거한 시군구명을 가져온다.

  • 파일로 저장하기

전처리한 파일을 저장해준다.


 

다음 편에서는 전처리한 파일을 바탕으로 위치 분석을 해본다!