[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)

[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)

2020. 11. 29. 16:38ㆍPROJECT/Python_공간데이터분석

728x90

배스킨라빈스 vs 던킨도너츠 -> 근처에 입지한 것을 종종 볼 수 있다.
파리바게뜨 vs 뚜레주르 -> 주변에서 많이 볼 수 있는 프랜차이즈 중 하나

이런 프랜차이즈 매장이 얼마나 모여 있는지, 흩어져 있는지 지도에 표시를 해보면서

대용량 데이터에서 원하는 특정 데이터를 추출해본다.

데이터 불러오기

공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용

df = pd.read_csv 한 뒤

df.head를 통해 데이터 구조를 확인한다.

데이터 크기 보기

df_shape를 통해 데이터 크기를 볼 수 있다.

info 보기

info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등)

결측치 보기

isnull을 사용하여 결측치를 본다.

결측치는 True로 값이 있다면 False로 표시되는데 True는 1과 같기 때문에 True값을 더하여 합계를 볼 수 있다.

mean을 사용하여 결측치의 비율을 본다.

사용하지 않는 컬럼 제거하기

drop을 하는 방법도 있지만 사용할 컬럼만 따로 모아서 보는 방법도 있다.

여기서는 '상호명', '상권업종대분류명', '상권업종중분류명', '상권업종소분류명', '시도명', '시군구명', '행정동명', '법정동명', '도로명주소', '경도', '위도' 만 사용하기로 한다.

제거 후 메모리 사용량 보기

앞서 사용했던 info로 메모리 사용량을 볼 수 있다.

서울데이터만 따로 보기

시도명이 서울로 시작하는 데이터만 본다.

unique를 사용하여 중복을 제거한 시군구명을 가져온다.

파일로 저장하기

전처리한 파일을 저장해준다.

다음 편에서는 전처리한 파일을 바탕으로 위치 분석을 해본다!

저작자표시 비영리

'PROJECT > Python_공간데이터분석' 카테고리의 다른 글

[서울상권분석] 스타벅스 vs 이디야 매장 위치 비교하기(1편-전처리 과정) (0)	2020.12.17
[상권 분석] 프랜차이즈 입점분석 (2편-시각화) (0)	2020.12.01
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(2편) (0)	2020.11.26
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(1편) (0)	2020.11.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

기록

기록

태그

최근글

댓글

공지사항

아카이브

'PROJECT > Python_공간데이터분석' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역