기록

numpy(2)

[상권 분석] 프랜차이즈 입점분석 (2편-시각화)
1편에서 전처리한 파일을 바탕으로 특정 상호의 분석을 시작한다. 먼저 전처리한 파일에서 배스킨라빈스 브랜드명을 추출한다. -> 대소문자가 섞여있을 수도 있기 때문에 대소문자를 변환해준다. -> 배스킨라빈스/베스킨라빈스가 상호명인 곳을 추출한다. 다음은 던킨도너츠의 갯수를 세어본다. "배스킨/베스킨/baskin/던킨/dunkin"를 가져와 df_31변수에 담아준다. 브랜드명이 배스킨라빈스가 아닌 데이터를 찾아본다. head()로 데이터 살펴보기 데이터가 제대로 모아졌는지 확인한다. "상권업종대분류명"의 빈도수를 계산한다. "소매"와 "생활서비스"가 있다는 게 이상하다 ? "상권업종대분류명"컬럼에서 "소매", "생활서비스"인 데이터만 가져온다. "상권업종대분류명"에서 "소매", "생활서비스"는 제외시킨다. ..
2020.12.01
[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)
배스킨라빈스 vs 던킨도너츠 -> 근처에 입지한 것을 종종 볼 수 있다. 파리바게뜨 vs 뚜레주르 -> 주변에서 많이 볼 수 있는 프랜차이즈 중 하나 이런 프랜차이즈 매장이 얼마나 모여 있는지, 흩어져 있는지 지도에 표시를 해보면서 대용량 데이터에서 원하는 특정 데이터를 추출해본다. 데이터 불러오기 공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용 df = pd.read_csv 한 뒤 df.head를 통해 데이터 구조를 확인한다. 데이터 크기 보기 df_shape를 통해 데이터 크기를 볼 수 있다. info 보기 info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등) 결측치 보기 isnull을 사용하여 결측치를 본다. 결측치는 True로 값이 있다면 ..
2020.11.29

1

티스토리툴바