데이터분석(7)
-
[서울상권분석] 스타벅스 vs 이디야 매장 위치 비교하기(1편-전처리 과정)
이디야커피의 초기입점전략은 "스타벅스 옆"이였다고 한다. 과연 지금도 그럴까? 소상공인시장진흥공단 상가업소정보 데이터를 활용하여 스타벅스와 이디야 매장위치를 비교해본다. 텍스트 데이터 정제하기 - 대소문자로 섞여있는 상호명을 소문자로 변경하고 상호명을 추출한다. 텍스트 데이터에서 원하는 정보 추출하기 - 브랜드명 컬럼을 만들고 구별매장 수 분석하기 데이터 불러오기 공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용 pd.read_csv로 파일을 불러온다. shape를 통해 불러온 csv파일의 크기를 확인한다. 데이터 미리보기 df.head() info 보기 info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등) 결측치 보기 isnull()을 사용하여 데..
2020.12.17 -
[상권 분석] 프랜차이즈 입점분석 (2편-시각화)
1편에서 전처리한 파일을 바탕으로 특정 상호의 분석을 시작한다. 먼저 전처리한 파일에서 배스킨라빈스 브랜드명을 추출한다. -> 대소문자가 섞여있을 수도 있기 때문에 대소문자를 변환해준다. -> 배스킨라빈스/베스킨라빈스가 상호명인 곳을 추출한다. 다음은 던킨도너츠의 갯수를 세어본다. "배스킨/베스킨/baskin/던킨/dunkin"를 가져와 df_31변수에 담아준다. 브랜드명이 배스킨라빈스가 아닌 데이터를 찾아본다. head()로 데이터 살펴보기 데이터가 제대로 모아졌는지 확인한다. "상권업종대분류명"의 빈도수를 계산한다. "소매"와 "생활서비스"가 있다는 게 이상하다 ? "상권업종대분류명"컬럼에서 "소매", "생활서비스"인 데이터만 가져온다. "상권업종대분류명"에서 "소매", "생활서비스"는 제외시킨다. ..
2020.12.01 -
[상권 분석] 프랜차이즈 입점분석 (1편-전처리 과정)
배스킨라빈스 vs 던킨도너츠 -> 근처에 입지한 것을 종종 볼 수 있다. 파리바게뜨 vs 뚜레주르 -> 주변에서 많이 볼 수 있는 프랜차이즈 중 하나 이런 프랜차이즈 매장이 얼마나 모여 있는지, 흩어져 있는지 지도에 표시를 해보면서 대용량 데이터에서 원하는 특정 데이터를 추출해본다. 데이터 불러오기 공공데이터 포털 : 소상공인시장진흥공단 상가업소정보 데이터 활용 df = pd.read_csv 한 뒤 df.head를 통해 데이터 구조를 확인한다. 데이터 크기 보기 df_shape를 통해 데이터 크기를 볼 수 있다. info 보기 info를 사용하여 데이터의 전체적인 정보를 본다.(데이터 사이즈, 타입, 메모리 사용량 등) 결측치 보기 isnull을 사용하여 결측치를 본다. 결측치는 True로 값이 있다면 ..
2020.11.29 -
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(2편)
1편에 이어서 분석한 결과를 바탕으로 시각화를 해보았다! 시각화를 하기 앞서 "상권업종소분류명", "시군구명"으로 그룹화를 하고, "상호명"으로 빈도수를 계산한다. 이 프로젝트에서는 "학원-입시" 데이터를 살펴보기 때문에 loc를 통해 index값을 가져온다. 따라서 시군구 별 ["학원-입시"]를 가져온 결과 아래와 같이 구별 "학원-입시"학원의 수를 볼 수 있다. Pandas의 plot으로 시각화 강남구 > 양천구 > 서초구 순으로 입시학원이 많이 분포하고 있다는 것을 알 수 있다. 경도와 위도를 scatterplot으로 표현하기 1) scatterplot 으로 경도와 위도를 표현하고, 시군구명으로 색상을 다르게 표현한다. 2) scatterplot 으로 경도와 위도를 표현하고, "상권업종소분류명"으로..
2020.11.26 -
[서울 상권 분석] 대치동과 목동에는 입시학원이 많을까?(1편)
공공데이터포털에 있는 소상공인 상권정보 상가업소 데이터 를 이용하여 분석해본다. 데이터 전처리 단계 1. 파일 불러오기 csv파일을 읽고, shape를 조회해보니 573680개가 있는 것을 확인할 수 있다. 2. head, tail을 이용하여 데이터 미리보기 3. column값들 살펴보기 4. 결측치 확인, 사용하지 않는 칼럼(결측치가 너무 많은 칼럼) 삭제 데이터 분석 학원의 분류명을 알아보기 위해 "상권업종대분류명"의 unique 값을 추출해본다. "시도명"이 "서울특별시"이고 "상권업종대분류명"이 "학문/교육" 인 데이터를 서브셋으로 가져온다. "상호명"으로 빈도수를 확인한다. "시군구명" 으로 빈도수를 확인한다. "상권업종소분류명"으로 빈도수를 확인한다. "상권업종소분류명"으로 빈도수를 확인한 후..
2020.11.23 -
공공데이터 파이썬 분석 _ Day 02
#groupby로 데이터 집계하기 groupby를 통해 데이터를 그룹화해서 연산을 해본다. df.groupby(['인덱스로 사용할 컬럼명'])["계산할 컬럼 값"].연산() -지역명으로 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 df_last.groupby(["지역명"])["평당분양가격"].mean() -전용면적으로 분양가격의 평균을 구한다. df_last_groupby(["전용면적"])["평당분양가격"].mean() -지역명, 전용면적으로 평당분양가격의 평균을 구한다. df_last_groupby(["전용면적", "지역명"])["평당분양가격"].mean().unstack().round() -연도, 지역명으로 평당분양가격의 평균을 구한다. g = df_last.groupby(["연도", "지역..
2020.03.10