공공데이터로 파이썬 분석 시작하기_Day 01

2020. 3. 9. 23:58데이터과학/PYTHON

728x90
반응형

강의 듣고 정리하는 포스팅

 

[섹션 1. 전국 신규 민간 아파트 분양가격 동향]

 

"2013년부터 최근까지 부동산 가격 변동 추세가 아파트 분양가에도 반영이 될까?"

 

학습목표

-공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리하고 병합하기

-수치형 데이터와 범주형 데이터를 바라보는 시각 기르기

-데이터 형식에 따른 다양한 시각화 방법 이해하기


Data : 공공데이터포털에서 다운

 

전국 평균 분양가격 데이터와 주택도시보증공사_전국 평균 분양가격 데이터를 활용한다.

 

전국 평균 분양가격 : 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공함.

주택도시보증공사_전국 평균 분양가격 :

1) 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공

2) 지역별 평균값은 가중평균값

 

#판다스 라이브러리 불러오기

import pandas as pd

 

#데이터 불러오기

 %Is data

%mv data

df_last = pd.read.csv("파일경로/파일명.csv")

df_last

(이부분에서 막혀서 당황했지만 구글링으로 금방 해결하였다.)

 

df_last.shape

-> 행과 열을 나타내줌.(4335, 5)

 

#head와 tail로 파일 미리보기

df_last_head() -> 앞부분

df_last_tail() -> 뒷부분

 

#데이터 요약하기

df_last.info()

 

#결측치 보기

isnull / isna

결측치는 True로 표시

True == 1이기 때문에 이 값을 다 더하면 결측치의 수가 됨.

*결측치: 항목의 값이 없는 것

 

#데이터 타입 변경

데이터를 확인하니 분양가격이 object(문자)타입으로 되어 있다.

문자열 타입은 계산할 수 없기 때문에 수치 데이터로 변경해야 함.

pd.to_numeric

 

#평당분양가격 구하기

df_last["평당분양가격"] = df_last["분양가격"] * 3.3

 

#분양가격 요약

df_last_info()

df_last["분양가격"].describe()

 

#규모구분을 전용면적 컬럼으로 변경

Index.unique

색인에서 유일한 값만을 반환

df_last["규모구분"].unique()

array(['전체', '전용면적 60㎡이하', '전용면적 60㎡초과 85㎡이하', '전용면적 85㎡초과 102㎡이하', '전용면적 102㎡초과'], dtype=object)

df_last["전용면적"] = df_last["규모구분"].str.replace("전용면적", "")

.replace("초과", "~")

("이하", "")

 

#필요없는 컬럼 제거

drop이용

axis 0 : 행

axis 1 : 열