2020. 3. 9. 23:58ㆍ데이터과학/PYTHON
강의 듣고 정리하는 포스팅
[섹션 1. 전국 신규 민간 아파트 분양가격 동향]
"2013년부터 최근까지 부동산 가격 변동 추세가 아파트 분양가에도 반영이 될까?"
학습목표
-공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리하고 병합하기
-수치형 데이터와 범주형 데이터를 바라보는 시각 기르기
-데이터 형식에 따른 다양한 시각화 방법 이해하기
Data : 공공데이터포털에서 다운
전국 평균 분양가격 데이터와 주택도시보증공사_전국 평균 분양가격 데이터를 활용한다.
전국 평균 분양가격 : 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공함.
주택도시보증공사_전국 평균 분양가격 :
1) 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공
2) 지역별 평균값은 가중평균값
#판다스 라이브러리 불러오기
import pandas as pd
#데이터 불러오기
%Is data
%mv data
df_last = pd.read.csv("파일경로/파일명.csv")
df_last
(이부분에서 막혀서 당황했지만 구글링으로 금방 해결하였다.)
df_last.shape
-> 행과 열을 나타내줌.(4335, 5)
#head와 tail로 파일 미리보기
df_last_head() -> 앞부분
df_last_tail() -> 뒷부분
#데이터 요약하기
df_last.info()
#결측치 보기
isnull / isna
결측치는 True로 표시
True == 1이기 때문에 이 값을 다 더하면 결측치의 수가 됨.
*결측치: 항목의 값이 없는 것
#데이터 타입 변경
데이터를 확인하니 분양가격이 object(문자)타입으로 되어 있다.
문자열 타입은 계산할 수 없기 때문에 수치 데이터로 변경해야 함.
pd.to_numeric
#평당분양가격 구하기
df_last["평당분양가격"] = df_last["분양가격"] * 3.3
#분양가격 요약
df_last_info()
df_last["분양가격"].describe()
#규모구분을 전용면적 컬럼으로 변경
Index.unique
색인에서 유일한 값만을 반환
df_last["규모구분"].unique()
array(['전체', '전용면적 60㎡이하', '전용면적 60㎡초과 85㎡이하', '전용면적 85㎡초과 102㎡이하', '전용면적 102㎡초과'], dtype=object)
df_last["전용면적"] = df_last["규모구분"].str.replace("전용면적", "")
.replace("초과", "~")
("이하", "")
#필요없는 컬럼 제거
drop이용
axis 0 : 행
axis 1 : 열
'데이터과학 > PYTHON' 카테고리의 다른 글
Python 가상환경 venv 설정하기 (0) | 2021.10.06 |
---|---|
[YOLO] 인공지능 사물인식 구현하기 (2) | 2020.12.15 |
공공데이터 파이썬 분석 _ Day 02 (0) | 2020.03.10 |