데이터과학(11)
-
K-평균 알고리즘(K-means Clustering algorithm) 실습
1. 데이터 설정하기 :가장 먼저 데이터 프레임(Data Frame)을 형성한다. from sklearn.cluster import KMeans import numpy as np import pandas as pd import seaborn as sb import matplotlib.pyplot as plt %matplotlib inline df = pd.DataFrame(columns=['x', 'y']) df.loc[0] = [2, 3] df.loc[1] = [2, 11] df.loc[2] = [2, 18] df.loc[3] = [4, 5] df.loc[4] = [4, 7] df.loc[5] = [5, 3] df.loc[6] = [5, 15] df.loc[7] = [6, 6] df.loc[8] = [..
2020.12.14 -
K-평균 알고리즘(K-means Clustering algorithm) 개념
클러스터링(Clustering) : 여러 개의 데이터가 있을 때 데이터를 군집화하는 것 비슷한 데이터끼리 묶으면 관리하기가 쉽다는 장점이 있다. ex) 학원을 운영한다고 했을 때 학생을 고급반/중급반/초급반 으로 나누어 적절히 분류한다. -> 이렇게 적절히 분류한다면 데이터를 활용할 방안이 많다. (클러스터링 기법은 적용할 사례가 매우 많다는 특징) K-means 알고리즘은 대표적인 비지도학습(Unsupervised Learning) 알고리즘이다. -클러스터링을 수행할 데이터의 주제를 결정한다. (수학 학원에서 학생들의 성적에 따라 반을 구분하기) -얼마나 많은 클러스터를 만들지 고민해야 한다. (고급반, 중급반, 초급반,,,) -데이터 준비 (데이터가 정확할수록 유리하다.) -클러스터링을 수행하기 위한..
2020.12.14 -
Jupyter notebook mportError: No module named
BeautifulSoup 이용해서 크롤링 잘되고 있었는데 갑자기 Jupyter notebook > ImportError: No module named ___ 라고 뜬다. ㅠㅠ 폭풍 구글링 후... 해결방법은 아주 간단하게 # pip install ____ 로 해결되었다!!
2020.11.06 -
공공데이터 파이썬 분석 _ Day 02
#groupby로 데이터 집계하기 groupby를 통해 데이터를 그룹화해서 연산을 해본다. df.groupby(['인덱스로 사용할 컬럼명'])["계산할 컬럼 값"].연산() -지역명으로 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 df_last.groupby(["지역명"])["평당분양가격"].mean() -전용면적으로 분양가격의 평균을 구한다. df_last_groupby(["전용면적"])["평당분양가격"].mean() -지역명, 전용면적으로 평당분양가격의 평균을 구한다. df_last_groupby(["전용면적", "지역명"])["평당분양가격"].mean().unstack().round() -연도, 지역명으로 평당분양가격의 평균을 구한다. g = df_last.groupby(["연도", "지역..
2020.03.10 -
공공데이터로 파이썬 분석 시작하기_Day 01
강의 듣고 정리하는 포스팅 [섹션 1. 전국 신규 민간 아파트 분양가격 동향] "2013년부터 최근까지 부동산 가격 변동 추세가 아파트 분양가에도 반영이 될까?" 학습목표 -공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리하고 병합하기 -수치형 데이터와 범주형 데이터를 바라보는 시각 기르기 -데이터 형식에 따른 다양한 시각화 방법 이해하기 Data : 공공데이터포털에서 다운 전국 평균 분양가격 데이터와 주택도시보증공사_전국 평균 분양가격 데이터를 활용한다. 전국 평균 분양가격 : 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공함. 주택도시보증공사_전국 평균 분양가격 : 1) 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공 2) 지역별 평균값은 가중..
2020.03.09