Data Analysis 시작하기 5 (데이터 관계 보기)
사용 언어: Python 3.7.9
운영 체제: Windows 11 Home 21H2
이번 시간에는 데이터의 관계를 확인해 보는 시간을 가져보겠습니다.
데이터 간의 상관관계를 보려면 corr()를 사용합니다.
1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가집니다.
운영 체제: Windows 11 Home 21H2
데이터 분석 시작하기 5 (데이터 관계 보기)
이번 시간에는 데이터의 관계를 확인해 보는 시간을 가져보겠습니다.
데이터 간의 상관관계를 보려면 corr()를 사용합니다.
1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가집니다.
이것을 시각화해서 보겠습니다.
우선 그래프를 그릴 수 있는 창을 만드는 matplotlib와 다양한 그래프를 지원해
주는 seaborn이 필요합니다.
설치는 cmd 창에 pip install로 해도 되고, jupyter-lab에서 설치해도 됩니다.
느낌표를 사용하면 명령어를 실행할 수 있습니다.
!pip install matplotlib
!pip install seaborn
시각화를 위해 sns.heatmap()을 사용합니다.
data에는 그릴 데이터를 넣고, annot는 숫자 표시를 나타냅니다. fmt는 숫자
표현 방식, linewidths는 각 칸 간의 간격, cmap은 사용할 색깔을 나타냅니다.
이 표만 봤을 때에는 기온과 모기 지수와의 관계가 0.7로 높아 보이네요.
그런데 생각해 보면, 여름에 모기가 나타나고 겨울에 모기가 없으니까 기온이
큰 이유라고 단정 지을 수가 있을지 모르겠네요.
piar 그래프를 한 번 그려봅시다.
sns.pairplot()을 사용합니다.
box plot을 한 번 그려봅시다.
boxplot()을 사용합니다.
하나의 항목만 보려면 항목 값을 적어줍니다.
plot으로 그래프도 그릴 수 있습니다.
하나의 항목에 관해서 그래프를 그릴 수도 있습니다.
시간 순서로 나타내고 싶으면 to_dateTime을 사용해서 date 형식으로 변경해
줍니다.
시간 순으로 plot을 해보겠습니다.
히스토그램(histogram)을 그릴 수도 있습니다.
hist()를 사용합니다.
하나의 데이터를 골라서 볼 수 있습니다.
이러한 데이터를 분석하는 것을 EDA(Exploratory Data Analysis)라 부르더군요.
기초적인 기본 과정인데 아무튼 지금까지 그걸 했다고 보면 됩니다.
끝.
카테고리: Data Analysis
댓글
댓글 쓰기
궁금한 점은 댓글 달아주세요.
Comment if you have any questions.