Data Analysis 시작하기 5 (데이터 관계 보기)

사용 언어: Python 3.7.9
운영 체제: Windows 11 Home 21H2

데이터 분석 시작하기 5 (데이터 관계 보기)


이번 시간에는 데이터의 관계를 확인해 보는 시간을 가져보겠습니다.

데이터 간의 상관관계를 보려면 corr()를 사용합니다.
1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가집니다.








이것을 시각화해서 보겠습니다.

우선 그래프를 그릴 수 있는 창을 만드는 matplotlib와 다양한 그래프를 지원해 주는 seaborn이 필요합니다.

설치는 cmd 창에 pip install로 해도 되고, jupyter-lab에서 설치해도 됩니다.

느낌표를 사용하면 명령어를 실행할 수 있습니다.

!pip install matplotlib

!pip install seaborn






import를 해줍니다.






시각화를 위해 sns.heatmap()을 사용합니다.

data에는 그릴 데이터를 넣고, annot는 숫자 표시를 나타냅니다. fmt는 숫자 표현 방식, linewidths는 각 칸 간의 간격, cmap은 사용할 색깔을 나타냅니다.





이 표만 봤을 때에는 기온과 모기 지수와의 관계가 0.7로 높아 보이네요.

그런데 생각해 보면, 여름에 모기가 나타나고 겨울에 모기가 없으니까 기온이 큰 이유라고 단정 지을 수가 있을지 모르겠네요.



piar 그래프를 한 번 그려봅시다.

sns.pairplot()을 사용합니다.









원하는 항목만 그릴 수 있습니다.





box plot을 한 번 그려봅시다.

boxplot()을 사용합니다.






하나의 항목만 보려면 항목 값을 적어줍니다.






plot으로 그래프도 그릴 수 있습니다.






하나의 항목에 관해서 그래프를 그릴 수도 있습니다.








시간 순서로 나타내고 싶으면 to_dateTime을 사용해서 date 형식으로 변경해 줍니다.






시간 순으로 plot을 해보겠습니다.





히스토그램(histogram)을 그릴 수도 있습니다.

hist()를 사용합니다.







하나의 데이터를 골라서 볼 수 있습니다.






이러한 데이터를 분석하는 것을 EDA(Exploratory Data Analysis)라 부르더군요.

기초적인 기본 과정인데 아무튼 지금까지 그걸 했다고 보면 됩니다.



끝.



카테고리: Data Analysis

댓글

이 블로그의 인기 게시물

Python urllib.parse.quote()

Python OpenCV 빈 화면 만들기

tensorflow tf.random.uniform()

Android Notification with Full Screen

KiCad 시작하기 2 (PCB 만들기)

Android Minimum touch target size

Python bs4.SoupStrainer()

KiCad 시작하기 4 (기존 회로도 수정 및 추가)

음악 총보(Score), 파트보(Part)

tensorflow tf.expand_dims()