빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상!

빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상입니다. AI 코딩작성, SNS 분석, AI업무자동화 컨설팅 0507-1419-0222

자세히보기

교육/파이썬빅데이터분석교육

파이썬 판다스의 이해4 - pandas plotting

빅데이터 김교수 2022. 12. 8. 15:00

팬더 - 플로팅


플로팅

Pandas는 이 plot()방법을 사용하여 다이어그램을 만듭니다.

Matplotlib 라이브러리의 하위 모듈인 Pyplot을 사용하여 다이어그램을 화면에 시각화할 수 있습니다. 

예시

Matplotlib에서 pyplot을 가져오고 DataFrame을 시각화합니다.

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot()

plt.show()

이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다.

data.csv 다운로드 또는 data.csv 열기


산포도

kind다음 인수 를 사용하여 산점도를 원한다고 지정합니다 .

kind = 'scatter'

산점도에는 x축과 y축이 필요합니다.

아래 예에서는 x축에 "Duration"을 사용하고 y축에 "Calories"를 사용합니다.

다음과 같이 x 및 y 인수를 포함합니다.

x = 'Duration', y = 'Calories'

예시

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')

plt.show()

결과

 기억하세요: 이전 예에서 우리는 "기간"과 "칼로리" 사이의 상관관계가 임을 배웠고, 0.922721기간이 길수록 더 많은 칼로리가 소모된다는 사실로 결론을 내렸습니다.

산점도를 보면 동의합니다.

상관 관계가 있는 "Duration" 및 "Maxpulse"와 같은 열 사이에 나쁜 관계가 있는 또 다른 산점도를 만들어 보겠습니다 

0.009403.

예시

열 사이에 관계가 없는 산점도:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')

plt.show()

결과

히스토그램

kind 히스토그램을 이용할 경우 아래와 같이 hist 인수를 사용하면 됩니다 .

kind = 'hist'

히스토그램에는 하나의 열만 필요합니다.

히스토그램은 각 간격의 빈도를 보여줍니다. 예를 들어 50분에서 60분 사이에 얼마나 많은 운동이 지속되었습니까?

아래 예에서는 "Duration" 열을 사용하여 히스토그램을 만듭니다.

예시

df["Duration"].plot(kind = 'hist')

결과

 참고: 히스토그램은 50~60분 동안 지속된 운동횟구가 100회 이상 있음을 알려줍니다.