빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상!

빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상입니다. AI 코딩작성, SNS 분석, AI업무자동화 컨설팅 0507-1419-0222

자세히보기

카테고리 없음

파이썬 판다스의 이해3 - 데이터 상관관계

빅데이터 김교수 2022. 12. 9. 14:01

Pandas - 데이터 상관 관계

 관계 찾기

Pandas 모듈의 훌륭한 측면은 corr()방법입니다.

 corr()방법은 데이터 세트의 각 열 간의 관계를 계산합니다.

이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다.

data.csv를 다운로드 합니다. 또는 data.csv 열기

예시

열 간의 관계를 표시합니다.

df.corr()

결과

참고:  corr()방법은 "숫자가 아님" 열을 무시합니다.

결과 설명

메서드의 결과는 corr()두 열 간의 관계가 얼마나 좋은지를 나타내는 많은 숫자가 포함된 테이블입니다.

숫자는 -1에서 1까지 다양합니다.

1은 1:1 관계(완벽한 상관관계)가 있음을 의미하며, 이 데이터 세트의 경우 첫 번째 열의 값이 올라갈 때마다 다른 값도 올라갔습니다.

0.9도 좋은 관계이고, 하나의 값을 높이면 다른 하나도 아마 증가할 것입니다.

-0.9는 0.9만큼 좋은 관계이지만, 하나의 값을 높이면 다른 하나는 아마도 낮아질 것입니다.

0.2는 좋은 관계가 아님을 의미합니다. 즉, 한 값이 올라간다고 다른 값이 올라가는 것은 아닙니다.

좋은 상관관계란? 용도에 따라 다르지만 좋은 상관관계라고 부르기 위해서는 최소한 0.6(혹은 )은 있어야 한다고 말하는 것이 안전하다고 생각합니다.-0.6

완벽한 상관 관계:

"Duration"과 "Duration"에 숫자가 붙는 것을 볼 수 있습니다 1.000000. 각 열은 항상 자체적으로 완벽한 관계를 가집니다.

좋은 상관 관계:

"기간"과 "칼로리"는 0.922721상관관계가 있습니다. 이것은 매우 좋은 상관관계입니다. 우리는 운동을 오래할수록 더 많은 칼로리를 태우고 그 반대도 마찬가지라고 예측할 수 있습니다. 아마도 오랫동안 운동을했을 것입니다.

나쁜 상관 관계:

"Duration"과 "Maxpulse"는 0.009403상관관계가 있습니다. 이는 매우 나쁜 상관관계입니다. 즉, 운동 시간만 보고 최대 맥박을 예측할 수 없으며 그 반대의 경우도 마찬가지입니다.

반응형