Pandas - 데이터 상관 관계
Pandas 모듈의 훌륭한 측면은 corr()방법입니다.
이 corr()방법은 데이터 세트의 각 열 간의 관계를 계산합니다.
이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다.
data.csv를 다운로드 합니다. 또는 data.csv 열기
예시
열 간의 관계를 표시합니다.
df.corr()
결과

참고: 이 corr()방법은 "숫자가 아님" 열을 무시합니다.
결과 설명
메서드의 결과는 corr()두 열 간의 관계가 얼마나 좋은지를 나타내는 많은 숫자가 포함된 테이블입니다.
숫자는 -1에서 1까지 다양합니다.
1은 1:1 관계(완벽한 상관관계)가 있음을 의미하며, 이 데이터 세트의 경우 첫 번째 열의 값이 올라갈 때마다 다른 값도 올라갔습니다.
0.9도 좋은 관계이고, 하나의 값을 높이면 다른 하나도 아마 증가할 것입니다.
-0.9는 0.9만큼 좋은 관계이지만, 하나의 값을 높이면 다른 하나는 아마도 낮아질 것입니다.
0.2는 좋은 관계가 아님을 의미합니다. 즉, 한 값이 올라간다고 다른 값이 올라가는 것은 아닙니다.
좋은 상관관계란? 용도에 따라 다르지만 좋은 상관관계라고 부르기 위해서는 최소한 0.6(혹은 )은 있어야 한다고 말하는 것이 안전하다고 생각합니다.-0.6
완벽한 상관 관계:
"Duration"과 "Duration"에 숫자가 붙는 것을 볼 수 있습니다 1.000000. 각 열은 항상 자체적으로 완벽한 관계를 가집니다.
좋은 상관 관계:
"기간"과 "칼로리"는 0.922721상관관계가 있습니다. 이것은 매우 좋은 상관관계입니다. 우리는 운동을 오래할수록 더 많은 칼로리를 태우고 그 반대도 마찬가지라고 예측할 수 있습니다. 아마도 오랫동안 운동을했을 것입니다.
나쁜 상관 관계:
"Duration"과 "Maxpulse"는 0.009403상관관계가 있습니다. 이는 매우 나쁜 상관관계입니다. 즉, 운동 시간만 보고 최대 맥박을 예측할 수 없으며 그 반대의 경우도 마찬가지입니다.