import numpy as np
데이터 불러오기 (np.loadtxt)
python 파일 경로에 data폴더 만든 후 다음의 births.txt 파일 넣어놓기
birth = np.loadtxt( 'data/births.txt', delimiter=',', dtype=np.int64)
# data폴더 안의 births.txt파일 ','로 구분하여 load하기
birth.shape # 132행 3열
[OUT] :
(132, 3)
birth # 연도, 남아수, 여아수로 구성되어있음
[OUT] :
array([[ 1880, 90993, 110491],
[ 1881, 91954, 100745],
[ 1882, 107850, 113688],
[ 1883, 112321, 104629],
[ 1884, 129022, 114445],
[ 1885, 133055, 107800],
[ 1886, 144535, 110784],
[ 1887, 145982, 101414],
[ 1888, 178627, 120853],
[ 1889, 178366, 110584],
[ 1890, 190377, 111025],
[ 1891, 185482, 101196],
[ 1892, 212346, 122037],
[ 1893, 212906, 112317],
[ 1894, 222922, 115772],
[ 1895, 233630, 117398],
[ 1896, 237920, 119570],
[ 1897, 234202, 112758],
[ 1898, 258770, 122693],
[ 1899, 233023, 106212],
[ 1900, 299828, 150499],
...
[ 2011, 1753500, 1893230]])
데이터 시각화하기 (matplotlib)
import matplotlib.pyplot as plt # 시각화와 관련된 라이브러리
# matplotlib 연습
a = np.array([1,2,3,4,5])
b = np.array([11,22,33,44,55])
plt.plot(a,b , 'bo--')
plt.bar(a,b) # bar chart 만들기
plt.title( 'kor' ) # chart의 제목 : 'kor'
plt.xlabel('Students_num') # x축 label : 'Students_num'
plt.ylabel('Score') # y축 label : 'Score'
plt.show()

문제
#1. 남아 , 여아 출생 평균을 구하시오.
#2. 2000년대 이후 데이터를 구하시오.
년도 남아 여아
==============
2000 xx xx
#3. 남아출생이 가장 많은 연도와 남아수를 구하시오.
#4. 남아출생이 가장 많은 top 5를 구하시오.(연도와 남아수)
#5. 남아율(%)을 구하고 각 연도별 남아수가 차지하는비율을 데이터로 보여주시오.
남아수 여아수 남아율
===================
..
#6. 2000년도 이후데이터 에 대해 출생량을 구하고 남아수가 1800000 이상이면 '많음'아니면 '적음'이라고 보여 주시오.
연도 남아수 출생량
2000 1233 '많음'
2001 1234 '적음'
#7. 1800년대, 1900년대, 2000년대 각 남아,여아수 평균을 구하시오.
#8. 여아 25%~75%사이의 값을 구하시오.
#9. 2000년대 남아데이터를 바 차트로 그리시오.
※ 스스로 풀어본 후 아래 Solution 확인하기
반응형
'교육 > 파이썬빅데이터분석교육' 카테고리의 다른 글
파이썬 Matplotlib 튜터리얼 (0) | 2022.05.24 |
---|---|
Numpy-예제1출생아수-평균구하기(답) (0) | 2022.05.19 |
Colab 환경이해 (0) | 2022.05.18 |
퀴즈 6.10 소스 (0) | 2022.05.18 |
연관성분석(장바구니 분석)을 이용한 데이터마이닝 추천 글 (0) | 2022.05.18 |