Python/Python 데이터분석

    [Pandas] 그래프 그리기(plot)

    [Pandas] 그래프 그리기(plot)

    1. plot - DataFrame의 plot을 이용하면 다양한 그래프를 그릴 수 있음. 2. 그래프 그리기 1) plot(x, y) - kind : 그래프 종류 ex) line / bar / barh / hist / box / kde / density / area / pie / scatter / hexbin - title : 그래프 제목 - linestyle : 선의 스타일 설정 ex)linestyle='dashed' data_result["인구수"].plot(kind="bar", figsize=(10,10)); data_result["소계"].plot(kind="barh", grid=True, figsize=(10, 10)); 3. 그래프 정렬하기 1) sort_values(ascending=True..

    [Matplotlib] 데이터 시각화

    [Matplotlib] 데이터 시각화

    1. Matplotlib - Python 프로그래밍 언어 및 수학적 확장 NumPy 라이브러리를 활용한 플로팅 라이브러리 1) 기본 세팅 - pyplot : MATLAB의 시각화 기능을 담아 놓음 import matplotlib.pyplot as plt from matplotlib import rc rc("font", family="Arial Unicode Ms") - 쥬피터 노트북 내에 그래프를 그리면 바로 나타나게 함 %matplotlib inline get_ipython().run_line_magic("matplotlib","inline") 2) 그래프 그리기 ① plt.figure(figsize=(x, y)) - 캔버스 사이즈 선택 ② plt.plot(x, y, 'style', label='') ..

    [Matplotlib] 산점도(Scatter Plot) 그리기

    [Matplotlib] 산점도(Scatter Plot) 그리기

    1. 산점도(Scatter Plot) - 두 변수의 상관 관계를 직교 좌표계의 평면에 점으로 표현하는 그래프 1) 그래프 그리기 ① plt.scatter(x, y) - array 또는 리스트가 들어감 t = np.array(range(0,10)) y = np.array([9,8,7,9,8,3,2,4,3,4]) plt.figure(figsize=(10,6)) plt.scatter(t,y) plt.show() ② plt.scatter(x, y, s=area, c=colors) - s, c 파라미터는 각각 마커의 크기와 색상을 지정 - 마커의 색상은 데이터의 길이와 같은 크기의 숫자 시퀀스 또는 rgb, 그리고 Hex code 색상을 입력해서 지정 ③ plt.colorbar( ) -컬러 바 출력 t = np...

    [Matplotlib] Matplotlib 이란?

    [Matplotlib] Matplotlib 이란?

    1. Matplotlib - Python 프로그래밍 언어 및 수학적 확장 NumPy 라이브러리를 활용한 플로팅 라이브러리 1) 기본 세팅 - pyplot : MATLAB의 시각화 기능을 담아 놓음 import matplotlib.pyplot as plt from matplotlib import rc rc("font", family="Arial Unicode Ms") - 마이너스 부호떄문에 한글이 깨질 수 있기 때문에 하는 설정 plt.rcParams["axes.unicode_minus"] = False rc("font", family="Arial Unicode MS") - 쥬피터 노트북 내에 그래프를 그리면 바로 나타나게 함 %matplotlib inline get_ipython().run_line_ma..

    [Pandas] 데이터 병합

    [Pandas] 데이터 병합

    🔍 데이터 병합 cf) 데이터 [right], [left] 만들기 - 딕셔너리 안에 리스트 형태(컬럼 기준으로 열 값이 들어감) left = pd.DataFrame({ "key": ["K0","K1","K2","K4"], "A": ["A0","A1","A2","A3"], "B": ["B0","B1","B2","B3"] }) - # 리스트 안에 딕셔너리 형태(행 하나씩 들어감) right = pd.DataFrame([ {"key":"K0","C":"C0","D":"D0"}, {"key":"K1","C":"C1","D":"D1"}, {"key":"K2","C":"C2","D":"D2"}, {"key":"K3","C":"C3","D":"D3"} ]) right 1. pd.merge(data1, data2, h..

    [Pandas] 함수 사용

    [Pandas] 함수 사용

    1. 함수 사용 - apply() : 수학 함수 적용 pop_Seoul["인구수"].apply("sum") pop_Seoul["인구수"].apply("mean") pop_Seoul["인구수"].apply("min"),pop_Seoul["인구수"].apply("max") pop_Seoul[["인구수","고령자"]].apply("sum") - numpy 함수도 사용 가능 pop_Seoul["인구수"].apply(np.sum) pop_Seoul["인구수"].apply(np.mean) -unique : 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수 해당컬럼의 데이터를 한번만 표현하며, nan값을 포함하여 array로 반환, 이상한 데이터 확인 가능 pop_Seoul["구별"].unique..

    [Pandas] 컬럼 추가 및 제거

    [Pandas] 컬럼 추가 및 제거

    1. 컬럼 추가, 제거 - 기존 컬럼이 없으면 추가, 있으면 수정 - 아무 값도 넣지 않을 시 에러 pop_Seoul["외국인비율"] = pop_Seoul["외국인"] / pop_Seoul["인구수"] * 100 pop_Seoul["고령자비율"] = pop_Seoul["고령자"] / pop_Seoul["인구수"] * 100 - isin() : 특정 요소가 있는 지 확인, 마스킹 안 할시 boolean 타입으로 출력. pop_Seoul[pop_Seoul["구별"].isin(["종로구","노원구"])] - del : 특정 컬럼 제거 del pop_Seoul["고령자"] - drop() : 특정 컬럼 제거 pop_Seoul.drop([0], axis=0, inplace=True) pop_Seoul.head()

    [Pandas] Offset index와 Condition

    [Pandas] Offset index와 Condition

    1. Offset index - [n:m] : n부터 m-1까지(인덱스 입력) CCTV_Seoul[20:24] # 20-23까지 출력 -loc[index,column]: 명칭기반 인덱싱으로, 인덱스나 컬럼의 이름으로 특정 행과 열을 선택 CCTV_Seoul.loc[:, ["구별","최근증가율"]].head() CCTV_Seoul.loc[4:8, ["소계","2015년"]] #4-8까지 출력 - iloc[index,column] : 위치기반 인덱싱으로, 컴퓨터가 인식하는 인덱스(숫자) 값으로 선택 CCTV_Seoul.iloc[3] # 보라색 CCTV_Seoul.iloc[0:2,[0,3,5]] # 노란색 2. condition - ["column"] > 0 : A 컬럼에서 0보다 큰 숫자(양수)만 선택 CC..