pandas

    [Pandas] 그래프 그리기(plot)

    [Pandas] 그래프 그리기(plot)

    1. plot - DataFrame의 plot을 이용하면 다양한 그래프를 그릴 수 있음. 2. 그래프 그리기 1) plot(x, y) - kind : 그래프 종류 ex) line / bar / barh / hist / box / kde / density / area / pie / scatter / hexbin - title : 그래프 제목 - linestyle : 선의 스타일 설정 ex)linestyle='dashed' data_result["인구수"].plot(kind="bar", figsize=(10,10)); data_result["소계"].plot(kind="barh", grid=True, figsize=(10, 10)); 3. 그래프 정렬하기 1) sort_values(ascending=True..

    [Pandas] 데이터 병합

    [Pandas] 데이터 병합

    🔍 데이터 병합 cf) 데이터 [right], [left] 만들기 - 딕셔너리 안에 리스트 형태(컬럼 기준으로 열 값이 들어감) left = pd.DataFrame({ "key": ["K0","K1","K2","K4"], "A": ["A0","A1","A2","A3"], "B": ["B0","B1","B2","B3"] }) - # 리스트 안에 딕셔너리 형태(행 하나씩 들어감) right = pd.DataFrame([ {"key":"K0","C":"C0","D":"D0"}, {"key":"K1","C":"C1","D":"D1"}, {"key":"K2","C":"C2","D":"D2"}, {"key":"K3","C":"C3","D":"D3"} ]) right 1. pd.merge(data1, data2, h..

    [Pandas] 함수 사용

    [Pandas] 함수 사용

    1. 함수 사용 - apply() : 수학 함수 적용 pop_Seoul["인구수"].apply("sum") pop_Seoul["인구수"].apply("mean") pop_Seoul["인구수"].apply("min"),pop_Seoul["인구수"].apply("max") pop_Seoul[["인구수","고령자"]].apply("sum") - numpy 함수도 사용 가능 pop_Seoul["인구수"].apply(np.sum) pop_Seoul["인구수"].apply(np.mean) -unique : 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수 해당컬럼의 데이터를 한번만 표현하며, nan값을 포함하여 array로 반환, 이상한 데이터 확인 가능 pop_Seoul["구별"].unique..

    [Pandas] 컬럼 추가 및 제거

    [Pandas] 컬럼 추가 및 제거

    1. 컬럼 추가, 제거 - 기존 컬럼이 없으면 추가, 있으면 수정 - 아무 값도 넣지 않을 시 에러 pop_Seoul["외국인비율"] = pop_Seoul["외국인"] / pop_Seoul["인구수"] * 100 pop_Seoul["고령자비율"] = pop_Seoul["고령자"] / pop_Seoul["인구수"] * 100 - isin() : 특정 요소가 있는 지 확인, 마스킹 안 할시 boolean 타입으로 출력. pop_Seoul[pop_Seoul["구별"].isin(["종로구","노원구"])] - del : 특정 컬럼 제거 del pop_Seoul["고령자"] - drop() : 특정 컬럼 제거 pop_Seoul.drop([0], axis=0, inplace=True) pop_Seoul.head()

    [Pandas] Offset index와 Condition

    [Pandas] Offset index와 Condition

    1. Offset index - [n:m] : n부터 m-1까지(인덱스 입력) CCTV_Seoul[20:24] # 20-23까지 출력 -loc[index,column]: 명칭기반 인덱싱으로, 인덱스나 컬럼의 이름으로 특정 행과 열을 선택 CCTV_Seoul.loc[:, ["구별","최근증가율"]].head() CCTV_Seoul.loc[4:8, ["소계","2015년"]] #4-8까지 출력 - iloc[index,column] : 위치기반 인덱싱으로, 컴퓨터가 인식하는 인덱스(숫자) 값으로 선택 CCTV_Seoul.iloc[3] # 보라색 CCTV_Seoul.iloc[0:2,[0,3,5]] # 노란색 2. condition - ["column"] > 0 : A 컬럼에서 0보다 큰 숫자(양수)만 선택 CC..

    [Pandas] 정보 탐색 및 정렬

    [Pandas] 정보 탐색 및 정렬

    1. 데이터 프레임 정보탐색 - read_fileType(route) : 파일 읽기, 특정 부분만 읽기 가능 CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv", encoding="utf-8") pop_Seoul = pd.read_excel("../data/01. Seoul_Population.xls") pop_Seoul = pd.read_excel( "../data/01. Seoul_Population.xls", header=2, usecols="B,D,G,J,N" ) - rename() : 이름 변경 가능, inplace=True 시, 변경 결과가 저장 pop_Seoul.rename( columns={ pop_Seoul.columns[0]:"구별", pop..

    [Pandas] Pandas란?

    [Pandas] Pandas란?

    🔍 Pandas란? - python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈 - 단일 프로세스에서는 최대 효율 - 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨(스테로이드 맞은 엑셀) import pandas as pd 🗝 Pandas 자료구조 - Pandas에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용. 1) series - index와 value로 이루어져 있음 - 한가지 타입만 가질 수 있음 - 수로만 이루어져 있으면 연산 가능 pd.Series([1,2,3,4]) pd.Series([1,2,3,4], dtype=np.float64) pd.Series(np.array([1,2,3,4])) pd.Series({"key":"value"}) data % 2..