Pandas 기초
[참조] 패스트캠퍼스 - 직장인을 위한 파이썬 데이터분석 올인원 패키지 Online.
Pandas란?
Pandas란 데이터를 쉽고 용이하게 분석할 수 있도록 해주는 파이썬 라이브러리이다.
Pandas의 기능
- 엑셀로 할 수 있는 모든 기능
- Excel, DB, PDF 파일 등 읽기
- 크롤링
- DB 핸들링
- 시각화 등
Pandas 자료구조
- Series: 1차원으로 이루어진 데이터 배열
- DataFrame: 2차원으로 이루어진 데이터 배열
Pandas 패키지 로드
import pandas as pd
Series & DataFrame
Series 생성
pd.Series([1, 2, 3, 4])
list를 이용한 DataFrame 생성
company1 = [['삼성', 2000, '스마트폰'],
['현대', 1000, '자동차'],
['네이버', 500, '포털']]
df1 = pd.DataFrame(company1)
DataFrame 제목 컬럼 생성
df1.columns = ['기업명', '매출액', '업종']
순서와 개수를 잘 맞추어 설정해야 한다.
dict를 이용한 DataFrame 생성
company2 = {'기업명': ['삼성', '현대', '네이버'],
'매출액': [2000, 1000, 500],
'업종': ['스마트폰', '자동차', '포털']
}
df2 = pd.DataFrame(company2)
index를 column으로 지정
df1.index = df1['기업명']
CSV 파일 읽어오기
CSV 파일이란? Comma Seoarated Value의 약어로 쉼표(Comma)로 구분된 파일을 말한다.
로컬에서 파일 읽어오기
from google.colab import files
myfile = files.upload()
로컬에 저장되어 있는 파일을 업로드해서 가져온다.
구글 드라이브에 있는 샘플 파일 읽어오기
from google.colab import drive
drive.mount('/content/drive')
먼저 마운트를 해서 구글 드라이브에 있는 파일들을 확인할 수 있다.
filename = '/csv 파일이 있는 경로/파일이름.csv'
pd.read_csv(filename)
위처럼 파일이 있는 경로를 지정한 뒤 파일을 읽어온다.
url로 읽어오기
pd.read_csv('파일 URL 주소')
Excel 파일 읽어오기
pd.read_excel('파일 URL 주소')
csv 파일과 동일하지만 read_excel()
함수를 이용해 읽어온다.
Pandas 기본 기능
열 출력
df.columns
열 재정의
df.columns = new_col
행 출력
df.index
정보 확인
df.info()
빠진 값(null 값)과 데이터 타입을 볼 때 확용한다
통계 정보 확인
df.describe()
산술 연산이 가능한 열만 출력이 가능하기 때문에 실제 존재하는 열의 정보보다 적을 수 있다.
형태 확인
df.shape
일부 데이터만 확인
- 상위 5개 row 출력
df.head()
- 하위 5개 row 출력
df.tail()
- 상위 3개 row 출력
df.head(3)
- 하위 2개 row 출력
df.tail(2)
데이터 정렬
- 오름차순 정렬
df.sort_index()
default로 오름차순 정렬로 설정되어 있다.
- 내림차순 index 정렬
df.sort_index(ascending=False)
- 열 별로 오름차순 정렬
df.sort_values(by='키')
또는
df.sort_values('키')
- 열 별로 내림차순 정렬
df.sort_values('키', ascending=False)
- 복수 정렬
df.sort_values(by=['키', '브랜드평판지수'])
키로 정렬을 한 뒤 브랜드평판지수를 바탕으로 정렬
df.sort_values(by=['키', '브랜드평판지수'], ascending=False)
내림차순도 위 방식들과 동일하다.
[참조] 패스트캠퍼스 - 직장인을 위한 파이썬 데이터분석 올인원 패키지 Online.
끝!