Pandas 기초

[참조] 패스트캠퍼스 - 직장인을 위한 파이썬 데이터분석 올인원 패키지 Online.

Pandas란?

Pandas란 데이터를 쉽고 용이하게 분석할 수 있도록 해주는 파이썬 라이브러리이다.

Pandas의 기능

  • 엑셀로 할 수 있는 모든 기능
  • Excel, DB, PDF 파일 등 읽기
  • 크롤링
  • DB 핸들링
  • 시각화 등

Pandas 자료구조

  • Series: 1차원으로 이루어진 데이터 배열
  • DataFrame: 2차원으로 이루어진 데이터 배열

Pandas 패키지 로드

import pandas as pd

Series & DataFrame

Series 생성

pd.Series([1, 2, 3, 4])

list를 이용한 DataFrame 생성

company1 = [['삼성', 2000, '스마트폰'],
           ['현대', 1000, '자동차'],
           ['네이버', 500, '포털']]
df1 = pd.DataFrame(company1)

DataFrame 제목 컬럼 생성

df1.columns = ['기업명', '매출액', '업종']

순서와 개수를 잘 맞추어 설정해야 한다.

dict를 이용한 DataFrame 생성

company2 = {'기업명': ['삼성', '현대', '네이버'],
            '매출액': [2000, 1000, 500],
            '업종': ['스마트폰', '자동차', '포털']
           }
df2 = pd.DataFrame(company2)

index를 column으로 지정

df1.index = df1['기업명']

CSV 파일 읽어오기

CSV 파일이란? Comma Seoarated Value의 약어로 쉼표(Comma)로 구분된 파일을 말한다.

로컬에서 파일 읽어오기

from google.colab import files
myfile = files.upload()

로컬에 저장되어 있는 파일을 업로드해서 가져온다.

구글 드라이브에 있는 샘플 파일 읽어오기

from google.colab import drive
drive.mount('/content/drive')

먼저 마운트를 해서 구글 드라이브에 있는 파일들을 확인할 수 있다.

filename = '/csv 파일이 있는 경로/파일이름.csv'
pd.read_csv(filename)

위처럼 파일이 있는 경로를 지정한 뒤 파일을 읽어온다.

url로 읽어오기

pd.read_csv('파일 URL 주소')

Excel 파일 읽어오기

pd.read_excel('파일 URL 주소')

csv 파일과 동일하지만 read_excel() 함수를 이용해 읽어온다.

Pandas 기본 기능

열 출력

df.columns

열 재정의

df.columns = new_col

행 출력

df.index

정보 확인

df.info()

빠진 값(null 값)과 데이터 타입을 볼 때 확용한다

통계 정보 확인

df.describe()

산술 연산이 가능한 열만 출력이 가능하기 때문에 실제 존재하는 열의 정보보다 적을 수 있다.

형태 확인

df.shape

일부 데이터만 확인

  • 상위 5개 row 출력
    df.head()
    
  • 하위 5개 row 출력
    df.tail()
    
  • 상위 3개 row 출력
    df.head(3)
    
  • 하위 2개 row 출력
    df.tail(2)
    

데이터 정렬

  • 오름차순 정렬
    df.sort_index()
    

    default로 오름차순 정렬로 설정되어 있다.

  • 내림차순 index 정렬
    df.sort_index(ascending=False)
    
  • 열 별로 오름차순 정렬
    df.sort_values(by='키')
    

    또는

    df.sort_values('키')
    
  • 열 별로 내림차순 정렬
    df.sort_values('키', ascending=False)
    
  • 복수 정렬
    df.sort_values(by=['키', '브랜드평판지수'])
    

    키로 정렬을 한 뒤 브랜드평판지수를 바탕으로 정렬

    df.sort_values(by=['키', '브랜드평판지수'], ascending=False)
    

    내림차순도 위 방식들과 동일하다.

[참조] 패스트캠퍼스 - 직장인을 위한 파이썬 데이터분석 올인원 패키지 Online.

끝!