본문 바로가기

Python/Data Analysis Library

Part03 Chapter.02 데이터 분석 라이브러리 04. Pandas를 사용하는 이유

Pandas!


Pandas : Python Data Analysis Library. 정형 데이터 분석에 최적화된 라이브러리.

https://pandas.pydata.org/

 

pandas - Python Data Analysis Library

pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!

pandas.pydata.org

 

  • 2008년에 만들어졌으며, 2009년에 100% 오픈소스가 되었다.
  • 정형 데이터를 효율적으로 표현할 수 있는 DataFrame 형태로 모든 데이터를 표현한다.
  • 다양한 데이터 조작 기능을 제공
  • e.g. indexing(=search), filtering, reshaping, concatenation, reading/writing, ...
  • 벡터 연산에 최적화되어 있다. → Numpy와 연관성이 있다!

 

# pandas example
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3))
df.head()

 

Pandas를 사용해야 하는 이유

  1. 대부분의 정제된 데이터들은 테이블 형태로 표현된다. 이런 테이블 형태의 데이터를 분석하기에 최적의 라이브러리이다.
  2. numpy처럼 정형화된 데이터 연산에 최적화 되어 있다. 성능이 매우 뛰어나다!
  3. 다양한 정형 데이터를 통합 관리할 수 있다.
    json, html, csv, xlsx, hdf5, sql, ... 모두 DataFrame으로 통일해서 표현될 수 있다.
  4. 엑셀에서 제공하는 연산 기능을 거의 다 제공합니다. 편의성이 좋다!