Pandas!
Pandas : Python Data Analysis Library. 정형 데이터 분석에 최적화된 라이브러리.
pandas - Python Data Analysis Library
pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!
pandas.pydata.org
- 2008년에 만들어졌으며, 2009년에 100% 오픈소스가 되었다.
- 정형 데이터를 효율적으로 표현할 수 있는 DataFrame 형태로 모든 데이터를 표현한다.
- 다양한 데이터 조작 기능을 제공
- e.g. indexing(=search), filtering, reshaping, concatenation, reading/writing, ...
- 벡터 연산에 최적화되어 있다. → Numpy와 연관성이 있다!
# pandas example
import pandas as pd
df = pd.DataFrame(np.random.randn(5, 3))
df.head()
Pandas를 사용해야 하는 이유
- 대부분의 정제된 데이터들은 테이블 형태로 표현된다. 이런 테이블 형태의 데이터를 분석하기에 최적의 라이브러리이다.
- numpy처럼 정형화된 데이터 연산에 최적화 되어 있다. 성능이 매우 뛰어나다!
- 다양한 정형 데이터를 통합 관리할 수 있다.
json, html, csv, xlsx, hdf5, sql, ... 모두 DataFrame으로 통일해서 표현될 수 있다. - 엑셀에서 제공하는 연산 기능을 거의 다 제공합니다. 편의성이 좋다!
'Python > Data Analysis Library' 카테고리의 다른 글
Part03 Chapter.02 데이터 분석 라이브러리 06. Pandas method (실습) (0) | 2022.07.18 |
---|---|
Part03 Chapter.02 데이터 분석 라이브러리 05. Pandas DataFrame (0) | 2022.07.18 |
Part03 Chapter.02 데이터 분석 라이브러리-03. Numpy method (실습) (0) | 2022.07.12 |
Part03 Chapter.02 데이터 분석 라이브러리 02. Numpy array (0) | 2022.07.12 |
Part 03 Chapter.02 데이터 분석 라이브러리 01. Numpy를 사용하는 이유 (0) | 2022.07.12 |