본문 바로가기

Python/Data Analysis Library

(13)
03. Package visualization Visualization (시각화) 데이터분석 및 보고에 필요한 시각화 패키지를 알아보고 실제 데이터로 시각화 예제를 다루어보자. 데이터 시각화는 데이터분석 과정에서 단순히 데이터를 살펴보는데 그치지 않고 다양한 분석 가능성을 보여준다. 또한 3자에게 설명을 함에 있어서도 데이터시각화는 굉장히 설득력있는 리포팅을 가능하게 한다. 1. Matplotlib 파이썬의 대표적인 시각화 패키지 패키지의 이름에서 느껴지듯 MATLAB의 수리데이터 시각화를 파이썬으로 옮겨온 컨셉 기본적인 형태의 다양한 시각화 함수를 제공 사용이 약간은 불편 1.1 matplotlib 설치 및 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt # !..
Pandas_ex (연습문제) Ecommerce Purchases Exercise 아마존 구매 내역에 대한 Fake 데이터 입니다. 아래 굵은 글씨로 기술된 테스크들을 완수하자. 뒷부분으로 갈 수록 점점 어려워진다. 모든 데이터는 인위적으로 만들어진 가짜이므로 상식적으로 맞지 않을 수 있다는 점 감안하자. 또한 모든 답안은 한 줄로 작성될 수 있다는 점도 기억하자. import numpy as np import pandas as pd 1. csv 파일을 읽어들여 df 데이터프레임생성 # 결과값 없음 정답 더보기 df = pd.read_csv("경로") 2. 데이터프레임의 첫 5 샘플 확인 정답 더보기 df.head() 3. 몇개의 row와 column을 가진 데이터인가? (10000, 14) 정답 더보기 df.shape 3. 데이터 ..
02. Package pandas finance Pandas 데이터 과학자를 위해 테이블형태로 데이터를 다룰 수 있게 해주는 패키지(python용 엑셀) 기존 데이터처리 라이브러리인 numpy 대신 주로 사용 일반인이 데이터분석을 접하기 쉽게 만들어준 결정적인 라이브러리 pandas만으로도 충분히 데이터 분석이 가능할 정도로 고수준의 함수들을 내장 앞으로 진행하는 데이터분석 과정에서 주로 사용하게 될 데이터구조 1. pandas 설치 및 import 콘솔창에서 실행 시 pip install pandas conda install pandas 주피터 노트북으로 실행 시 !pip install pandas 아나콘다 환경으로 python 환경설정 시 기본적으로 설치가 되어있음 # pandas 설치 !pip install pandas # pandas impor..
01. Package_Numpy Numpy (Numeric python) 패키지 이름과 같이 수리적 파이썬 활용을 위한 파이썬 패키지 선형대수학 구현과 과학적 컴퓨팅 연산을 위한 함수를 제공 (key) nparray 다차원 배열을 사용하여 벡터의 산술 연산이 가능 브로드캐스팅을 활용하여 shape(형태 혹은 모양)이 다른 데이터의 연산이 가능 기존 언어에서는 제공 X 굉장히 파워풀한 기능으로서 빅데이터 연산에 굉장히 효율이 좋음 1. Numpy 설치와 import 선행 학습을 통해 클래스와 함수에서 클래스를 불러들여 사용할 수 있다고 배웠다. 다만 직접 작성한 클래스가 아닐경우, 그리고 현재 컴퓨터에 사용해야 할 패키지가 없을경우, 간단한 명령어로 설치가능하다. pip, conda 명령어 : python 라이브러리 관리 프로그램으로 오..
Part03 Chapter.02 데이터 분석 라이브러리 09. seaborn plots (실습) Seaborn 엄청나게 화려한 시각화 기법들을 제공하며, 기본적으로 이쁘다. pandas DataFrame과 매우 호환이 잘된다. histplot, barplot, jointplot, lineplot, ... e.g. sns.xxxplot(data=df)
Part03 Chapter.02 데이터 분석 라이브러리 08 pyplot 기초 (실습) matplotlib.pyplot 데이터 분석의 꽃, 시각화 방법에서 가장 많이 사용되는 라이브러리인 matplotlib을 배워보자! matplotlib은 파이썬에 다양한 그래프 작성방법을 제공한다. seaborn, folium 같은 다른 다양한 시각화 라이브러리들은 matplotlib을 dependency로 가지고 있거나, 영향을 많이 받았다. matplotlib은 figure()를 기본적으로 그래프 그리는 객체로 사용하고, plot(), scatter() 함수를 이용하여 원하는 그래프를 그린다. # matplotlib은 이렇게 불러오는 것이 관행이다. import matplotlib.pyplot as plt # 도화지를 깔고 plt.figure() # 해당 리스트를 기준으로 하는 선을 그린다. plt...
Part03 Chapter.02 데이터 분석 라이브러리 07. Seaborn을 사용하는 이유 Seaborn Seaborn : Statistical Data Visualization library based on matplotlib. Matplotlib 파이썬 오픈소스 라이브러리 중에 가장 널리 사용되는 시각화 라이브러리이다. 2002년부터 만들어졌으며, MATLAB의 기능들을 파이썬으로 가져오는 컨셉으로 시작되었다. 각종 논문에서 figure를 그릴 때, 사용될 만큼 깔끔하게 그래프를 그려주는 것으로 유명하다. figure 라는 도화지에 여러가지 component를 얹어서 그래프를 완성하는 컨셉으로 구현된다. 크게 pyplot 을 이용하여 구현하는 방법과 OOP-style 를 이용하여 구현하는 두 가지 방법이 있다. 빠르게 적당한 퀄리티의 그래프를 그린다면 pyplot을, 디테일하게 이것저것 표..
Part03 Chapter.02 데이터 분석 라이브러리 06. Pandas method (실습) Pandas 1. Pandas DataFrame and Operations # pandas 라이브러리를 불러오자. pd를 약칭으로 사용 import pandas as pd import numpy as np DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 함 Series의 모임이 곧, DataFrame # s는 1, 3, 5, np.nan, 6, 8을 원소로 가지는 pandas.Series를 만들자. pd.Series([1,3,5,np.nan,6,8]) 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 # nan이 float로 인식, 판다스에서는 한 줄에 같은 데이터 타입, 정수대신 전부 실수로 인식. # 12x4 행렬에 1부터 4..