본문 바로가기

분류 전체보기

(320)
Part03 Chapter.02 데이터 분석 라이브러리 09. seaborn plots (실습) Seaborn 엄청나게 화려한 시각화 기법들을 제공하며, 기본적으로 이쁘다. pandas DataFrame과 매우 호환이 잘된다. histplot, barplot, jointplot, lineplot, ... e.g. sns.xxxplot(data=df)
Part03 Chapter.02 데이터 분석 라이브러리 08 pyplot 기초 (실습) matplotlib.pyplot 데이터 분석의 꽃, 시각화 방법에서 가장 많이 사용되는 라이브러리인 matplotlib을 배워보자! matplotlib은 파이썬에 다양한 그래프 작성방법을 제공한다. seaborn, folium 같은 다른 다양한 시각화 라이브러리들은 matplotlib을 dependency로 가지고 있거나, 영향을 많이 받았다. matplotlib은 figure()를 기본적으로 그래프 그리는 객체로 사용하고, plot(), scatter() 함수를 이용하여 원하는 그래프를 그린다. # matplotlib은 이렇게 불러오는 것이 관행이다. import matplotlib.pyplot as plt # 도화지를 깔고 plt.figure() # 해당 리스트를 기준으로 하는 선을 그린다. plt...
Part03 Chapter.03 탐색적 데이터 분석 04. Case3. 공공데이터 분석 - 커피전문점(실습) 공공데이터를 이용한 카페 상권분석(2022 Ver.) 들어가며 공공데이터를 통해 대한민국을 이해해보자(?). 공공데이터포털(data.go.kr)에 다양한 데이터가 공개되어 있다. 그 중에 카페(라는 업종분류)들에 대해서 현황을 조사 해보자 명세사항 전국 카페 데이터를 모두 수집해야한다. 지역별 or 브랜드별 점포 현황을 확인한다. 분석 결과를 시각화하자. 0. Data Description 소상공인 상권 데이터를 국내에 있는 모든 소상공인으로 등록된 점포들에 대한 정보를 제공합니다. [데이터] https://www.data.go.kr/data/15083033/fileData.do 소상공인시장진흥공단_상가(상권)정보_20220331 영업 중인 전국 상가업소 데이터를 제공합니다. (상호명, 업종코드, 업종명..
Part03 Chapter.03 탐색적 데이터 분석 03. Case2. Kaggle Survey(실습) Kaggle Survey 소개 Kaggle이라는 Data Science Community가 있다. Kaggle에서는 매년 Kaggle 사용자들을 중심으로 설문조사를 시행한다. 해당 설문조사 결과는 전세계에 뛰어난 Data Scientist들이 어떻게 일하고 어떤 것들을 공부하고 있는지 알 수 있는 좋은 자료이다. 이번에 사용하는 데이터셋은 2021 Kaggle Machine Learning Survey 데이터셋을 사용하는 Kaggler들에 대해 살펴보려고 한다. 0. 데이터 소개 데이터의 첫번째 Row에는 각 질문이 어떤 것이었는지 대한 내용이 적혀 있다. 해당 데이터가 어떻게 수집되었는지, 활용하려면 어떻게 해야하는지 관심 있는 사람들은 해당 데이터셋을 다운로드 하면 supplementary_data ..
Part03 Chapter.03 탐색적 데이터 분석 02. Case1. Starbucks Survey(실습) 스타벅스 이벤트 관련 고객 설문 데이터 스타벅스 고객들의 이벤트 관련 설문에 응답한 데이터의 일부이다. 해당 데이터에서 고객들이 이벤트에 대한 응답을 어떻게 하는지 찾고 고객 프로모션 개선방안에 대한 인사이트를 찾는다. 0. Data Description 1. Profile table profile 데이터는 설문에 참여한 스타벅스 회원에 관련된 정보가 담겨 있다. "Dimesional data about each person, including their age, salary, and gender. There is one unique customer for each record." 2. transcript 이벤트에 참여한 실제 유저들의 응답이 기록되어 있습니다. "Records show the diffe..
sorted( ) 함수 Python sorted( ) 함수 정리 sorted(정렬할 데이터) sorted(정렬할 데이터, reverse 파라미터) sorted(정렬할 데이터, key 파라미터) sorted(정렬할 데이터, key 파라미터, reverse 파라미터) sorted 함수는 파이썬 내장 함수이다. 첫 번째 매개변수로 들어올 "정렬할 데이터"는 iterable한 데이터 이여야 한다. 첫 번째 매개변수로 들어온 iterable한 데이터를 새로운 정렬된 리스트로 만들어서 반환해 주는 함수이다. 아래 옵션(파라미터)은 다 기본값으로 들어가 있기 때문에, sorted(정렬 데이터)만 넣어도 충분하다. key 옵션 ( key 파라미터 ) key 파라미터는 어떤 것을 기준으로 정렬할 것인지를 결정하는 기준이다. sorted( ~~..
Part03 Chapter.03 탐색적 데이터 분석 01. 탐색적 데이터 분석이란? EDA(Exploratory Data Analysis) EDA(Exploratory Data Analysis) : 데이터에서 분석에 필요한 여러가지 통계량을 계산하고, 시각화를 통해서 이를 확인하는 작업. RECAP 탐색적 데이터 분석(Exploratory Data Analysis, EDA)는 데이터와 친해지는 과정 분석을 하면서 데이터에서 확인하고 싶은 정보들을 찾아가는 과정 정답처럼 규칙처럼 정해진 프로세스는 따로 없고, 완전히 분석가들의 직관과 분석 프로세스에 따라 갈림 어떤 데이터를 사용하느냐에 따라서도 천차만별로 갈림 나만의 EDA process를 구축하는 것이 Data Scientist로서의 역량 이제부터 하게 될 3가지 케이스에서 주요하게 생각해야 하는건 다음과 같다. 해당 데이터를 보고 어..
Part03 Chapter.02 데이터 분석 라이브러리 07. Seaborn을 사용하는 이유 Seaborn Seaborn : Statistical Data Visualization library based on matplotlib. Matplotlib 파이썬 오픈소스 라이브러리 중에 가장 널리 사용되는 시각화 라이브러리이다. 2002년부터 만들어졌으며, MATLAB의 기능들을 파이썬으로 가져오는 컨셉으로 시작되었다. 각종 논문에서 figure를 그릴 때, 사용될 만큼 깔끔하게 그래프를 그려주는 것으로 유명하다. figure 라는 도화지에 여러가지 component를 얹어서 그래프를 완성하는 컨셉으로 구현된다. 크게 pyplot 을 이용하여 구현하는 방법과 OOP-style 를 이용하여 구현하는 두 가지 방법이 있다. 빠르게 적당한 퀄리티의 그래프를 그린다면 pyplot을, 디테일하게 이것저것 표..