본문 바로가기

Tableau

Tableau ch01 - 03. 상관관계 및 분포차트 그리기

3. 상관관계 및 분포차트 그리기


--- 배울 것 ---

A. 스캐터 플랏
B. 박스 플랏
  i. 어떻게 만들 수 있는지?
  ii. 어떻게 읽어야 하는지? (IQR과 아웃라이어의 의미)
C. 히스토그램
  i. 어떻게 만들 수 있는지?
  ii. count(orders) 필드에 대한 이해

 

목표 화면

왼쪽하단에 1913개 마크는 점이 1913개라는 것을 의미한다. 점 하나하나는 Product Name의 하나하나를 표현한 것이다.

새로운 워크 시트에 Sales는 열선반에, Profit을 행선반에 올리자.

 

 

위 사진의 점은 4년동안의 매출과 수익을 점으로 표현한 것임을 알 수 있다.

product name을 마크카드의 세부정보에 드래그 해보자.

 

 

위의 차트는 각각의 제품별로 매출과 순이익을 나타는 차트임을 알 수 있다.

또한 profit을 마크카드의 색상에 드래그 해보자.

 

 

그러면 제품별 순이익의 정도를 색상으로 표현되어 있음을 볼 수 있다.

 

 

두번째 예시를 보자.

 

목표화면

 

Discount와 Profit의 Scatter Plot이다 또한 점 하나하나는 고객을 의미함을 볼 수 있다.

 

새로운 시트에  Profit을 행선반에 Discount를 열 선반에 올리자.

 

 

Discount의 할인율의 합과, 수익의 합이 점 하나로 표현되어 있다. 퍼센트로 바꾸자면 163700%의 할인률을 나타낸다. 왜나하면 30%를 0.3으로 표현한 Discount를 모두 합친것이기 때문이다. 하지만 Discount를 합산한 것은 사용할 수 없다. 그러므로 집계방식을 변경할수 있다.

 

 

 

이제 Discount의 평균값을 14.8%로 나타나져 있는 것을 확인할 수 있다.

여기서 Customer Name을 마크카드의 세부정보에 넣어놓은 차트는 아래와 같다.

 

 

전반적인 경향성을 봤을때, 할인율이 커지면 커질수록, 순이익이 감소한다는 것을 확인 할 수 있다. 

좀더 확실한 경향성을 보여주기 위한 차트를 그려보자.

 

 

분석에 추세선을 누르면 아래와 같이 된다.

 

 

이때 선형에 드래그 하면, 명확히 경향성을 표현한 추세선이 생성된 것을 확인할 수 있다.

 

 

이번엔 박스 플롯을 만들어보자.

 

 

위의 시트에서 가구를 보면, 맨아래 점은 가구 카테고리중 가장 수익이 낮은 제품, 가장 높은점은 가장 수익이 높은 점이라는 것을 알 수 있다. 마찬가지로 사무기기와 사무용품도 그렇게 표현되어 있음을 알 수 있다.

 

 

또한 가구의 박스의 옅은 회색과 진한 회색이 있는데, 그 사이에 있는 줄은 중앙값을 의미한다. 중앙값은 값을 일렬로 나열했을때 가장 중간에 있는값을 말한다. 또한 짙은 회색의 아래쪽 부분은 Q1이라고 부르며 25%에 위치한 지점이다. 반대로 옅은 회색 박스의 위쪽부분은 Q3라고 부르며 75%에 위치한 지점이다.

또한 박스 위 아래의 줄은 위쪽경첩과 아래쪽 경첩으로도 표현되며, 위 사진의 값으로 보면 대략 -5만 ~ 52만으로 총 57만이라는 것을 알 수 있다. 이범위를 IQR(InterQuartile Range)로 정의한다. 

 

사분 범위 IQR이라는 것의 정의는 중간에 50%의 데이터들이 흩어진 정도를 의미한다. 그래서 Q3 - Q1으로 IQR은 구해질 수 있는데, 여기서 Q1은 데이터의 중앙값 아래에서의 중앙값을 의미하고, Q3은 데이터의 중앙값 위에서의 중앙값을 의미한다. 즉, 중앙값은 데이터를 절반으로 했을 때의 값이라면, 사분 범위는 1/4로 데이터를 쪼개어 중간에 두 구간을 나타내는 것이다.

 

IQR의 1.5배 만큼의 값을 Q1 과 Q3에 더해준 것이 박스 위 아래로 선을 그은 것이다. 이를 넘어서 나와 있는 점들은 정상범위를 넘어선 이상치로 판단한다.

 

 

 

박스플롯을 생성해보자. 

 

 

Product Name과 Profit를 선택하고 표현 방식에 Box plot을 선택하자.

또한 Product Category를 열선반에 놓자.

 

 

 

 

다음엔 HIstogram을 만들어 보자.여기서 Orders(카운트) 필드는 Row의 갯수를 보여준다.

 

목표화면

위 그래프의 의미는 DIscount의 구간차원에서의 Row의 갯수를 잘 보여준다. 즉, 첫번째 막대는 0% ~10%의 할인률을 보이는 행의 갯수가 4,838개임을 알 수 있다.

 

이떄 행 하나가 의미하는 바를 보면,

 

행하나는 주문한 개별 제품 하나하나를 의미한다. 제품 4개를 한번에 구매해도, 4개의 행으로 표시된 것을 볼 수 있다. 

 

그러므로 위의 히스토그램에서의 첫번째 막대는 최대 10프로 까지 할인한 장바구니에 담긴 제품의 개수가 4,838개 라는 것을 알 수 있다. 이처럼 행 하나를 잘 해석하고 이에 따라 차트 또한 잘 해석해야한다.

 

Orders를 행 선반에 넣고, Discount에 우클릭후 만들기 - 구간차원을 선택하면, Discount(구간차원)이라는 테이블이 생성된다.

 

 

 

또한 Discount(구간차원)을 불연속형에서 연속형으로 바꾸어서 아래의 그래프 처럼 변경할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'Tableau' 카테고리의 다른 글

Tableau ch01 - 05. chapter01 목표 화면 리뷰  (0) 2022.08.30