ch03 - 01. 데이터 준비
--- 배울 것 ---
A. 유니온
B. 조인: 물리적 결합
C. 관계: 느슨한 결합
D. 블렌딩: 화면에서의 ad-hoc 결합
A. 유니온
Union Example_01 파일을 보면,
같은 엑셀 파일 안 에 시트가 4개 있는것을 볼 수 있다.
이떄, Data_2017을 오른쪽에 드래그 한뒤, 다른 연도의 데이터 시트를 드래그하면,
유니온이라는 문자가 나타남을 확인할 수 있다.
2018, 19, 20 데이터를
2017 데이터에 올려놓으면
유니온이라고 뜬다.
모든 연도를 유니온 마크에 넣고 테이블을 확인하면, 68개 행이 테이블에 있는 것을 확인할 수 있다.
위의 유니온은 엑셀안에 여러 시트로 구성되어 있는테이블을 합친 방법이다.
그러면 여러 엑셀 파일을 하나로 합치는 유니온을 살펴 보자.
테블로가 유니온 할 수 있는 타일을
검색 할 수 있도록 도와준다.
위처럼 20XX로 되어있는 파일을 찾아서
유니온 시켜라 라고 할 수 있다.
실제로 68개의 행으로 별개의 엑셀 파일을 모두 합친 것임을 확인 할 수 있다.
만약 컬럼 명의 다른 테이블의 유니온은 어떻게 할까?
위의 엑셀 파일을 보면, 4개의 시트가 모두 컬럼명이 조금씩 다르다는 것을 확인할 수 있다.
아래에서 새 유니온을 오른쪽 빈 공간으로 드래그 하면 유니온 창이 뜬다.
이떄, 4개의 시트를 넣어보고 어떻게 되는지 확인해보자.
위의 테이블을 보면, 컬럼이 연결되지 않고 각각 생성 되었으며, 없는 공간에는 null값이 들어와 있음을 확인할 수 있다.
위의 Order Date와 Oder year와 연도는 사실상 같은 컬럼인데, 이름이 달라서 합쳐지지 않았다.
이를 해결하기 위해서는 어떻게 해야할까?
옆과 같이 3개의 컬럼이 합쳐진 모습을 보여준다.
마찬가지로 같은 값을 가지지만, 이름이 유사한 컬럼을 합쳐보자.
모든 컬럼을 정리하고, 이름을 더블 클릭하여 정리해보자.
그러면 위와 같이 깔끔하게 컬럼이 정리 된 것을 확인할 수 있다.
이처럼 불일치 필드 병합을 통하여, 컬럼을 합칠 수 있다.
유니온이 데이터를 세로로 붙이는 작업이면, 조인 관계 블랜딩은 데이터를 가로로 붙여주는 작업이라고
생각하면 된다.
B. 조인: 물리적 결합
두개의 엑셀을 보면, 왼쪽은 매출정보가 나와 있으며, 오른쪽은 비용 정보가 나와있다.
두개를 조인해서, 수익이라는 값을 구할 수 있을 것이다.
또한 컬럼 부분이 약간 다른 것을 확인 할 수 있다.
또한 한쪽 파일에만 존재하는 값이 있다.
왼쪽에서는 침대와 컴퓨터라는 서브 카테고리가 있으며, 오른쪽에서는 접착용품이 있는 것을 볼 수 있다.
이제 태블로에서 엑셀 파일을 하나 태블로에서 불러오자.
추가를 눌러서 두번째 엑셀 파일을 가져오자.
처음 시트가 오른쪽 빈 공간에 올려져 있을 떄 다시 한번 시트를 클릭하면 왼쪽과 같이 창이 생성된다.
거기에 조인하고 싶은 시트를 드래그 하면 오른쪽가 같이 조인의 방법을 설정 할 수 있다.
여기서 빨간색 느낌표가 생성되는 것은, 기준이 되는 컬럼이 정의되지 않았다라는 에러 메세지이다.
이떄 기준이 되는 필드를 설정할 수 있다.
이렇게 조인의 조건을 하나 또는 여러개를 생성할 수 있다. 이름이 같으면 자동으로 생성되지만, 이름이 다르기 떄문에 수동으로 설정을 해주어야 한다.
이러한 것을 키 필드라고 부른다. 조인을 잘하기 위해선 키 필드를 잘 설정 해야한다.
이떄 안쪽 조인의 경우에는 inner Join으로 공통된 부분만 조인된다.
반면 왼쪽 조인, Left Join의 경우에는 왼쪽 시트에 있는 값에 교차되는 값만 생성된다.
따라서 왼쪽에만 있는 값에는 null값이 생성된다.
오른쪽 조인, Right Join 경우에는 마찬가지로 오른쪽 시트에 있는 값에 교차되는 값만 생성된다.
따라서 오른쪾에만 있는 값에는 null값이 생성된다.
전체 바깥 쪽 조인, Outer 조인에서는 양쪽 시트의 값을 모두 가져온다.
따라서 각각에만 있는 값은 null값을 나타낸다.
이번엔 또다른 두 엑셀 파일을 가지고 조인을 해보자.
오른쪽은 각각 제품 카테고리 별로 목표 매출이 나와있고, 왼쪽은 연도에 따른 판매 실적이 나와있다.
따라서 두개를 엮어서 어느 카테고리가 목표를 달성하기 위해 조인을 사용해보자.
두개가 자동으로 조인된 모습을 확인 할 수 있다.
하지만 여기서 Sales Target에서 값이 카테고리에 따라 모두 같은 값이 나오는데 이는 계산의 오류를 발생시킬 수 있다.
이를 확인하기 위해 새로운 시트를 만들어보자.
시트를만들고 카테고리와 매출을 시트에 넣고, 그후 Sales Target을 축에 드래그 해보자.
이렇게 되면, Sales Target에 비해 Sales가 턱없이 부족하게 나온다.
실제 목표는 5억 5천인 것에 비해
위의 시트에서는 27억 5천으로, 이전에
테이블에서 표시된 목표 매출이 모두
합산된 것을 확인할 수 있다.
이런식의 비교는 잘못된 분석을 할 수 있다. 이를 해결 하기 위해서는 관계라는 결합을 이용해서 해결할 수 있다.
C. 관계: 느슨한 결합
관계를 적용하기 위해서 연결하려는 시트를 들어서 드래그하여 선이 연결된 것을 확인하면 된다.
이렇게 Product Category를 기준으로 관계가 형성된 것을 볼 수 있다.이떄 조인과 다르게 관계의 영역을 설정해 주지 않아도 자동으로 관계가 생성된다.
이후 이 데이터를 가지고, 이전과 같은 시트를 제작해보면, 정확한 매출 목표가 표시되는 것을 확인 할 수 있다.
D. 블렌딩: 화면에서의 ad-hoc 결합
블랜딩은 데이터를 같이 불러와서 조인이나 관계를 형성하는 것이 아니고,
다른 엑셀 파일을 따로따로 가져온뒤에, 작업을 한다.
아래처럼 각각의 데이터를 바탕으로 분석을 할 수 있다.
여기서 블랜딩을 사용하려면 어떻게 해야할 까?
우선 Join Example 01 파일을 이용하여 시트를 만들자.
Join Example 01 데이터를 Primary 데이터 세트라고 부르며,
Join Example 03 데이터를 Secondary 데이터 세트라고 부른다.
이떄 데이터를 Join Example 03 으로 옮기면,
테이블 왼쪽에 주황색 바가 생긴것을 볼 수 있다.
이는 이 테이블을 세컨더리 데이터로 사용하고 있음을 의미한다.
또한 Product Category에서 주황색 체인이 생성된 것은
두 데이터의 이름이 같은 컬럼인 Product Category 를 기준으로 연결한다는 의미이다.
이떄 마찬가지로 Sales Target을 축 방향으로 이동시키면, 관계와 같은 결과가 나옴을 알 수 있다.
블랜딩은 두개의 서로 다른 데이터를 (오라클, my SQL) 가지고 와서 결합해서 분석 할떄 도움이 되는 방법이다.
'Tableau > Tableau basic' 카테고리의 다른 글
Tableau ch03 - 03. 이중축과 결합축 차트 (0) | 2022.09.01 |
---|---|
Tableau ch03 - 02. 필터 (0) | 2022.09.01 |
Tableau ch02 - 06. 목표 화면 리뷰 (0) | 2022.08.31 |
Tableau ch02 - 05. 대시보드와 스토리 (0) | 2022.08.31 |
Tableau ch02 - 04. 네가지 계산 (0) | 2022.08.30 |