<Beautiful Visualization (아름다운 시각화)> 책 내용 정리
- 책 정보 (한국어): https://www.goodreads.com/book/show/17829321
- 책 정보 (영어 원서): https://www.oreilly.com/library/view/beautiful-visualization/9781449379889/
목차
7장_ 당신의 선택이 당신이 누구인지를 밝힌다: 사회적 패턴의 발굴과 시각화
8장_ 미국 상원 소셜 네트워크 시각화 (1991 - 2009)
9장_ 빅 픽쳐: 검색과 탐색
10장_ 소셜 네트워크 시각화의 혼돈에서 아름다운 통찰을 찾아내기
11장_ 아름다운 역사: 위키백과 시각화 하기
12장_ 테이블을 트리로 교체
7장_ 당신의 선택이 당신이 누구인지를 밝힌다: 사회적 패턴의 발굴과 시각화
Data mining과 Data visualization의 공통점: data의 복잡한 패턴을 찾고 해석한다.
One-node analysis
Two-node analysis
Gradual inclusion 방법
- Strong tie부터 weak tie까지 점진적으로 threshold 낮추며 노드를 늘려감.
아마존 책 구입 데이터의 소셜 그래프
- “다양한 물품이 어떤 관심 집단에 embeddedness 되는지 볼 수 있어, 똑똑한 의사 결정 가능”
- 네트워크 상에서 hole이나 gap에 해당하는 상품 출시 아이디어를 낼 수 있다.
Ego network(자기 네트워크)
구조적 동등성 (structural equivalence)
- 네트워크에서 비슷한 역할을 하는 노드를 골라낸다. (예: 비슷한 책, 목차, 스토리 등.)
- 동등한 노드끼리는 교체 가능하다.
Social graph에는 네트워크의 다양한 역할(role)이 나타난다.
Social network 분석용 SW의 예: InFlow 3.1
바퀴 중심과 바큇살 패턴 (hub-and-spoke)
- 인터넷 같은 물리적 구조에서 나타남.
- 수많은 작은 노드가 몇 개의 큰 노드와 연결됨.
- Scale-free network (유유상종의 패턴)
3-core-network
- 각 노드가 적어도 다른 노드와 3개의 연결을 가지고 있는 네트워크
8장_ 미국 상원 소셜 네트워크 시각화 (1991 - 2009)
동일 data에 대한 다른 표현방식
- (1) 시계열 도표 (time-series plot): line graph로 사실을 명쾌하게 설명
- (2) 소셜 그래프 (social graph): 공감요소 가능 → 흥미+아름다움, 호기심 유발
Data Visualize → Storytelling
시각화에서 시간을 어떻게 표현할지 반드시 생각해 둘 것.
9장_ 빅 픽쳐: 검색과 탐색
Information retrieval의 두 방식
- Search - 특정 결과를 찾을 때 “찾아보는”
- Browse - 범주를 훑어볼 때 “둘러보는”
시각화 구성
(1) 유사도 정의
(2) 좌표화 방법
- 고차원: 2 dim., 3 dim. (차원 축소)
- 네트워크 노드: 좌표축이 없고, 모두 상대적임.
- 단점: 정확한 비교가 불가능
- 특정 두 쌍 사이의 관계를 정량화해서 설명하기 힘듦
- 너무 많은 cluster가 있을 경우, 이름 붙이기 힘들다. (겹치게 되는 경우)
- 축소 과정에서의 정보 손실
- 단점: 정확한 비교가 불가능
(3) 이름표 배치(labeling) + 분석
*게슈탈트 근접성 원리
Netflix Dataset
- 유사도: cosign similarity
- 너무 많은 cluster + 균일하지 않고 + 규모가 큼.
- 방법 (1) Top Ranking 몇 개만 labeling 하고, 나머지는 무작위로 표기
- 방법 (2) 격자로 배치, 각 격자 위치의 노드 1개만 labeling 한다.
*Cold start problem
10장_ 소셜 네트워크 시각화의 혼돈에서 아름다운 통찰을 찾아내기
Information visualization을 통한 데이터 표현은,
인간의 가장 강력한 지각능력을 최대한 효과적으로 활용하는 방법.
“패턴”, “차이”, “특이점
네트워크 분석
- Data의 속성만을 보기보다는, Data의 연결 관계와 그 결과로 나타나는 구조에 초점을 맞춰야 함.
Exploratory data analysis: 탐색적 데이터 분석
cf. 네트워크 이론 > Centrality
(1) Degree centrality
(2) Betweenness centrality
(3) Closeness centrality
테러리스트 소셜 네트워크
- 노드 통계적 속성 분석 → 개인의 속성 관심
- Social network data로 인과 관계 (causality) 추리는 힘들지만, 상관관계는 볼 수 있다.
참고 SW: Social Action
- 계산 속성(Computed attributes) 제공
- (통계적 중요도 측정치) degree, betweeness centrality, clustering algorithm
(추가 참고할만한 자료)
책 <티핑 포인트> 말콤 글레드웰
책 <링크> 알버트 라즐로 바라바시
책 <Small World>
11장_ 아름다운 역사: 위키백과 시각화 하기
(연구, 조사의 첫 단계 => 원 데이터를 찾는 일) --> 이후, 원형 디자인 --> 검토
위키피디아 (또는 위키백과)
- 데이터: 문서 편집판과 편집 역사의 모음
- 콘텐츠: Article
- 비콘텐츠: Discussion (talking page), Edit history (revision history, 두 편집판 간의 diff를 보여준다. )
저자가 진행한 프로젝트: 'History flow'
- 위키피디아의 편집 역사를 보여주는 시각화 프로토타입 (시각화 원형)
- 왼쪽에 시각화를, 오른족에 각 편집판 버전의 원본 내용을 보여줌.
- 원저자(authorship)표기하여 색상으로 구분 -> 이름의 java hashcode 색상에 따라 표시
*authorship: 익명 참여자, 로그인한 참여자
프로젝트 검토 및 인사이트 발견
(1) 편집 전쟁: 편집자들이 다른 사람의 변경을 되돌림
- 시각화에서 지그재그 패턴으로 나타남
(2) 문서 훼손 (악의적으로 문서 내용을 지움) 사례가 보통 몇 분 밖에 지속되지 않음
- 판을 시간간격으로 배치, 편집일로 균등하게 배치
'크로모그램(Chromogram)' 프로젝트(2006)
- superuser인 admins들의 편집의 역사를 분석
- pixel-filling 시각화 방식: 방대한 데이터셋을 렌더링 하는 기법 중 하나
- 색상: 어느 문서인지를 해시코드 기법으로 표현
(해시코드 기법: 숫자는 회색에서 검은색으로, 알파벳 a에서 z까지는 빨간색에서 보라색의 스펙트럼으로 색을 지정)
- 픽셀 하나는 관리자가 편집한 각각의 내용을 의미하며, 왼쪽에서 오른쪽으로, 위에서 아래로 시간순으로 배치하였다.
- 픽셀 배치를 통해 각 편집자(admin)의 편집 패턴을 볼 수 있다.
예 1) 어떤 주제를 좋아하여 주로 편집하는 사람 -> 하나의 색이 반복적으로 계속 나옴.
예 2) 알파벳 순서로 토픽을 편집하는 사람 -> 무지개 패턴 (주로 bot이 자동 편집 기능을 수행할 때 나타남.)
- 특이사항: a로 시작하는 문서가 z로 시작하는 문서보다 더 자주 편집되었다.
시각화에서의 Golden Rules
(1) 실제 데이터로 작업하라.
(2) 우선적으로, 그리고 자주 시각화를 하라. 하지만 그만둘 때를 파악하라.
(3) 더 큰 과정을 감지하라.
"시각화는 숫자에 깊이와 상세함을 더함으로써 신뢰성을 높인다!"
[추가로 공부할 부분]
*요하이 벤클러(Yochai Benkler)의 '동료 생산 모형(Peer production)'
*인간 동역학(human dynamics)
12장_ 테이블을 트리로 교체
학술 소프트웨어 프로젝트
- 최대한 빨리 SW출시 후, 프로젝트 전반적인 목적에 맞도록 SW를 개선하고 재설계해야 함.
- 예: Parallel Sets 프로그램 (타이타닉 data를 활용하여 시각화한 프로젝트 )
범주형 데이터 (Categorical data)의 시각화 기법
- 트리 맵, 모자이크, Parallel Sets
연속 수치형 데이터 (continuous numerical data)의 시각화 기법
- 연속 수치형 데이터도 분석에 도움이 될 만한 그룹으로 분류하여 categorical data로 분석하는 경우가 많음.
평행 좌표계 (Parallel Coordinates)
- 리본
- 서로 겹치는 범주를 이음
- 범주가 많으면 → 리본 개수가 늘어남 → 복잡하고, 인터랙션 넣기 힘들어짐.
- 리본의 개선:
- Standard
- Bundled
- Sankey diagram과 시각적으로 비슷하지만, 개념적으로는 다름.
데이터를 집합의 관점에서 보는 아이디어
- 데이터 값을 모아서, 부분집합으로 분리
- 조건부 백분율(conditional percentage)을 이용해 가능한 범주 조합 개수를 뽑고, 각 가능한 쌍을 hashtable로 관리
- 예: Polaris, Tableau
'데이터 > 데이터 시각화 공부' 카테고리의 다른 글
[데이터 시각화] The Truthful Art 내용 정리 (In Progress) (진실을 드러내는 데이터 시각화의 과학과 예술) (0) | 2024.06.23 |
---|---|
[데이터 시각화] Visual Complexity 내용 정리 (In Progress) (0) | 2023.08.06 |
[데이터 시각화] 시각화 라이브러리 종류 (0) | 2023.06.22 |