본문 바로가기

데이터/데이터 시각화 공부

[데이터 시각화] Beautiful Visualization(아름다운 시각화) 내용 정리 (In Progress)


<Beautiful Visualization (아름다운 시각화)>  책 내용 정리

 

 

Beautiful Visualization (by Julie Steele, Noah Illinsky)


목차

7장_ 당신의 선택이 당신이 누구인지를 밝힌다: 사회적 패턴의 발굴과 시각화
8장_ 미국 상원 소셜 네트워크 시각화 (1991 - 2009)
9장_ 빅 픽쳐: 검색과 탐색
10장_ 소셜 네트워크 시각화의 혼돈에서 아름다운 통찰을 찾아내기
11장_ 아름다운 역사: 위키백과 시각화 하기
12장_ 테이블을 트리로 교체

 


 


7장_ 당신의 선택이 당신이 누구인지를 밝힌다: 사회적 패턴의 발굴과 시각화

Data mining과 Data visualization의 공통점: data의 복잡한 패턴을 찾고 해석한다.

One-node analysis

Two-node analysis

Gradual inclusion 방법

  • Strong tie부터 weak tie까지 점진적으로 threshold 낮추며 노드를 늘려감.

아마존 책 구입 데이터의 소셜 그래프

  • “다양한 물품이 어떤 관심 집단에 embeddedness 되는지 볼 수 있어, 똑똑한 의사 결정 가능”
  • 네트워크 상에서 hole이나 gap에 해당하는 상품 출시 아이디어를 낼 수 있다.

Ego network(자기 네트워크)

구조적 동등성 (structural equivalence)

  • 네트워크에서 비슷한 역할을 하는 노드를 골라낸다. (예: 비슷한 책, 목차, 스토리 등.)
  • 동등한 노드끼리는 교체 가능하다.

Social graph에는 네트워크의 다양한 역할(role)이 나타난다.

Social network 분석용 SW의 예: InFlow 3.1

바퀴 중심과 바큇살 패턴 (hub-and-spoke)

  • 인터넷 같은 물리적 구조에서 나타남.
  • 수많은 작은 노드가 몇 개의 큰 노드와 연결됨.
  • Scale-free network (유유상종의 패턴)

3-core-network

  • 각 노드가 적어도 다른 노드와 3개의 연결을 가지고 있는 네트워크

 


8장_ 미국 상원 소셜 네트워크 시각화 (1991 - 2009)

동일 data에 대한 다른 표현방식

  • (1) 시계열 도표 (time-series plot): line graph로 사실을 명쾌하게 설명
  • (2) 소셜 그래프 (social graph): 공감요소 가능 → 흥미+아름다움, 호기심 유발

Data Visualize → Storytelling

시각화에서 시간을 어떻게 표현할지 반드시 생각해 둘 것.

 


9장_ 빅 픽쳐: 검색과 탐색

Information retrieval의 두 방식

  • Search - 특정 결과를 찾을 때 “찾아보는”
  • Browse - 범주를 훑어볼 때 “둘러보는”

시각화 구성

(1) 유사도 정의

(2) 좌표화 방법

  • 고차원: 2 dim., 3 dim. (차원 축소)
  • 네트워크 노드: 좌표축이 없고, 모두 상대적임.
    • 단점: 정확한 비교가 불가능
      • 특정 두 쌍 사이의 관계를 정량화해서 설명하기 힘듦
      • 너무 많은 cluster가 있을 경우, 이름 붙이기 힘들다. (겹치게 되는 경우)
      • 축소 과정에서의 정보 손실

(3) 이름표 배치(labeling) + 분석

*게슈탈트 근접성 원리

Netflix Dataset

  • 유사도: cosign similarity
  • 너무 많은 cluster + 균일하지 않고 + 규모가 큼.
  • 방법 (1) Top Ranking 몇 개만 labeling 하고, 나머지는 무작위로 표기
  • 방법 (2) 격자로 배치, 각 격자 위치의 노드 1개만 labeling 한다.

*Cold start problem

*graphviz.org

 


10장_ 소셜 네트워크 시각화의 혼돈에서 아름다운 통찰을 찾아내기

Information visualization을 통한 데이터 표현은,

인간의 가장 강력한 지각능력을 최대한 효과적으로 활용하는 방법.

“패턴”, “차이”, “특이점

네트워크 분석

  • Data의 속성만을 보기보다는, Data의 연결 관계와 그 결과로 나타나는 구조에 초점을 맞춰야 함.

Exploratory data analysis: 탐색적 데이터 분석

cf. 네트워크 이론 > Centrality

(1) Degree centrality

(2) Betweenness centrality

(3) Closeness centrality

테러리스트 소셜 네트워크

  • 노드 통계적 속성 분석 → 개인의 속성 관심
  • Social network data로 인과 관계 (causality) 추리는 힘들지만, 상관관계는 볼 수 있다.

참고 SW: Social Action

  • 계산 속성(Computed attributes) 제공
    • (통계적 중요도 측정치) degree, betweeness centrality, clustering algorithm

(추가 참고할만한 자료)

책 <티핑 포인트> 말콤 글레드웰

책 <링크> 알버트 라즐로 바라바시

책 <Small World>

 


11장_ 아름다운 역사: 위키백과 시각화 하기

(연구, 조사의 첫 단계 => 원 데이터를 찾는 일) --> 이후, 원형 디자인 --> 검토

 

위키피디아 (또는 위키백과)

- 데이터: 문서 편집판과 편집 역사의 모음

- 콘텐츠: Article

- 비콘텐츠: Discussion (talking page), Edit history (revision history, 두 편집판 간의 diff를 보여준다. )

 

저자가 진행한 프로젝트: 'History flow'

- 위키피디아의 편집 역사를 보여주는 시각화 프로토타입 (시각화 원형)

- 왼쪽에 시각화를, 오른족에 각 편집판 버전의 원본 내용을 보여줌.

- 원저자(authorship)표기하여 색상으로 구분 -> 이름의 java hashcode 색상에 따라 표시
*authorship: 익명 참여자, 로그인한 참여자

 

프로젝트 검토 및 인사이트 발견

(1) 편집 전쟁: 편집자들이 다른 사람의 변경을 되돌림

- 시각화에서 지그재그 패턴으로 나타남

(2) 문서 훼손 (악의적으로 문서 내용을 지움) 사례가 보통 몇 분 밖에 지속되지 않음

- 판을 시간간격으로 배치, 편집일로 균등하게 배치 

 

'크로모그램(Chromogram)' 프로젝트(2006)

- superuser인 admins들의 편집의 역사를 분석

- pixel-filling 시각화 방식: 방대한 데이터셋을 렌더링 하는 기법 중 하나

- 색상: 어느 문서인지를 해시코드 기법으로 표현

   (해시코드 기법: 숫자는 회색에서 검은색으로, 알파벳 a에서 z까지는 빨간색에서 보라색의 스펙트럼으로 색을 지정)

- 픽셀 하나는 관리자가 편집한 각각의 내용을 의미하며, 왼쪽에서 오른쪽으로, 위에서 아래로 시간순으로 배치하였다. 

- 픽셀 배치를 통해 각 편집자(admin)의 편집 패턴을 볼 수 있다. 

예 1) 어떤 주제를 좋아하여 주로 편집하는 사람 -> 하나의 색이 반복적으로 계속 나옴.

예 2) 알파벳 순서로 토픽을 편집하는 사람 -> 무지개 패턴 (주로 bot이 자동 편집 기능을 수행할 때 나타남.)

- 특이사항: a로 시작하는 문서가 z로 시작하는 문서보다 더 자주 편집되었다. 

 

시각화에서의 Golden Rules

(1) 실제 데이터로 작업하라.

(2) 우선적으로, 그리고 자주 시각화를 하라. 하지만 그만둘 때를 파악하라.

(3) 더 큰 과정을 감지하라. 

 

"시각화는 숫자에 깊이와 상세함을 더함으로써 신뢰성을 높인다!"

 

[추가로 공부할 부분]

*요하이 벤클러(Yochai Benkler)의 '동료 생산 모형(Peer production)'

*인간 동역학(human dynamics)


12장_ 테이블을 트리로 교체

학술 소프트웨어 프로젝트

  • 최대한 빨리 SW출시 후, 프로젝트 전반적인 목적에 맞도록 SW를 개선하고 재설계해야 함.
  • 예: Parallel Sets 프로그램 (타이타닉 data를 활용하여 시각화한 프로젝트 )

범주형 데이터 (Categorical data)의 시각화 기법

  • 트리 맵, 모자이크, Parallel Sets

연속 수치형 데이터 (continuous numerical data)의 시각화 기법

  • 연속 수치형 데이터도 분석에 도움이 될 만한 그룹으로 분류하여 categorical data로 분석하는 경우가 많음.

평행 좌표계 (Parallel Coordinates)

  • 리본
    • 서로 겹치는 범주를 이음
    • 범주가 많으면 → 리본 개수가 늘어남 → 복잡하고, 인터랙션 넣기 힘들어짐.
    • 리본의 개선:
      • Standard
      • Bundled
    • Sankey diagram과 시각적으로 비슷하지만, 개념적으로는 다름.

데이터를 집합의 관점에서 보는 아이디어

  • 데이터 값을 모아서, 부분집합으로 분리
  • 조건부 백분율(conditional percentage)을 이용해 가능한 범주 조합 개수를 뽑고, 각 가능한 쌍을 hashtable로 관리
  • 예: Polaris, Tableau