본문 바로가기

논문 리뷰/HCI 논문 리뷰

[시각화] Visualization Techniques for Topic Model Checking

토픽 모델을 시각화 한 연구 논문입니다.

읽은 날짜  2023.10.13
카테고리   #DataVisualization, #TopicVisualization

 

 


Visualization Techniques for Topic Model Checking

 


ABSTRACT

배경 > 문제점 > 목표(RQ) > 방법 > 평가 > 결과 > 의의

 

배경/문제점: (2015년 당시) 토픽 모델링은 결과에 대한 명확한 근거가 부족하고 뚜렷하지 않은 요소에 대한 결정을 요구한다. (예를 들어, 주제 수 K를 설정하는 문제, 무시할 단어(stop list)를 설정하는 문제 등.) 그러므로 토픽 모델링은 여러번 실행하는 것이 적절하며, 실행 때마다 다른 결과가 나오기도 한다. 이러한 상황에서 매개변수 설정에 대한 결과는 분석, 요약, 시각화가 어려워 모델 비교가 어렵다. 

최종 사용자 관점에서는 모델의 작동 방식을 이해하기 어렵고, information-theoretic similarity 측정방식은 토픽에 대한 인문학적 해석(humanistic interpretation)과 다를 때가 있다. 

 

목표: Topic-Explorer 툴을 개발하여, document-document, topic-document 관계에 대한 토픽 모델을 시각화 한다.

말뭉치와 모델 모두에 대한 깊은 이해를 촉진할 수 있도록 토픽 모델을 보여주어, 사용자가 결과에 대한 해석적 가설을 생성하고 추가 실험을 제안할 수 있게 한다. 

 

의의: 이러한 방법은 토픽 모델링이 AI와 인지 모델링을 적용하기에 적합한지 평가하는데 도움이 된다. 

 

 


1. INTRODUCTION 

 아이템

설명

설명

 

■ 이 논문에서는,

Topic Explorer 툴은 제안한다. 이 툴은 사용자가 topic-document, document-document 공간과 인터랙션할 수 있게 하면서, 토픽의 분포를 비교하고 문서에 대한 토픽 구성을 시각적으로 볼 수 있게 한다. 


2. TOPIC MODEL CHECKING

Figure 1: Screenshot of the Topic Explorer showing a 20-topic model (left) and a 40-topic model (right) centered on the Stanford Encyclopedia of Philosophy (SEP) article on Turing Machines. The color bands within each article’s row show the topic distribution within that article, and the size of each band indicates the weight of that topic in the article. The combined width of each row indicates the similarity to the focal topic or document, measured by the quantity SIM(doc) = 1 − JSD(doc, f ocal), where JSD is the Jensen-Shannon distance (Lin 1991) between the word probability distributions of each item. Hovering over a topic shows the top 10 words in that topic and highlights the distribution of that topic across selected documents. By clicking a topic, the documents will reorder according to that topic’s weight and topic bars will reorder according to the topic weights in the highest weighted document. When a topic is selected, clicking “Top Documents for [Topic]” will navigate to a new page showing the most similar documents to that topic’s word distribution. By normalizing topics, the combined width of each bar expands so that topic weights per document can be compared. Additionally, users may select among different topic models using different values for K, the number of topics. Each topic’s label and color are arbitrarily assigned, but are consistent across articles in the browser for each topic model.

(Figure1 설명)

- Standford Encyclopedia of Philosophy(SEP)의 Turing Machines에 대한 기사의 토픽들을 Topic Explorer로 시각화 한 화면

- 왼쪽: K=20 (20개의 토픽을 추출)

- 오른쪽: K=40 (40개의 토픽을 추출)

- 각 토픽은 색상으로 구분하며, 색상은 따로 규칙없이 임의로 배정된다. 

- 각 기사행에서 color bands로 해당 기사내 토픽 분포를 나타내며, 밴드의 크기로 토픽의 비중을 표현한다.

- 각 행의 너비는 SIM(doc) = 1-JSD(doc, foca) 로 측정

- 각 토픽위로 마우스를 가져가면 해당 토픽에 해당하는 주요 단어 상위 10개를 표시한다. 

예) 우측 이미지에서 Topic3의 경우 set, theory, theorem, I, one, numbers, sets, x, proof,... 가 포함됨. 

 

 

 

 

2.1 subtitle

 아이템

설명

설명

 

2.2 subtitle

 아이템

설명

설명


 

7. CONCLUSION

 

  • 중요한 결론 - Topic Explorer라는 툴을 개발하여, LDA topic models에 대해 topic-document, document-document space를 시각화했다. 
  • 이론적 함의 
  • 실재적 함의 (practical implications) - 모델의 평가하는 방법이 아니라, 추출된 토픽에 대해 사람이 직접 토픽을 검증하는 방법(humanistic interpretation of topics)으로 model checking problem에 대해 다룬다. 
  • Future work
    • (1) 여러 토픽의 개수에 대해 동시에 모델링 할 수 있는 것을 고려.

 

 


 

나의 의견

논문을 선택한 이유

(1) 토픽 시각화에 대한 선행 연구를 조사하기 위해 읽었다. 

읽고 난 후 의견

  • 문서 내에서 토픽 구분 및 토픽 분포를 시각화 한 형태가 당연한 듯 하면서도, 이를 토픽 모델링 검증용으로 사용한 경우는 없었기에 유용한 방식이라고 생각한다.