토픽 모델을 시각화 한 연구 논문입니다.
읽은 날짜 2023.10.13
카테고리 #DataVisualization, #TopicVisualization
Visualization Techniques for Topic Model Checking
- Authors: Jaimie Murdock and Colin Allen
- DOI: https://ojs.aaai.org/index.php/AAAI/article/view/9268
- Keywords:
- Issue Date: March, 2015
- Publisher: Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence
ABSTRACT
배경 > 문제점 > 목표(RQ) > 방법 > 평가 > 결과 > 의의
배경/문제점: (2015년 당시) 토픽 모델링은 결과에 대한 명확한 근거가 부족하고 뚜렷하지 않은 요소에 대한 결정을 요구한다. (예를 들어, 주제 수 K를 설정하는 문제, 무시할 단어(stop list)를 설정하는 문제 등.) 그러므로 토픽 모델링은 여러번 실행하는 것이 적절하며, 실행 때마다 다른 결과가 나오기도 한다. 이러한 상황에서 매개변수 설정에 대한 결과는 분석, 요약, 시각화가 어려워 모델 비교가 어렵다.
최종 사용자 관점에서는 모델의 작동 방식을 이해하기 어렵고, information-theoretic similarity 측정방식은 토픽에 대한 인문학적 해석(humanistic interpretation)과 다를 때가 있다.
목표: Topic-Explorer 툴을 개발하여, document-document, topic-document 관계에 대한 토픽 모델을 시각화 한다.
말뭉치와 모델 모두에 대한 깊은 이해를 촉진할 수 있도록 토픽 모델을 보여주어, 사용자가 결과에 대한 해석적 가설을 생성하고 추가 실험을 제안할 수 있게 한다.
의의: 이러한 방법은 토픽 모델링이 AI와 인지 모델링을 적용하기에 적합한지 평가하는데 도움이 된다.
1. INTRODUCTION
■ 아이템
설명
설명
■ 이 논문에서는,
Topic Explorer 툴은 제안한다. 이 툴은 사용자가 topic-document, document-document 공간과 인터랙션할 수 있게 하면서, 토픽의 분포를 비교하고 문서에 대한 토픽 구성을 시각적으로 볼 수 있게 한다.
2. TOPIC MODEL CHECKING
(Figure1 설명)
- Standford Encyclopedia of Philosophy(SEP)의 Turing Machines에 대한 기사의 토픽들을 Topic Explorer로 시각화 한 화면
- 왼쪽: K=20 (20개의 토픽을 추출)
- 오른쪽: K=40 (40개의 토픽을 추출)
- 각 토픽은 색상으로 구분하며, 색상은 따로 규칙없이 임의로 배정된다.
- 각 기사행에서 color bands로 해당 기사내 토픽 분포를 나타내며, 밴드의 크기로 토픽의 비중을 표현한다.
- 각 행의 너비는 SIM(doc) = 1-JSD(doc, foca) 로 측정
- 각 토픽위로 마우스를 가져가면 해당 토픽에 해당하는 주요 단어 상위 10개를 표시한다.
예) 우측 이미지에서 Topic3의 경우 set, theory, theorem, I, one, numbers, sets, x, proof,... 가 포함됨.
2.1 subtitle
■ 아이템
설명
설명
2.2 subtitle
■ 아이템
설명
설명
7. CONCLUSION
- 중요한 결론 - Topic Explorer라는 툴을 개발하여, LDA topic models에 대해 topic-document, document-document space를 시각화했다.
- 이론적 함의 -
- 실재적 함의 (practical implications) - 모델의 평가하는 방법이 아니라, 추출된 토픽에 대해 사람이 직접 토픽을 검증하는 방법(humanistic interpretation of topics)으로 model checking problem에 대해 다룬다.
- Future work
- (1) 여러 토픽의 개수에 대해 동시에 모델링 할 수 있는 것을 고려.
나의 의견
논문을 선택한 이유
(1) 토픽 시각화에 대한 선행 연구를 조사하기 위해 읽었다.
읽고 난 후 의견
- 문서 내에서 토픽 구분 및 토픽 분포를 시각화 한 형태가 당연한 듯 하면서도, 이를 토픽 모델링 검증용으로 사용한 경우는 없었기에 유용한 방식이라고 생각한다.