본문 바로가기

전체 글

[HCI] (CSCW'21) Improving Readers’ Awareness of Divergent Viewpoints by Displaying Agendas of Comments in Online News Discussions (a.k.a. Hagendas) 온라인 뉴스 기사에 대해 댓글로 의견을 나누는 과정에서, 기존의 인기 기반 추천 댓글은 특정 의견만 부각시킨다는 단점이 있어, 다양한 관점의 의견을 살펴볼 수 있도록 댓글 내용의 주요 관점들(agendas)를 제시하고 필터링하여 볼 수 있게 한 인터페이스(Hagendas)에 대한 연구 입니다. 대상이 되는 환경/데이터 : 온라인 뉴스 토론 (Online news discussion) 읽은 날짜 2023.04.21 카테고리 #Viewpoints, #News, #HCI논문리뷰 Improving Readers’ Awareness of Divergent Viewpoints by Displaying Agendas of Comments in Online News Discussions Authors: Taewook .. 더보기
[NLP] (ACL 2021) Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering Generative ODQA(Open-domain QA) model에 Text2SQL을 강화하여, 자연어 질문이 주어졌을 때, 텍스트/테이블 데이터 둘 다 멀티모달로 활용하여 질문에 대한 답을 추론하고 답의 컨텍스트에 따라 직접 정답 텍스트 또는 SQL을 생성하는 프레임워크에 대한 연구로, 기존 QA task 선행연구인 FiD (Fusion-in-Decoder)를 활용하였다. 읽은 날짜 2023.04.10 카테고리 #자연어처리논문리뷰, #NLP, #QuestionAnswering 연구 관련 코드: https://github.com/awslabs/durepa-hybrid-qa Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain.. 더보기
[ML] Metrics 자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다. 이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다. Accuracy Precision Recall F1 score Sensitivity Specificity ROC AUC EM (=Exact Match) EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다. 모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다. EM을 사용하여 평가한 연구: BLEU (Bilingual Evaluation Understudy Score) - 블루 스코어라.. 더보기
[IR] Beam Search Beam Search 자연어 생성은, 단어들의 시퀀스를 아웃풋으로 예측해내는 태스크이다. Generation Model은 각각 decoding time step에서 전체 Vocabulary에 대한 각 확률 분포를 예측하고, 확률이 높은 것을 다음 예측 단어로 선택한다. 그러므로 모델의 예측 확률 분포를 이용해서, 각 타임 스텝의 단어로 변환하는 과정이 필요하다. 모델이 예측한 확률 분포에 따라 가능한 아웃풋 시퀀스 조합을 찾기 위해 탐색(Search) 작업이 필요한데, Vocabulary는 수 만개의 토큰을 가지고 있으므로 모든 경우의 수에 따른 전체 공간을 탐색하는 것은 불가능하다. 그래서 휴리스틱한 방법을 사용해 이것을 진행하며, 여기엔 Greedy Search 와 Beam Search 가 있다. 정.. 더보기
[Ranking] BM25 (=Best Matching 25) BM25 정의 BM25는 'Best Matching 25'의 줄임말 쿼리와의 관련성에 따라 문서의 연관성을 평가하여 순위를 매기는 데 사용되는 Ranking function에 사용되는 알고리즘이다. 설명 기존의 TF-IDF (Term Frequency-Inverse Document Frequency) 의 변형으로, 기존 TF-IDF 수식을 바탕으로하지만, 용어(term)와 문서(document)와의 관계를 더 잘 모델링하기 위해 추가 파라미터를 도입한다. Term Frequency (TF): term이 document에 나타나는 횟수 특정 문서에서 많이 언급된 term은 중요한 키워드일 것이라는 가정. Inverse Document Frequency (IDF): 모든 document를 고려했을 때, do.. 더보기
[NLP] (ACL 2019) Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Language Models의 오래된 챌린지인 'long-term dependency(장기 의존성 문제)'와 context fragmentation 문제를 해결하기 위한 방법으로 제안된 Transformer-XL 모델에 대한 논문입니다. (XL => Extra Long) Transformer-XL 모델은, (1) Segment-level recurrence mechanism (세그먼트 수준의 재귀 메커니즘) (2) Positional encoding scheme (포지션 인코딩 체계)를 활용하여 위의 문제를 해결합니다. 읽은 날짜 2023.04.04 카테고리 #자연어처리논문리뷰, #NLP, #LongerTexts Transformer-XL: Attentive Language Models Beyond a .. 더보기
(-ing) [NLP] 쉽게 설명하는 RNN과 LSTM 그리고 Transformer 까지의 흐름 무언가를 새로 공부할 때 가장 큰 허들은 개념 및 용어와 친숙해지는 것이라고 생각한다. 시중에 많은 블로그나 책에 설명이 잘 되어있고, 자료도 많지만 대부분 그들이 친숙한 해당 분야의 언어로 작성되었기 때문에 (지식의 저주!) 새로 배우는 사람에겐 진입장벽이 크다. 당연한 개념인데도 용어가 낯설면 엄청 어렵고 멀게 느껴지기 마련이다. 난 NLP초보자니까 지식의 저주에 빠지지않게 조심하면서 쉽게 쉽게 풀어 정리해보겠다! 이 글의 목적은, 나와 비슷한 사람에게 도움을 주고, 또 나중에 시간이 지나서 내가 배운 것들이 잘 기억 안 날 때 나 스스로 다시 복기하기 위한 목적이다. "혹시 내용 중 틀린 게 있다면 알려주세요 :-)" 목차 1. 언어 데이터 = Sequential data 2. RNN (Recurr.. 더보기
Argument Map (논증 맵) Argument Map 이란? 분류: Information mapping ■ 정의 주장에 대한 이유와 증거 (argument의 구조)를 시각적으로 보여주는 다이어그램. Argument map (= argument diagram) ■ 기능 여러 스타일의 argument map이 있지만, 기능적으로 동일하며 argument의 개별 주장과 주장간의 관계를 표현한다. ■ 목적 Argument의 논리적 구조를 밝힌다. (to uncover logical structure of arguments) 언급되지 않은 추측을 식별한다. (to identify unstated assumptions) 결론을 지지하는 주장의 근거를 평가한다. (to evaluate the support an argument offers for.. 더보기