InformationRetrieval 썸네일형 리스트형 [IR] (2019) Dataset search: a survey 올해 초에 읽었던 논문인데, 다른 곳에 정리해 두었던 것을 발견하여 옮겨왔습니다. 당시에 파일 검색 관련 주제에 관심이 있어서 읽어보았던 Dataset search 에 대한 survey 논문입니다. 읽은 날짜 2023.02.21 카테고리 #DatasetSearch, #InformationRetrieval Dataset search: a survey Authors: Adriane Chapman, Elena Simperl, Laura Koesten, George Konstantinidis, Luis-Daniel Ibáñez-Gonzalez, Emilia Kacprzak, Paul Groth DOI: https://doi.org/10.1007/s00778-019-00564-x Keywords: Dataset .. 더보기 [NLP] (ACL 2022) MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction Keyphrase Extraction을 위한 방법 중 unsupervised한 방식에서 주로 사용되었던 Phrase-Document-based 임베딩 비교하는 방식은, Phrase와 Document의 길이 차이로 인한 불안정성이 있었습니다. 이를 해결하기 위해 Document와 core-phrase를 마스킹한 Document의 임베딩을 비교한 MDERank 방법론을 소개하는 연구입니다. 읽은 날짜 2023.06.19 카테고리 #자연어처리논문리뷰, #Ranking, #InformationRetrieval MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction Authors: Linhan Zhang, Qi.. 더보기 [IR] Beam Search Beam Search 자연어 생성은, 단어들의 시퀀스를 아웃풋으로 예측해내는 태스크이다. Generation Model은 각각 decoding time step에서 전체 Vocabulary에 대한 각 확률 분포를 예측하고, 확률이 높은 것을 다음 예측 단어로 선택한다. 그러므로 모델의 예측 확률 분포를 이용해서, 각 타임 스텝의 단어로 변환하는 과정이 필요하다. 모델이 예측한 확률 분포에 따라 가능한 아웃풋 시퀀스 조합을 찾기 위해 탐색(Search) 작업이 필요한데, Vocabulary는 수 만개의 토큰을 가지고 있으므로 모든 경우의 수에 따른 전체 공간을 탐색하는 것은 불가능하다. 그래서 휴리스틱한 방법을 사용해 이것을 진행하며, 여기엔 Greedy Search 와 Beam Search 가 있다. 정.. 더보기 [Ranking] BM25 (=Best Matching 25) BM25 정의 BM25는 'Best Matching 25'의 줄임말 쿼리와의 관련성에 따라 문서의 연관성을 평가하여 순위를 매기는 데 사용되는 Ranking function에 사용되는 알고리즘이다. 설명 기존의 TF-IDF (Term Frequency-Inverse Document Frequency) 의 변형으로, 기존 TF-IDF 수식을 바탕으로하지만, 용어(term)와 문서(document)와의 관계를 더 잘 모델링하기 위해 추가 파라미터를 도입한다. Term Frequency (TF): term이 document에 나타나는 횟수 특정 문서에서 많이 언급된 term은 중요한 키워드일 것이라는 가정. Inverse Document Frequency (IDF): 모든 document를 고려했을 때, do.. 더보기 이전 1 다음