본문 바로가기

데이터/NLP 공부

[ML] Metrics 자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다. 이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다. Accuracy Precision Recall F1 score Sensitivity Specificity ROC AUC EM (=Exact Match) EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다. 모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다. EM을 사용하여 평가한 연구: BLEU (Bilingual Evaluation Understudy Score) - 블루 스코어라.. 더보기
[IR] Beam Search Beam Search 자연어 생성은, 단어들의 시퀀스를 아웃풋으로 예측해내는 태스크이다. Generation Model은 각각 decoding time step에서 전체 Vocabulary에 대한 각 확률 분포를 예측하고, 확률이 높은 것을 다음 예측 단어로 선택한다. 그러므로 모델의 예측 확률 분포를 이용해서, 각 타임 스텝의 단어로 변환하는 과정이 필요하다. 모델이 예측한 확률 분포에 따라 가능한 아웃풋 시퀀스 조합을 찾기 위해 탐색(Search) 작업이 필요한데, Vocabulary는 수 만개의 토큰을 가지고 있으므로 모든 경우의 수에 따른 전체 공간을 탐색하는 것은 불가능하다. 그래서 휴리스틱한 방법을 사용해 이것을 진행하며, 여기엔 Greedy Search 와 Beam Search 가 있다. 정.. 더보기
[Ranking] BM25 (=Best Matching 25) BM25 정의 BM25는 'Best Matching 25'의 줄임말 쿼리와의 관련성에 따라 문서의 연관성을 평가하여 순위를 매기는 데 사용되는 Ranking function에 사용되는 알고리즘이다. 설명 기존의 TF-IDF (Term Frequency-Inverse Document Frequency) 의 변형으로, 기존 TF-IDF 수식을 바탕으로하지만, 용어(term)와 문서(document)와의 관계를 더 잘 모델링하기 위해 추가 파라미터를 도입한다. Term Frequency (TF): term이 document에 나타나는 횟수 특정 문서에서 많이 언급된 term은 중요한 키워드일 것이라는 가정. Inverse Document Frequency (IDF): 모든 document를 고려했을 때, do.. 더보기
(-ing) [NLP] 쉽게 설명하는 RNN과 LSTM 그리고 Transformer 까지의 흐름 무언가를 새로 공부할 때 가장 큰 허들은 개념 및 용어와 친숙해지는 것이라고 생각한다. 시중에 많은 블로그나 책에 설명이 잘 되어있고, 자료도 많지만 대부분 그들이 친숙한 해당 분야의 언어로 작성되었기 때문에 (지식의 저주!) 새로 배우는 사람에겐 진입장벽이 크다. 당연한 개념인데도 용어가 낯설면 엄청 어렵고 멀게 느껴지기 마련이다. 난 NLP초보자니까 지식의 저주에 빠지지않게 조심하면서 쉽게 쉽게 풀어 정리해보겠다! 이 글의 목적은, 나와 비슷한 사람에게 도움을 주고, 또 나중에 시간이 지나서 내가 배운 것들이 잘 기억 안 날 때 나 스스로 다시 복기하기 위한 목적이다. "혹시 내용 중 틀린 게 있다면 알려주세요 :-)" 목차 1. 언어 데이터 = Sequential data 2. RNN (Recurr.. 더보기