자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다.
이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다.
Accuracy
Precision
Recall
F1 score
Sensitivity
Specificity
ROC
AUC
EM (=Exact Match)
EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다.
모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다.
EM을 사용하여 평가한 연구:
BLEU (Bilingual Evaluation Understudy Score)
- 블루 스코어라고 읽는다.
-
출처: https://wikidocs.net/31695
추가 자료
AutoML
출처: https://cloud.google.com/translate/automl/docs/evaluate
참고한 자료
'데이터 > NLP 공부' 카테고리의 다른 글
[IR] Beam Search (0) | 2023.04.09 |
---|---|
[Ranking] BM25 (=Best Matching 25) (0) | 2023.04.08 |
(-ing) [NLP] 쉽게 설명하는 RNN과 LSTM 그리고 Transformer 까지의 흐름 (0) | 2023.04.04 |