데이터/NLP 공부
[ML] Metrics
IvoryLee
2023. 4. 9. 15:40
자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다.
이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다.
Accuracy
Precision
Recall
F1 score
Sensitivity
Specificity
ROC
AUC
EM (=Exact Match)
EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다.
모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다.
EM을 사용하여 평가한 연구:
BLEU (Bilingual Evaluation Understudy Score)
- 블루 스코어라고 읽는다.
-
출처: https://wikidocs.net/31695
추가 자료
AutoML
출처: https://cloud.google.com/translate/automl/docs/evaluate
참고한 자료