[ML] Metrics

데이터/NLP 공부

IvoryLee 2023. 4. 9. 15:40

자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다.

이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다.

Accuracy

Precision

Recall

F1 score

Sensitivity

Specificity

ROC

AUC

EM (=Exact Match)

EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다.
모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다.

EM을 사용하여 평가한 연구:

BLEU (Bilingual Evaluation Understudy Score)

- 블루 스코어라고 읽는다.

추가 자료

AutoML

참고한 자료