본문 바로가기

데이터/NLP 공부

[ML] Metrics

자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다. 

이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다. 

 

 

Accuracy

Precision

Recall

F1 score

 

Sensitivity 

Specificity

 

ROC 

AUC

 

EM (=Exact Match)

EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다.
모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다.

EM을 사용하여 평가한 연구: 

 

 

BLEU (Bilingual Evaluation Understudy Score)

- 블루 스코어라고 읽는다.

-

 

출처: https://wikidocs.net/31695

 

 


추가 자료

 

AutoML

 

출처: https://cloud.google.com/translate/automl/docs/evaluate

 


참고한 자료