논문 리뷰/NLP 논문 리뷰

[NLP] (EMNLP 2021) Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer?

IvoryLee 2023. 4. 22. 01:30
영어로만 학습된 BERT 모델이, 여러 언어(multilingual)로 학습될 때, 언어 간(cross-linguistic) 문법적인 차이점을 어떻게 인지하는지에, 그리고 BERT를 여러 언어로 학습 시킬 때 transfer가 어떻게 일어나는지에 대한 연구 입니다. 

읽은 날짜  2023.04.20
카테고리   #자연어처리논문리뷰, #Cross-linguistic, #Multilingual

 

급하게 정리한 탓에 내용이 조금 부족한데, 나중에 여유될 때 좀 더 자세히 다시 읽고, 보완할 예정입니다. (2023/04/21)

 


Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer?

 


ABSTRACT

배경: Multilingual BERT (mBERT)는 cross-lingual 에서 언어의 구문(문법)적인 능력(syntactic ability)를 입증해왔고, 제로샷 cross-lingual transfer를 통해 효과적으로 구문 지식(syntactic knowledge)를 전달할 수 있었다. 일부 언어 사이에는 이러한 transfer가 더 성공적이었는데, 무엇이 이런 차이를 만드는지, 그리고 이 것이 언어간의 차이를 공정하게 반영하는지에 대해 이해된 바가 없다.

목표: typologically(유형학적)으로 서로 다른 24개의 언어에 대한 grammatical relations 분포를 조사한다.

방법:

기존 언어학의 Linguistic formalism(언어 형식주의)관점에서 언어들의 구문적인 차이와 mBERT에서 클러스터링되는 언어들의 구문적인 차이를 비교한다.

결과:

  • 언어학 관점과 mBERT에서의 언어 구문적인 차이가 매우 일치한다.
  • 이러한 차이는 제로샷 transfer 에서 중요한 역할을 하며, mBERT가 언어적 다양성에 부합하는 방식으로 언어를 적절하게 인코딩하고, cross-lingual transfer 메커니즘에 대한 인사이트를 제공한다는 것으로 해석할 수 있다.

등장 배경, 이론적 기반, 기존 연구와의 차별점, 사용한 데이터, 모델/방법론, 실험 세팅, 실험 결과, 결과 분석, 이 논문에 대한 내 생각


1. 등장 배경 

Multilingual BERT (mBERT)는 cross-lingual 에서 언어의 구문(문법)적인 능력(syntactic ability)를 입증해왔고, 제로샷 cross-lingual transfer를 통해 효과적으로 구문 지식(syntactic knowledge)를 전달할 수 있었다.

일부 언어 사이에는 이러한 transfer가 더 성공적이었는데, 무엇이 이런 차이를 만드는지, 그리고 이 것이 언어간의 차이를 공정하게 반영하는지에 대해 이해된 바가 없다.

 

■ 이 논문에서는

typologically(유형학적)으로 서로 다른 24개의 언어에 대한 grammatical relations 분포를 조사한다.


2. 이론적 기반 

 

기존 언어학의 Linguistic formalism(언어 형식주의)관점에서 언어들의 구문적인 차이에 대한 연구

  • 매개변수 이론을 기반으로 형식적 구문 거리 측정
    • Ceolin et al.(2020) - Andrea Ceolin, Cristina Guardiano, Monica Alexandrina Irimia, and Giuseppe Longobardi. 2020. Formal Syntax and Deep History. Frontiers in Psychology, 11
    • Chompsky(2010) - Noam Chomsky. 2010 Lectures on Government and Binding: The Pisa Lectures. De Gruyter Mouton.
  • 서로 다른 언어의 구문 비교
    • Longobardi and Guardiano(2009) - Giuseppe Longobardi and Cristina Guardiano. 2009. Evidence for syntax as a signal of historical relatedness. Lingua, 119(11):1679–1706.

 


4. 모델/데이터 및 실험 

  • 모델/데이터: mBERT: BERT-base 모델에 104개 언어의 Wikipedia corpora를 각 언어별로 concatenation하여 학습
  • 실험: Cross-linguistic syntactic difference (언어 간의 통사론적인 차이)를 측정

언어 L은 해당 언어가 사용하는 파라미터 SL 목록으로 표기

언어 LA와 LB사이의 통사론적 거리는 Jaccard distance를 사용함.

 

언어 LA, LB의 Jaccard distance

 


5. 결과 

 

(1) 언어학 관점과 mBERT에서의 언어 구문적인 차이가 매우 일치한다.

  • 이러한 차이는 제로샷 transfer 에서 중요한 역할을 하며, mBERT가 언어적 다양성에 부합하는 방식으로 언어를 적절하게 인코딩하고, cross-lingual transfer 메커니즘에 대한 인사이트를 제공한다는 것으로 해석할 수 있다.

영어와 스페인어의 경우, 영어와 일본어보다 더 비슷한 것으로 인식하였음.

Figure 2: Visualization of the representations of different grammatical relations derived from the 7th layer of mBERT. English is shown more similar to Spanish than to Japanese as to the distributions of grammatical relations such as case, obj and aux.

 

Formal syntactic distance와 mBERT의 비교

  • x: mBERT가 예측한 점수 (the cross-linguistic syntactic difference induced from mBERT)
  • y: 촘스키가 설정한 점수 (the formal syntactic distance)
  • 두 값이 유사하며, 문법적인 현상을 비슷하게 잘 포착한다는 것을 알 수 있음.

Figure 3

 

 

Glotolog와 Grammatical relations이 유사하게 mBERT가 잘 포착했다.

  • 왼쪽: mBERT에서 클러스터링 된 구조 (dendrogram)
  • 오른쪽: Glottolog(글로톨로그)에서의 Gold phylogenetic tree

Figure 4: Left: Hierarchical clustering based on crosslinguistic syntactic difference derived from mBERT. Right: The gold phylogenetic tree from Glottolog (Hammarström et al., 2021). IE stands for the IndoEuropean family.

 

(2) Fine tuning의 효과

  • 언어간의 차이점을 줄이고, 언어간 유사한 현상이 있으면 그 관계를 잘 포착한다.

 

 


 

나의 의견

논문을 선택한 이유

(1) 언어 간 유사성은 꼭 NLP적 관점이 아니더라도 문화적인 관점에서도 재미있는 주제라 생각되어 이 논문을 선택하였다. 

 

읽고 난 후 의견

  • NLP를 늦게 접하게 되어, multilingual한 모델들의 존재를 당연하게 받아들이고 있었는데, 이 논문을 통해 최초에 영어 위주의 언어 모델만 있던 상황에서 cross-linguistic, multilingual한 모델 관련하여 많은 고민이 있었다는 것을 알게 되었다. 
  • 연구 결과 그래프와 도표를 보며 매우 흥미있게 느꼈고, BERT가 이러한 차이점을 인간이 분류했던 것과 비슷하게 포착한다는 것이 재미있었다.
  • 꼭 사람의 언어가 아니더라도 언어와 비슷한 ‘커뮤니케이션’ 방식으로 쓰이는 것이라면 그 방법을 텍스트화 하여 분류해볼 수 있겠다고 생각했다. 쉽게는 컴퓨터언어(C, java, python 등)을 테스트해도 좋을 것 같고, 수화 언어를 잘 임베딩해서 분류하는 것도 의미가 있는 연구가 될 것 같다.