본문 바로가기
언어학

[논문 리뷰] 포르투갈어의 유머 인식을 위한 코퍼스 및 기준

by skyjwoo 2021. 1. 6.
728x90
반응형

 

LREC 2020에 올라온 논문 리뷰입니다. 

 

리뷰할 논문의 제목은 다음과 같습니다. 

Corpora and Baselines for Humour Recognition in Portuguese

- Hugo Gonçalo Oliveira, André Clemêncio, Ana Alves

 

교내 학회에서 1주일에 한 편씩 논문 리뷰를 진행하기로 했는데, 제목이 매우 매력적이어서 리뷰 대상으로 선정했다. 

최근에 유머 관련 글도 쓰면서 유머를 어떻게 분석해야 할까에 대한 고민이 있었는데, 이 논문을 보니 꽤 재밌게 풀어낸 것 같다. 

 

I. 서론, 코퍼스 구축

 

이 논문의 연구 대상은 제목에서도 알 수 있다시피 포르투갈어의 유머 인식이다. 이를 위해 코퍼스를 구축하고 모델 생성 및 성능을 평가하였다. 이를 통해 향후 포어(포르투갈어) 유머 인식 연구에 대한 기준점을 제시하고자 하였다고 한다.

 

이들은 포어 유머 인식에 대한 연구가 부족함을 인지하고, '유머' 자체가 언어 능력을 나타내는 중요한 표현 기술이라는 점에서 이 연구의 필요성에 대해 얘기하였다. 

 

코퍼스는 총 3개의 코퍼스를 구축하였다. 

연구에서 구축한 3종류의 코퍼스

One-liners는 짧은 농담으로 이뤄진 코퍼스이다. Anedotario, Caderno 등은 코퍼스의 출처를 의미하며, Positive, Negative는 각 Humorous, Non-Humorous한 데이터를 의미한다. Headlines는 신문 기사의 헤드라인으로 이워진 코퍼스이며, All은 One-liners와 Headlines를 합한 코퍼스이다. 여기서 전체 코퍼스가 헤드라인만으로 이뤄진 코퍼스보다 비중이 줄었는데, 이는 One-liners와 그 비율을 맞추기 위해 일부를 선별했다고 한다. 또 각 Positive, Negative 데이터를 선별함에 있어 유머의 차이를 보여준다고 생각되는 표현이나 구조를 제외하고 나머지의 구조는 대부분 비슷하도록 구성했다고 한다. 

 

 

II. 실험 과정

이렇게 구축된 코퍼스로 3가지 모델로 실험을 진행했다고 한다. 나이브 베이스(Naïve Bayes), SVM(서포트 벡터 머신), Random Forest 기법을 사용했다고 한다. 이때 각 모델의 입력값을 기준으로 3가지로 분류하여 실험을 진행했는데, 다음과 같다. 

 

  1. Content feature만 적용. 즉, 텍스트에 사용된 단어(토큰)들만을 이용한 feature, TF-IDF, n-gram으로 단어(토큰)들을 수치화한 후 입력값으로 사용한 방식
  2. Humour 관련 feature 사용. 개체명, 긍부정어 수, 반의어 관계 수, 단어 간 유사성 등 Humor 관련 feature 만을 수치화 하여 입력값으로 사용한 방식
  3. 위의 1. 2.를 모두 적용한 방식

III. 결과

 

1. content feature만 적용한 경우

content-feature만 적용한 경우

 

F1이 One-liners에서 가장 높았음을 알 수 있다. 위의 자료는 SVM을 사용했을 때 얻은 결과이며, SVM 사용시 결과가 가장 성능이 좋았다고 한다. 

 

2. Humour relevant feature만 적용한 경우

Humor-relevant feature만 적용

전체적으로 content feature만 사용한 경우보다 적은 성능을 보였음을 알 수 있다. 

 

3. 둘 다 적용한 경우

 

F1이 전체적으로 상승한 모습을 살펴볼 수 있다. Random Forest 모델은 Precision 측면에서 높은 성능 향상을 보여주었다. 

 

 

Humor 판단에 있어 가장 높은 관련성을 보인 feature들

관련성 높은 feature들

Out-of-vocabulary(OOV): 사전에 없는 단어들, 신조어들이 주로 사용되었음을 알 수 있다.

#NEs: 개체명의 수

Char unigrams: 가장 많이 나타난 글자의 빈도 수, 운율(라임, rhyme)과 연결지어 볼 수 있겠다. 

NE 'Person': 사람 개체명, 모든 코퍼스에서 중요하게 다뤄졌다.

Ambiguity #2: 단어의 원형(lemma)들 중 가장 많은 의미를 가진 원형의 의미 수. 즉, 텍스트 내의 단어들 중 의미가 가장 많은 단어의 의미 수, 이 역시 모든 코퍼스에서 중요하게 다뤄졌다.

 

IV. 한계 및 개선 가능성

데이터 수가 너무 빈약하였다. (많아봐야 2000개..)

앞으로 딥러닝 모델을 사용하거나 데이터 셋을 추가하는 등의 개선 가능성이 열려있다.

 

 

개인 의견

데이터가 부족한 것은 맞지만, 최근에 관심있었던 유머 관련한 자연어 처리 분석 방법을 참고할 수 있어서 좋았고, 딥러닝을 사용하지 않고도 저정도의 성능을 냈다는 점과 raw 데이터 외에 다른 feature들을 분석적으로 추가하여 더 나은 성능을 냈다는 점이 인상적이었다. 감성분석이나 다른 분야에도 이와 같은 feature engineering을 통해 더 좋은 성능을 내는 연구를 해보고 싶고, 통계 공부 좀 해야겠다..

 

참고 자료

Oliveira, H.G., Clemêncio, A., & Alves, A. (2020). Corpora and Baselines for Humour Recognition in Portuguese. LREC.

 

728x90
반응형

댓글