본문 바로가기
study_life

[논문 리뷰] 자연어 처리(이해), 이대로 옳은가? - ACL2020 Best theme paper

by skyjwoo 2020. 8. 11.
728x90
반응형

 

 

 

ACL 2020에 올라온 논문에 관한 리뷰입니다. [각주:1]

 

리뷰할 논문은 ACL 2020에서 Best theme paper로 선정된 논문이다. [각주:2]

"ClimbingtowardsNLU: OnMeaning,Form,andUnderstandingintheAgeofData"

- Emily M. Bender and Alexander Koller

 

논문을 리뷰하기로 한 이유

ACL 2020 홈페이지를 살펴보면, 제출된 논문, 통과된 논문들에 대한 통계가 나와 있다. [각주:3] 이 통계 정보에 따르면, 대부분의 논문이 Machine Learning for NLP에 관한 내용을 다룬다고 한다. 이 논문은 기계학습과 관련한 특정 모델링에 관한 내용이 아닌, 현재 무수히 진행되고 있는 기계학습과 관련한 연구들 BERT나 GPT 시리즈 같은 여러 대단한 모델들을 가지고 진행되는 연구들의 방향성에 대해서 "전산 언어학자"의 관점에서 질문을 던진다. 이런 점이 새롭게 와 닿았고, 또 BEST theme paper로 선정되었다는 점에서 논문의 가치도 충분히 주최측에 인정받았다고 생각되어 리뷰를 해보기로 결정했다. 

 

 

논문 리뷰

내용에 대해 간단히 설명하자면, 가장 중요한 키워드는 'Form'과 'Meaning'이다. 그리고 현재 진행되는 무수한 연구들이 'Form'에 대해서 모델이 학습하고 있지 'Meaning'에 대해서 학습하고 있지는 않다면서, 진정한 NLU(Natural Language Understanding, 자연어 이해)로 나아가기 위해서는 'Meaning'에 대한 고려도 있어야 한다는 방향성을 제시한다. 

 However, we find that these successes sometimes lead to hype in which these models are being describedas“understanding”language or capturing “meaning”.

-초록(abstract)에서 발췌

 

또 초록에서 이번 ACL 2020의 주제에 대해서도 알게 되었는데,  ACL 2020의 주제가 “Taking Stock of Where We’ve Been and Where We’re Going” 이라고 한다. take stock of 가 되돌아보다 라는 뜻이란걸 고려해 보았을 때, 자연어 처리 및 전산 언어학의 발전을 살펴보고 앞으로의 방향성을 모색하는 내용을 이번 annual meeting의 주제로 삼고자 한 것 같고 이 점에서 미루어 보아 이 논문이 왜 Best theme paper로 선정되었는 지 짐작할 수 있었다. 

 

Form and Meaning

본문에서 정의한 'Form'과 'Meaning'에 대한 정의는 다음과 같다. 

We take form to be any observable realization of language: marks on a page, pixels or bytes in a digital representation of text, or movements of the articulators.[각주:4] We take meaning to be the relation between the form and something external to language, in a sense that we will make precise below

-본문 3. What is meaning에서 발췌

 

여기서 form은 우리가 눈으로 볼 수 있는 글자, 텍스트, 또는 귀로 듣는 말을 말한다. 의미는 여기선 단순히 form과 언어 외적인 정보들 사이의 관계라 얘기 했는데, 본문 여러 파트에 걸쳐서 더 자세히 설명한다. 의미에 관한 여러 이론들이 있겠지만, 저자는 의미를 정의하는 데 있어서 communicative intent라는 개념을 언급한다. 이는 인간이 언어를 사용하는 이유는 언어 그 자체에서 오는 즐거움이 아니라 communicative intent가 있다는 것이다. 즉, 인간의 언어 사용의 이유를 의사 소통과정에서 어떤 의도가 있기 때문이라고 보는 관점이다. 이에 따르면, 의미는 다음과 같은 관점에서 바라볼 수 있다.

$M \subseteq E \times I$

M: 의미(Meaning),  E: 표현(Expression) I: 의도(Communicative Intent)

 

여기서 좀 더 나아가서, 언어학자들은 Communicative Intent를 Conventional meaning과 구분한다고 한다. Conventional meaning은 한마디로 주어진 언어 체계 내에서 어떤 상황에서건 변하지 않는 의미를 말한다. 이 역시 수식으로 표현해 보면 다음과 같다. 

$C \subseteq E \times S$

C: 언어 체계(Linguistic systems)[각주:5],  E: 표현(Expression) S: Conventional meaning

 

이렇게 정리한 내용들이 실제 인간의 발화에서 어떻게 이뤄지는가를 살펴보면, 우선 화자 입장에서 conversational intent i가 있다면, 이를 표현하기 위해 적절한 의미(conventional meaning s)를 갖는(대응되는) expression e를 골라 발화한다. 이에 대해 청자는 e를 듣고 s를 재구성하며, 이를 바탕으로 현재 문맥에 대한 자신의 경험, 지식을 이용해 i를 추론한다.  

 

-다음 예시는 s, e, i에대한 필자의 개인적인 해석이 담긴 예시이다.

 

 

 

 

 

인상깊었던 내용

논문에서 인상깊었던 부분은 지능이 높은 문어에 대한 예시(AI에 대한 비유)와 논문 가장 끝에 나온 gpt-2의 성능에 대한 예제들이다.

 

Octopus 관련 예시

논문에서 'form'을 중심으로한 현재 NLU 연구의 한계를 지적하기 위해 이를 언어적 패턴 인식에 능한 문어가 근처에 있는 무인도에 두 사람(A, B라 하자.)이 갇히게 된 상황을 가정하여 설명한다. 문어는 현재의 언어 모델들(Bert나 gpt-2 등등)과 같은 성능을 가진 AI라 보면 된다. 무인도에 갇힌 두 사람은 무인도 내에서 멀리 떨어져 있으나 무전기를 발견하고 연락을 하게 되는데 이 연락망은 바다속에 매설되어 있다. 지능이 높은 문어가 이를 발견하고 연락망 중간에 자신의 몸을 연결시켜 이들의 대화를 엿들을 수 있게 되었다. 문어는 이들과 소통하고 싶어 이들의 대화 패턴을 학습한 후 A가 말하면 B인척 하며 대답하였다. 이에 대해 A는 별다른 이상함을 느끼지 못하였다. 그러나 어느날 A가 야생 동물의 습격을 받게 되고 B에게 무기를 들고 와달라고 도움을 요청한다. 그러나 문어는 여기서 제대로된 답을 하지 못할 것이고 무슨 말인지도 이해하지 못했을 것이다. 물론 위급 상황에 대한 패턴이 학습되지 않아서라고 볼 수도 있겠지만, A가 말한 '무기'라는 단어처럼 문어가 직접 보지 못한(바다 속이기에) 대상에 대해서는 즉, 어휘가 실제 세계의 특정 대상과 매칭되어 이에 대한 정보가 요구되는 발화에 대해서는 문어의 패턴 학습이 무용지물이 된 것이다. 

 

gpt-2 실험 결과

논문 끝부분에 gpt-2 실험 결과에 대한 코멘트를 남겨놓았는데, 이 역시 자연어가 언어의 의미를 제대로 이해하고 있지 못하는 하나의 증거로 삼았다. gpt-2는 자연어 생성(NLG, Natural Language Generation) 모델의 하나로 이 모델이 나왔을 당시 그 파급 효과를 걱정하여 

gpt-2 실험 예시 중 하나로 수학 연산을 주었을 때 어떤 결과를 내는 지에 대한 예시가 있다. 

 

Three plus five equals 라는 문장을 입력값으로 주었을 때,

 Three plus five equals seven,” he replied....
 Three plus five equals ten”BoshInthiscase, ...
 Three plus five equals five, right? Right? ...

-Appendix(?) B GPT-2 and arithmetic에서 일부 발췌

 

인공지능이 자연어로 된 기본적인 산수도 못하는 것을 알 수 있다. 물론 훈련 데이터 셋의 문제일 수도 있겠지만, 실제 단어의 의미를 이해하고 있지 않다는 점에 대한 근거로는 충분하다고 생각된다. 

 

앞으로 어떻게?(Conclusion)

결론 부분만 살펴보면, 뭔가 뭉뚱그려서 전체 내용을 요약한 느낌이다. 그러나 필자는 방향성에 대한 좀 더 구체적인 이야기를 듣고 싶었기에 챕터 8, 9에서 언급한 내용에 대해 얘기해 보고자 한다.

 

저자는 의미라는 것이 정의하기 어렵다고 본문에서도 말하고 있다. 또 본문에서 현재 이뤄지고 있는 연구들 distributional semantics에 기반한 연구인데, 이를 통해서 학습할 수 있는 것은 단어, 문장, 텍스트 사이의 유사성 정도이며, 이는 "의미, meaning"의 일부밖에 되지 않는다고 한다. 따라서 form뿐만이 아니라 여기에 다른 정보(화자의 의도같은)가 추가된 데이터셋을 기반으로 학습한다면 우리가 생각하는 의미를 기계가 이해하는 데 도움이 될 것이라 한다. 필자 또한 이에 공감한다. 다음은 이와 관련된 내용을 본문에서 일부 발췌하였다.

if form is augmented with grounding data of some kind, then meaning can conceivably be learned to the extent that the communicative intent is represented in that data. 

-본문 9 Some possible counter arguments 에서 일부 발췌

 

 

자연어 이해의 방향성에 있어서 중요한 포인트를 잘 짚어준 논문이 아니었나 싶다. 필자의 생각에도 많은 변화를 준 논문이었고 앞으로의 공부 방향에 있어서도 큰 이정표가 될 것 같다.

  1. ACLAssociation for Computational Linguistics의 약자로 전산 언어학 협회를 말한다. 매해 총회(?)를 갖는데 올해(2020년)이 58회차라고 한다.  [본문으로]
  2. 여기서 다른 우수 논문을 확인해 볼 수 있다. [본문으로]
  3. https://acl2020.org/blog/general-conference-statistics/ [본문으로]
  4. articulator는 조음 기관으로 말을 할 때, 소리를 내기 위해 사용되는 몸 속 기관들을 말한다. 입이나, 이, 입천장 등이 있다. [본문으로]
  5. 본문에서 저자는 언어체계가 시간에 따라 변화한다는 사실을 배제하고 이 개념에 대해 다루고자 했다고 말했다. We abstract away here from the facts that linguistic systems C change over time and are only incompletely shared among different speakers. They are stable enough to function as rich signals to communicative intent.
    [본문으로]
728x90
반응형

댓글