오늘 정리할 논문은 언어의 통계적 분석 방법에 대한 내용들에 대해 정리해 놓은 논문입니다.
나온 지 조금 시간이 지난 논문이지만, 기초적인 통계와 주의해야할 사항들이 잘 정리되어 있다고 생각됩니다.
본문은 아래의 논문을 참고하여 작성하였습니다.
신효필. (2005). 언어 자료의 통계 분석과 관련된 몇 가지 고려사항들. 어학연구, 41(3), 655-682.
이항 분포
코퍼스 내에서 특정, 단어나 문장이 나타날 확률은 어떻게 계산할까요?
이산 확률 변수의 이항분포(Binomial Distribution)을 사용한다고 합니다.
여기서 p는 해당 단어가 등장할 확률을 나타내며, n은 전체 코퍼스 단어 수, m은 특정 단어가 등장할 횟수 라고 볼 수 있겠네요. p값은 추정치인 p̂를 사용한다고 합니다. 예를 들어 전체 코퍼스가 100 단어로 구성되어 있는데, 저희가 원하는 단어 x가 15번 등장했다면, 이 단어의 등장 확률 p에 대한 추정치 p̂은 '0.15'가 됩니다.
이항분포를 사용할 때 발생할 수 있는 문제점은 '시간'이라는 개념이 반영되지 않는 다는 겁니다. 실제 언어는 시간에 따라 변하는데 이를 반영하지 못하는 거죠. 이항분포를 통해선 전체 코퍼스 중 해당 단어가 몇 번 등장했는지는 알 수 있지만, 코퍼스의 어느 부분에서 많이 등장했고, 적게 등장했는 지 자세한 정보는 알 수 없습니다. 글을 쓸 때 주제의 변화에 따라 앞쪽에서 특정 주제 A에 대해 언급했다면, A에 대한 빈도가 높게 나올 것이고 뒤에서 다른 주제로 전환되었다면 해당 다른 주제와 관련된 어휘의 빈도가 높게 나올 것입니다.
정규 분포
이항 분포 외에도 연속 확률 분포인 정규 분포를 언어 분석에 사용하기도 합니다.
저빈도 단어들은 분포 속성에 부합하지 않는다고 합니다. 이에 대해서는 뒤에서 살펴볼 다른 분포들의 속성들을 통해서 더 살펴볼 것입니다.
필요에 따라 이항 분포를 정규분포화하는데 이때 'np(1-p)(분산)' 값이 5보다 클 경우에 정규화가 가능합니다. 이 값이 클수록 정규 분포적 속성을 띱니다.
np(1-p)식에서 살펴볼 수 있듯이, p값이 매우 작으면, (1-p)가 1에 수렴하여 np값에 따라 결정되게 됩니다. 이때 n의 값이 충분히 크다면 5보다 커질 수 있어 정규화가 가능해집니다.
내용어의 특성
내용어는 무리지어 나타나는 경향이 있습니다.
전체 코퍼스는 분할 후 분석하면 통계적으로 다른 성격을 띱니다.
전체 코퍼스를 6부분으로 나누면, 각 부분들의 중심 주제에 따라 내용어가 무리지어서 나타날 것입니다. 맨 앞의 A부분과 5번째 A 부분에서 중심 어휘가 'A'라면, A의 해당 부분에서 빈도 수가 높게 나타날 것입니다.
연어 구성과 통계 기법
연어 분석에 있어서 사용되는 통계적 지표로 t-score와 상호 정보가 있습니다.
T-test
t-score를 이용해 두 단어가 연어임을 검증하는 방법입니다. 다음과 같은 순서로 진행됩니다.
1) 귀무가설 설정: 두 단어의 등장이 독립적이다. (두 단어는 연어관계가 아니다.)
2) t-score를 계산하여 높으면 귀무가설을 기각한다. (우연적인 등장이 아니라, 연어 관계가 있다.)
t-score는 신뢰도 자유도에 따라 달라질 수 있기에 t-score 만으로 연어 관계를 규정하긴 힘듭니다. 따라서 언어학적 연어 분석이 추가적으로 요구됩니다.
상호 정보량
점수렴 상호 정보 분석(Pointwise Mutual Information Analysis)이라고 합니다.
확률변수 사이의 정보량의 기댓값을 구하여 계산합니다.
위 수식의 값이 높을수록 두 단어가 의존적이라 볼 수 있습니다. P(x, y)는 두 단어 x, y가 동시에 등장할 확률, p(x), p(y)는 x,y가 각각 등장할 확률입니다. 연어 관계라면, P(x, y)가 높을 것이기에 다른 단어에 비해 높은 상호 정보량 값이 측정됩니다.
통계와 언어 자료 해석
카이제곱 분포
카이제곱 분포를 측정하기 위해선 분할표를 이용합니다.
식은 아래와 같습니다.
그러나 카이제곱 분포는 빈도가 20이하이거나 각 항목 기댓값이 5 이하일 경우에는 적용이 불가능하다는 단점이 있습니다.
우도비 검정
기대값이 5이하여도 적용 가능합니다.
두 가설 중 한 가설이 얼마나 더 가능성 있는지에 따라 결정됩니다. 자세한 내용은 여기 참고
카이제곱 검정에서 문제가 되는 빈도 수 5이하의 저빈도 문제를 해결하였으나 1개만 등장하는 Hepax legomena에 취약합니다.
동음이의어와 중의성
언어자료 분석 중에 중요한 사항 중 하나가 동음이의어와 중의성 관련한 문제입니다.
강범모(2005)에 따르면, 한국어에서는 동음이의어에 의한 중의성이 나타나는 경우가 적다고 한다. 98%의 어휘가 하나의 의미로 쓰인다고 합니다. 2%의 어휘는 동음이의어 중의성이 존재한다는 뜻으로 볼 수 있습니다.
또 해당 논문에서 '다의어'가 고려되지 않았기에 이와 같이 2%의 동음이의어나, 다의어처럼 의미가 구분되어야할 어휘가 하나의 의미로 빈도 분석 될 경우, 정확한 빈도 측정이 어려울 것입니다.
언어 분석에서 사용되는 통계적 지표와 검정 방법에 대해 전반적으로 알아볼 수 있어서 많은 도움이 된 논문인 것 같습니다.
'언어학' 카테고리의 다른 글
[언어학 개념 하나][형태론] 형태소 (6) | 2021.10.18 |
---|---|
[언어학 개념 하나][형태론] 단어의 단위 (0) | 2021.10.01 |
[논문 읽기] 접어와 한국어 품사 분류 품사 재정립 및 띄어쓰기 재고 (0) | 2021.01.21 |
[논문 읽기] 한국어 한자어의 문법적 특징 및 양상 (0) | 2021.01.15 |
[논문 리뷰] 포르투갈어의 유머 인식을 위한 코퍼스 및 기준 (0) | 2021.01.06 |
댓글