[언어학 개념 하나][형태론] 단어의 형태적 구조-접사
단어는 다양한 형태소들의 결합으로 생성되는데, 가장 간단한 방식은 '접사(affix)'를 결합하는 것이다. 접사는 다양한 종류가 있으며, 결합하는 위치에 따라 나뉜다. 접미사(Suffixes): 가장 보편적인 접사이며, 단어의 뒤에 결합하는 접사이다. 파생/굴절의 모든 기능을 수행할 수 있다. 그 기능에 따라 굴절, 파생 접미사로 나뉘며 이들 사이의 분류는 결합 위치에 따라 분류될 수 있다. 항상 파생 접미사가 먼저 결합한 후 굴절 접미사가 결합한다. 즉, 단어-파생-굴절, 단어-파생-파생-굴절-굴절, 단어-파생, 단어-굴절 등의 결합은 가능하지만, 단어-굴절-파생, 단어-파생-굴절-파생과 같이 굴절 접미사가 먼저 결합한 후 파생 접미사가 결합한 조합은 불가능하다. 예) Composit -ion -al ..
2022. 1. 3.
Porter Stemmer(포터 스테머)를 만들어보자!
영어 자연어처리를 위한 전처리 과정에서는 동사의 어간을 추출하기 위한 'stemming' 과정이 포함되기도 합니다. 영어는 굴절어로 분류되며, 그 특징을 동사에서 발견할 수 있습니다. 물론 명사나 형용사에서 나타나는 접사들의 결합 여기에 포함될 수 있습니다. 동사의 경우만 살펴보자면, 예를 들어, say, says, saying, said는 say가 문장의 시제나 상(aspect), 태(voice)를 나타내기 위해 굴절이 일어난 형태입니다. 말뭉치(corpus) 내에서 통계를 분석할 때, 필요에 따라 이들은 모두 같은 단어인 'say'가 굴절한 형태로 보고 통계 수치가 측정되어야 할 것입니다. 이를 위해서 굴절 어미인, -s, -ing, -(e)d 등을 제거하여 say(sai)와 같은 어간(stem)만을..
2021. 4. 22.