본문 바로가기
반응형

전체 글98

[언어학 개념 하나][형태론] 굴절과 파생 굴절과 파생 굴절 접사: 어기(base)로부터 새로운 어휘의 word-form을 생성, 영어 동사의 3인칭 단수 굴절 접사 '-s' 파생 접사: 어기(base)로부터 새로운 어휘를 생성, 영어의 명사화 접미사 '-ion' 굴절 접사는 파생 접사보다 생산적(productive)이다. 즉, 어기와 결합시 제약이 적으며 더 많은 어기에 결합이 가능하다. 이형태와 형태소 상보적 관계: 같은 환경/문맥에 등장할 수 없는 같은 의미를 지닌 두 개 이상의 형태(morphs). 영어의 a/an 상보적 관계의 문맥 유형에 따른 분류 한국어의 '을/를': phonetically conditioned, 음소적 차이에 기인한 상보적 분포 영어의 '-or'명사의 형용사형: lexically conditioned,어휘에 따라 결.. 2022. 1. 16.
[언어학 개념 하나][형태론] 단어의 형태적 구조-접사 단어는 다양한 형태소들의 결합으로 생성되는데, 가장 간단한 방식은 '접사(affix)'를 결합하는 것이다. 접사는 다양한 종류가 있으며, 결합하는 위치에 따라 나뉜다. 접미사(Suffixes): 가장 보편적인 접사이며, 단어의 뒤에 결합하는 접사이다. 파생/굴절의 모든 기능을 수행할 수 있다. 그 기능에 따라 굴절, 파생 접미사로 나뉘며 이들 사이의 분류는 결합 위치에 따라 분류될 수 있다. 항상 파생 접미사가 먼저 결합한 후 굴절 접미사가 결합한다. 즉, 단어-파생-굴절, 단어-파생-파생-굴절-굴절, 단어-파생, 단어-굴절 등의 결합은 가능하지만, 단어-굴절-파생, 단어-파생-굴절-파생과 같이 굴절 접미사가 먼저 결합한 후 파생 접미사가 결합한 조합은 불가능하다. 예) Composit -ion -al .. 2022. 1. 3.
[언어학 개념 하나][형태론] 형태소 morphs: 형태, word-form 내부를 구성하는 단위 *Morpheme(형태소)과 morph(형태)는 다른 개념이다. 마치 lexeme(어휘소)과 word-form(어형)의 관계와 같다. *Morpheme과 lexeme은 추상적인 개념이라면, morph와 word-form은 실제 발화, 문서를 통해 나타난 것을 말하며, 하나의 morpheme과 lexeme이 다양한 morph와 word-form을 가질 수 있다. potentially free morphs(자립 형태): 스스로 word-form이 될 수 있는 morph들 obligatorily bound morphs(의존 형태): 스스로 word-form이 될 수 없는 morph들 root(어근): 어근, 더 이상 분석될 수 없고, lexeme(어.. 2021. 10. 18.
[언어학 개념 하나][형태론] 단어의 단위 Orthographic word: 철자법 상의 단어, 보통 띄어쓰기를 하는 글자 체계를 갖는 언어권에서는 띄어쓰기가 Orthographic word를 구분하는 단위가 된다. 한국어에선 이렇게 구분된 단어들을 '어절'이라 한다. Lexeme: 어휘소, 사전에 등재되는 단어들로 좀 더 정확히는 화자의 머릿속 가상의 사전에 있는 단어들. 사전에 등재된 단어들은 그 의미에 따라 구분된다. Word-form: Lexeme이 실제 발화, 문장 내에서 나타나는 형태. '빠르다'라는 Lexeme은 실제 사용 시 '빠른', '빠르다', 빠르고' 등으로 나타난다. Grammatical word: 문법적 기능에 따라 구분되는 단어 같은 Lexeme에서 파생된 단어이며, 같은 word-form으로 보여도 문법적 기능에 따라 .. 2021. 10. 1.
Porter Stemmer(포터 스테머)를 만들어보자! 영어 자연어처리를 위한 전처리 과정에서는 동사의 어간을 추출하기 위한 'stemming' 과정이 포함되기도 합니다. 영어는 굴절어로 분류되며, 그 특징을 동사에서 발견할 수 있습니다. 물론 명사나 형용사에서 나타나는 접사들의 결합 여기에 포함될 수 있습니다. 동사의 경우만 살펴보자면, 예를 들어, say, says, saying, said는 say가 문장의 시제나 상(aspect), 태(voice)를 나타내기 위해 굴절이 일어난 형태입니다. 말뭉치(corpus) 내에서 통계를 분석할 때, 필요에 따라 이들은 모두 같은 단어인 'say'가 굴절한 형태로 보고 통계 수치가 측정되어야 할 것입니다. 이를 위해서 굴절 어미인, -s, -ing, -(e)d 등을 제거하여 say(sai)와 같은 어간(stem)만을.. 2021. 4. 22.
[논문 읽기] 언어 자료에 대한 통계 분석 오늘 정리할 논문은 언어의 통계적 분석 방법에 대한 내용들에 대해 정리해 놓은 논문입니다. 나온 지 조금 시간이 지난 논문이지만, 기초적인 통계와 주의해야할 사항들이 잘 정리되어 있다고 생각됩니다. 본문은 아래의 논문을 참고하여 작성하였습니다. 신효필. (2005). 언어 자료의 통계 분석과 관련된 몇 가지 고려사항들. 어학연구, 41(3), 655-682. 이항 분포 코퍼스 내에서 특정, 단어나 문장이 나타날 확률은 어떻게 계산할까요? 이산 확률 변수의 이항분포(Binomial Distribution)을 사용한다고 합니다. 여기서 p는 해당 단어가 등장할 확률을 나타내며, n은 전체 코퍼스 단어 수, m은 특정 단어가 등장할 횟수 라고 볼 수 있겠네요. p값은 추정치인 p̂를 사용한다고 합니다. 예를 .. 2021. 1. 27.
반응형