본문 바로가기
반응형

분류 전체보기102

[언어학 개념 하나][형태론] 형태소 morphs: 형태, word-form 내부를 구성하는 단위 *Morpheme(형태소)과 morph(형태)는 다른 개념이다. 마치 lexeme(어휘소)과 word-form(어형)의 관계와 같다. *Morpheme과 lexeme은 추상적인 개념이라면, morph와 word-form은 실제 발화, 문서를 통해 나타난 것을 말하며, 하나의 morpheme과 lexeme이 다양한 morph와 word-form을 가질 수 있다. potentially free morphs(자립 형태): 스스로 word-form이 될 수 있는 morph들 obligatorily bound morphs(의존 형태): 스스로 word-form이 될 수 없는 morph들 root(어근): 어근, 더 이상 분석될 수 없고, lexeme(어.. 2021. 10. 18.
[언어학 개념 하나][형태론] 단어의 단위 Orthographic word: 철자법 상의 단어, 보통 띄어쓰기를 하는 글자 체계를 갖는 언어권에서는 띄어쓰기가 Orthographic word를 구분하는 단위가 된다. 한국어에선 이렇게 구분된 단어들을 '어절'이라 한다. Lexeme: 어휘소, 사전에 등재되는 단어들로 좀 더 정확히는 화자의 머릿속 가상의 사전에 있는 단어들. 사전에 등재된 단어들은 그 의미에 따라 구분된다. Word-form: Lexeme이 실제 발화, 문장 내에서 나타나는 형태. '빠르다'라는 Lexeme은 실제 사용 시 '빠른', '빠르다', 빠르고' 등으로 나타난다. Grammatical word: 문법적 기능에 따라 구분되는 단어 같은 Lexeme에서 파생된 단어이며, 같은 word-form으로 보여도 문법적 기능에 따라 .. 2021. 10. 1.
Porter Stemmer(포터 스테머)를 만들어보자! 영어 자연어처리를 위한 전처리 과정에서는 동사의 어간을 추출하기 위한 'stemming' 과정이 포함되기도 합니다. 영어는 굴절어로 분류되며, 그 특징을 동사에서 발견할 수 있습니다. 물론 명사나 형용사에서 나타나는 접사들의 결합 여기에 포함될 수 있습니다. 동사의 경우만 살펴보자면, 예를 들어, say, says, saying, said는 say가 문장의 시제나 상(aspect), 태(voice)를 나타내기 위해 굴절이 일어난 형태입니다. 말뭉치(corpus) 내에서 통계를 분석할 때, 필요에 따라 이들은 모두 같은 단어인 'say'가 굴절한 형태로 보고 통계 수치가 측정되어야 할 것입니다. 이를 위해서 굴절 어미인, -s, -ing, -(e)d 등을 제거하여 say(sai)와 같은 어간(stem)만을.. 2021. 4. 22.
[논문 읽기] 언어 자료에 대한 통계 분석 오늘 정리할 논문은 언어의 통계적 분석 방법에 대한 내용들에 대해 정리해 놓은 논문입니다. 나온 지 조금 시간이 지난 논문이지만, 기초적인 통계와 주의해야할 사항들이 잘 정리되어 있다고 생각됩니다. 본문은 아래의 논문을 참고하여 작성하였습니다. 신효필. (2005). 언어 자료의 통계 분석과 관련된 몇 가지 고려사항들. 어학연구, 41(3), 655-682. 이항 분포 코퍼스 내에서 특정, 단어나 문장이 나타날 확률은 어떻게 계산할까요? 이산 확률 변수의 이항분포(Binomial Distribution)을 사용한다고 합니다. 여기서 p는 해당 단어가 등장할 확률을 나타내며, n은 전체 코퍼스 단어 수, m은 특정 단어가 등장할 횟수 라고 볼 수 있겠네요. p값은 추정치인 p̂를 사용한다고 합니다. 예를 .. 2021. 1. 27.
[논문 읽기] 접어와 한국어 품사 분류 품사 재정립 및 띄어쓰기 재고 최근에 논문을 읽다가 '접어(Clitics)'라는 단어를 자주 접하게 되었는데, 그 의미에 대해 자세히 알고자 이 논문을 읽게 되었습니다. *본 내용은 필자의 이해가 담긴 글이기에 정확한 내용은 원문을 참고하시기 바랍니다. 채희락. (2007). 접어와 한국어 품사 분류: 품사 재정립 및 띄어쓰기 재고. 언어, 32(4), 803-826. 접어의 정의(Clitics) 본 논문에서는 접어를 음운론적 독립성이 없고, 통사적으로는 개별 단어라고 정의하고 있습니다. 저는 음운론적 독립성이 잘 와닿지 않아서 '자립 형태소'로 이해했습니다. 논문 안에서 많이 나오긴 하는데 어떤 뜻인지 검색해도 찾기 어려웠네요 ㅠㅠ 아시는 분 있으시면 댓글 남겨주세요! 통사적 개별 단어는 통사적으로 분석했을 때 분석의 기본 단위가 .. 2021. 1. 21.
[알고리즘] 백준. 수 찾기 #1920 Python 이분 탐색의 "수 찾기"를 풀어보았습니다. 저는 "이진 탐색"으로 알고 있었는데, "이분 탐색"이라고도 한다네요. 영어 명칭은 "binary search"네요. 문제 N개의 정수가 주어질 때, 이 안에 X라는 정수가 존재하는 지 판별해라. 입출력 해석 처음엔 문제와 입출력이 잘 이해 안가서 고생했습니다 ㅠㅠ 제가 이해한 바를 쉽게 정리해봤습니다. #입력 5#1이상 10만 이하의 자연수, 5개의 입력이 주어질 것이라는 뜻 4 1 5 2 3#5개의 정수 배열(-2^31보다 크고 2^31보다 작은 값) 5#5개의 찾을 수 X가 주어질 것이다 라는 뜻 1 3 7 9 5#찾을 수 X의 배열, 앞서 주어진 정수 배열에서 각 X가 존재하는 지 찾으면 된다. (-2^31보다 크고 2^31보다 작은 값) #출력 1 1 .. 2021. 1. 19.
반응형