Porter Stemmer(포터 스테머)를 만들어보자!
영어 자연어처리를 위한 전처리 과정에서는 동사의 어간을 추출하기 위한 'stemming' 과정이 포함되기도 합니다. 영어는 굴절어로 분류되며, 그 특징을 동사에서 발견할 수 있습니다. 물론 명사나 형용사에서 나타나는 접사들의 결합 여기에 포함될 수 있습니다. 동사의 경우만 살펴보자면, 예를 들어, say, says, saying, said는 say가 문장의 시제나 상(aspect), 태(voice)를 나타내기 위해 굴절이 일어난 형태입니다. 말뭉치(corpus) 내에서 통계를 분석할 때, 필요에 따라 이들은 모두 같은 단어인 'say'가 굴절한 형태로 보고 통계 수치가 측정되어야 할 것입니다. 이를 위해서 굴절 어미인, -s, -ing, -(e)d 등을 제거하여 say(sai)와 같은 어간(stem)만을..
2021. 4. 22.
python pandas 기본 정리
항상 찾아서만 쓰다가 정리해 놓을 필요성이 느껴져서 자주 쓰는 함수들을 정리해 보았다. 1. DataFrame 만들기 1) tuple로 구성된 list를 이용해서 만들기 # DataFrame 만들기 ## tuple들의 list를 이용해서 만들기 goal_rank = [(1, '도미닉 칼버트-르윈', 11, '애버튼'), \ (2, '손흥민', 10, '토트넘'), \ (3, '모하메드 살라', 9, '리버풀' ), \ (3, '제이미 바디', 9, '레스터시티'), \ (5, '패트릭 뱀포드', 8, '리즈 유나이티드'), \ (5, '해리 케인', 8, '토트넘')] df1 = pd.DataFrame(goal_rank, columns = ['순위', '이름', '득점 수','소속팀']) df1.head..
2020. 12. 11.