본문 바로가기
study_life

'글잡이II 직접'에 대해 알아보자!

by skyjwoo 2020. 10. 30.
728x90
반응형

 

1. '글잡이'란?

한국어 말뭉치(코퍼스, corpus)를 처리하기 위한 프로그램으로 말뭉치 내 용례 추출, 간단한 통계가 가능하다.

 

2. 파일 다운로드 받기

ithub.korean.go.kr/user/main.do

 

국립 국어원 언어정보 나눔터 홈페이지에서 좌측 하단의 인기공유자료란에서 확인할 수 있다. 또는 직접 언어정보나눔터 홈페이지 검색창에 검색해도 된다. 

 

위 파일을 클릭하여 다운로드 받으면 된다.

 

파일을 다운로드 받을 때 '들어가기'를 하라고 하는데, '로그인'이라는 뜻이다. 아이디가 없다면 회원가입, 로그인 후 다시 받아보자.

 

zip파일의 압축을 풀어보면, 글잡이II(색인), 글잡이II(직접), 글잡이II 사용자 설명서가 있다. (색인)이 말뭉치에 대한 좀 더 자세한 분석이 가능하지만 이를 위해 형태소 분석 작업이 이뤄진 파일이 필요하다. 직접은 원시 말뭉치(어떠한 처리도 이뤄지지 않은 날 것의 말뭉치)만으로도 분석을 진행할 수 있다. 사용자 설명서는 글잡이 프로그램에 대한 사용자 설명서이다. 모르는 부분이 있다면 사용자 설명서를 

 

한국어 말뭉치 프로그램 답게 한글(hwp) 파일을 지원한다. txt파일로 작업할 시에는 txt파일의 인코딩 방식을 확인해 준다. 인코딩 방식이 'ANSI'가 아니라면 'ANSI'로 바꿔서 다시 저장해 주자. [각주:1]

메모장에서 저장 시 우측 하단에서 인코딩을 설정할 수 있다.

3. 말뭉치 열기

글잡이II (직접)폴더 내 글잡이II (직접).exe 파일을 열어보자. 좌측 상단에 말뭉치 탭의 새 말뭉치 열기를 선택 후 나타나는 '새 말뭉치 열기' 창에서 자신이 추가할 파일의 확장자를 선택 후 파일을 선택하여 추가를 눌러준다. 이후 확인을 눌러주면 되는데, 파일이 여러 개인 경우 디렉토리(폴더)도 추가할 수 있다.

 

 

 

 

추가가 완료되었는지 말뭉치 목록 열기를 통해 추가된 말뭉치를 확인한다.

 

 

자신이 선택한 파일이 뜨면 성공이다.

 

 

4. 용례 검색

이제 이 파일 내 자신이 원하는 문자열을 검색해 볼 수 있다. 용례 탭의 용례 검색을 클릭한다. 

그럼 다음과 같은 용례 검색 창이 뜬다. 

음절 단위, 자소 단위가 있는데, 한국어는 표기(한글) 자체가 '음절' 단위로 이뤄짐을 떠올리면 된다. 초성, 중성, 종성이 합쳐져 하나의 음절을 이루고 이 기준으로 한 단위인 '음절'을 이루며 쓰여진다. 반면, 알파벳과 같은 경우 자소 단위로 표기가 이뤄진다. 음절을 이루는 초,중,종성(onset, nucleus, coda)이 따로따로 떨어져서 쓰인다. 

예시) cat vs 캣 vs ㅋㅐㅅ

한국어를 자소 단위로 구분해서 분석하고 싶다면, 즉 자음과 모음을 하나하나 떨어뜨려 검색하고 싶다면 자소 단위를 클릭하고 이에 맞는 식을 입력해 주면 된다. 검색식 입력 방법은 위 화면의 '도움말'을 클릭하면 된다.

 

하나 예를 들자면, '좋아요, 좋습니다'와 같은 패턴을 검색하려면 다음과 같이 입력하면 된다. 

(정규 표현식과 조금 비슷하나 다르고, 패턴이 제한적이다. )

<참고>

'+'는 한 개 이상의 문자열을 나타낸다. 

'*'은 0개 이상의 문자열을 나타낸다. 

 

그 결과는 다음과 같다. 

 

이렇게 추출된 용례들로부터 추가적인 용례 추출작업을 진행할 수 있다. 

용례 연산을 클릭해보자. 

다음과 같은 창이 나타난다. 다음 창을 통해 현재 보고 있는 용례 검색 결과에 대해 추가적인 용례 추출이 가능하다. 

용례 검색과 마찬가지로 음절 단위, 자소 단위 검색이 가능하고, '배제(Exclusion)'를 통해 특정 용례를 제거할 수 있다. 

연산 범위는 검색 범위를 지정함에 있어 현재 보고 있는 용례의 이전(-1, -2, ...), 이후(1, 2, ...)의 범위를 지정할 수 있다. 

현재 검색된 '좋+' 패턴의 앞 어절에서 'ㄴ'으로 끝나는 패턴을 추가하여 추출해내고 싶다면 다음과 같이 입력하면 된다.

 +는 앞에서 말했던 것처럼 1개 이상의 글자(음절)을 뜻하고, '[ ]' 대괄호로 음절을 감싸준다. %는 자소가 없거나 하나 나타나는 경우를 의미하며 자소는 ',' 로 구분된다. 초성, 중성은 아무거나 상관 없고 종성이 'ㄴ'으로 끝나는, 그리고 범위를 -1 ~ -1어절로 설정했기에 현재 검색한 '좋+' 패턴의 앞의 어절 내에서 위의 연산식을 따르는 패턴이 검색된다. 

결과는 위와 같이 ~면, ~는, ~은 이 앞어절에서 검색되었음을 알 수 있다. 

 

5. 용례 저장

용례 파일은 위에 보이는 바와 같이 텍스트 파일(.txt)이나 용례 파일(.dgl, 글잡이 내에서 불러올 수 있음)로 변환이 가능하다.

  1. 이는 windows 환경에서 ANSI가 한국어 인코딩 'cp949'에 대응되기 때문이다. 맥OS를 써보지 않아 이에 대해선 잘 모르겠다. 여튼 한국어 인코딩에 대응하는 인코딩으로 바꿔주면 된다. [본문으로]
728x90
반응형

댓글