본문 바로가기
반응형

컴퓨터50

자연어 처리 EDA(Exploratory Data Analysis) EDA란? Exploratory Data Analysis의 약자로 데이터의 실질적인 분석 및 데이터를 활용한 작업 이전에 데이터의 분포 등 대략적인 정보를 파악하기 위한 작업. 이름에서도 알 수 있듯이 데이터를 탐색하는 과정이라 볼 수 있다. 주로 시각화와 함께 이뤄진다. 자연어 처리에서의 EDA 일반적인 수치 데이터에 대한 EDA가 가장 쉽게 찾아볼 수 있지만, 자연어 처리에 대한 EDA는 떠올리기 힘들었다. 따라서 이번 글에서는 자연어 처리에서의 EDA에 대해 직접 수행해본 결과를 공유해 보고자 한다. 주로 문자열의 길이 통계나품사, 토큰 등의 단위로 구분한 후 이에 대한 통계가 이용되는 듯하다. 본문은 다음 자료를 참고하였다. 영문 데이터에 대한 EDA에 대한 내용이어서 한국어 자연어처리에 맞게 몇.. 2020. 12. 17.
python pandas 기본 정리 항상 찾아서만 쓰다가 정리해 놓을 필요성이 느껴져서 자주 쓰는 함수들을 정리해 보았다. 1. DataFrame 만들기 1) tuple로 구성된 list를 이용해서 만들기 # DataFrame 만들기 ## tuple들의 list를 이용해서 만들기 goal_rank = [(1, '도미닉 칼버트-르윈', 11, '애버튼'), \ (2, '손흥민', 10, '토트넘'), \ (3, '모하메드 살라', 9, '리버풀' ), \ (3, '제이미 바디', 9, '레스터시티'), \ (5, '패트릭 뱀포드', 8, '리즈 유나이티드'), \ (5, '해리 케인', 8, '토트넘')] df1 = pd.DataFrame(goal_rank, columns = ['순위', '이름', '득점 수','소속팀']) df1.head.. 2020. 12. 11.
pyinstaller FileNotFoundError: [Errno 2] No such file or directory: [16716] Failed to execute script 오류 pyinstaller로 .py 파일을 .exe로 빌드하려다 오류가 발생했다. 제목에도 나와있는 것처럼 위와 같은 문제가 발생했을 때 어떻게 해결했는 지 공유하고자 한다. 간단히 .spec 파일을 수정해주고, .spec 파일로 빌드해주면 된다. 처음에 pyinstaller 파일이름.py 로 빌드를 하면 .spec 파일이 생성될 것이다. 이 .spec파일을 문서 편집기 등으로 열면 다음과 같은 코드가 나오는데(일부만 뽑았다.) 이 중 datas 부분에 빌드 과정에서 빠진 파일과 코드에서 요구하는 폴더 구조를 넣어주면 된다. a = Analysis(['ui.py'], pathex=['C:\\Users\\YJW2\\Documents\\NLP\\poetry_rhymer'], binaries=[], datas=[].. 2020. 12. 6.
[엑셀] 열 이동시키기. 엑셀을 사용하다보면, 열을 이동하고 싶을 때가 있다. 기존에는 다른 빈 열에 붙여 넣기하고 다시 옮기는 방식으로 했었는데, 한번에 옮길 수 있다는 걸 알게 되었다. 다음과 같은 table이 있을 때, '이름' 열을 맨 앞으로 옮기고 싶다면 어떻게 해야 할까? 1. 우선 '이름' 열(C열)을 선택해 준다. 2. 열의 세로선으로 커서를 갖다 대어 십자화살표 모양을 확인한다. 3. 그 상태로 shift키를 누르며 드래그 하여 원하는 위치로 열을 이동시킨다. '이동'이라 볼 수도 있겠지만, 실제로는 '삽입'이라 볼 수도 있다. 첫번째 열이었던 '나이' 열이 뒤로 밀린 것을 확인할 수 있기 때문이다. 마우스 우클릭으로도 가능하다. 1. 이동시키고 싶은 열을 선택한 후 마우스 우클릭 2. '잘라내기' 선택 3. 원.. 2020. 10. 29.
이름 유사도 구하기 - soundex algorithm Soundex 알고리즘이란? 최근 소리를 기준으로 이름 사이의 유사도를 어떻게 구할 수 있을까 고민하던 중에 한 알고리즘을 발견하게 되었다. 제목에서도 알 수 있다시피 "soundex algorithm"이 바로 그것이다. 생각보다 복잡한 식이 요구되지 않고, 필자도 쉽게 구현할 수 있어서 구현해 보았고, 간단하면서도 재밌는 결과가 나왔다. 이 알고리즘의 목적은 영어 이름에서 철자가 다르지만 소리가 같은 이름들을 동등하게 또는 유사하게 취급하고자 하는 것이라고 한다. DB에서 검색할 때 자주 쓰이는 알고리즘이며, 여러 다른 나라에서 변이형이 존재하고, 또 metaphone, double metaphone 등의 발전된 알고리즘도 존재한다고 한다. (출처: 위키피디아) Soundex가 적용되기 좋은 예를 생각.. 2020. 8. 2.
[데이터베이스] RAID RAID(Redundant Array of Inexpensive Disks): 보조기억장치의 성능과 신뢰성을 향상시키기 위한 디스크 구성 방법이다. 성능 향상을 위해 디스크를 병렬적으로 구성하며, 조합 패턴에 따라 레벨 0, 1, 5로 구분되고 이 패턴들을 한 번 더 조합하여 10, 0+1 등으로 디스크를 구성할 수 있다. RAID 구성 별 특징 RAID level 0 Striping을 한다. 이는 여러 개의 디스크를 하나의 디스크처럼 동작하도록 한다는 것이다. 데이터를 디스크의 개수만큼 분할하여 저장하거나 불러온다. 예를 들어 File A를 5개의 disk에 분할하여 저장한다면, $A_1$, $A_2$, $A_3$, $A_4$, $A_5$로 나뉘어져 5개의 disk에 저장될 것이다. 이 데이터를 읽어들.. 2020. 6. 17.
반응형