본문 바로가기
반응형

크롤링3

네이버 웹툰 베스트 댓글 크롤링-3 원래 2편 정도로 끝내려 했는데 3편까지 오게 되었다. 3편에서는 본격적으로 코드를 살펴보며 크롤링을 진행하고자 한다. 먼저 2편에서 chrome driver와 selenium, bs4 패키지 설치가 되었다면 다음과 같은 모듈들을 import 해 잘 설치가 되었는지 확인한다. import os from bs4 import BeautifulSoup from selenium import webdriver #import requests #request+bs4 조합만으로도 crawling가능 import time 여기까지 별 이상이 없다면 이제 크롤링을 위한 준비물은 다 챙긴 것이다. base_url = 'https://comic.naver.com/webtoon/weekday.nhn' #chrome_dirver.. 2020. 3. 2.
네이버 웹툰 베스트 댓글 크롤링-2 2편에서는 크롤링 코드 작성 이전 준비 단계이다. 필요한 준비물들을 챙기고 사전 조사 해야 할 것에 대해 살펴볼 것이다 언어는 파이썬, 환경은 주피터 노트북을 이용했다. selenium, BeautifulSoup 모듈이 사용되기에 설치돼 있어야 한다. 또한 chrome driver 역시 필요하다. chrome driver는 여기서 다운 받으면 된다. 크롬 드라이버 설치 클릭 후 나오는 창에서 자신의 OS에 맞는 드라이버를 다운 받아 압축을 풀어준다. selenium, BeautifulSoup 패키지 설치 주피터 노트북(Jupyter Notebook)을 사용하는 경우 다음과 같은 커맨드를 입력해 준다. !pip install selenium # selenium package 설치 pip install bs.. 2020. 3. 1.
네이버 웹툰 베스트 댓글 크롤링-1 필자가 파이썬을 배우고 난 후 가장 처음 해 본 프로젝트가 크롤링이었다. 지금은 웬만큼 익숙해 져서 크롤링 코드를 짜는 데 그리 오래 걸리지 않게 되었다. 그냥 무작정 코드를 따라하는 것보다 기본적으로 어떤 원리로 동작하는 지에 대한 배경 지식이 있다면, 그저 코드를 따라하는 것을 넘어서 자신만의 크롤러를 만드는 데에도 도움이 될 거라 생각된다. 따라서 1편에서 먼저 기본 개념과 작동 원리에 대해 설명한 후에 2편에서 준비 사항, 3편에서 코드에 대한 자세한 설명을 하고자 한다. 크롤링을 위해 필요한 기본 개념 우선, 크롤링이란, crawl: 기어간다. 라는 뜻인데, 거미와 거미줄의 비유를 생각해보면 되겠다. 우리가 인터넷을 'web'이라 부르는 것처럼 거미줄을 떠올려 보면 그 web을 기어다니며 정보를.. 2020. 3. 1.
반응형