본문 바로가기
반응형

Programming/Crawling5

파이썬 urllib.request VS requests 차이점? 파이썬으로 웹사이트를 크롤링 할 때 가장 많이 사용되는 함수가 urllib.request와 requests다. 분명히 두 개함수가 차이가 있고, 필요한 상황에 맞춰 사용할 줄 알아야 할 것이다. 먼저 크롤링을 하기 위해 필수 모듈들을 호출 한다. 1 2 3 4 5 6 7 8 9 10 11 12 # common module import requests import urllib.request # BeautifulSoup from bs4 import BeautifulSoup as bs # Selenium from selenium import webdriver from scrapy.selector import Selector from selenium.webdriver.common.by import By from.. 2021. 12. 18.
파이썬 urllib.request VS requests 차이점? 파이썬으로 웹사이트를 크롤링 할 때 가장 많이 사용되는 함수가 urllib.request와 requests다. 분명히 두 개함수가 차이가 있고, 필요한 상황에 맞춰 사용할 줄 알아야 할 것이다. 먼저 크롤링을 하기 위해 필수 모듈들을 호출 한다. 1 2 3 4 5 6 7 8 9 10 11 12 # common module import requests import urllib.request # BeautifulSoup from bs4 import BeautifulSoup as bs # Selenium from selenium import webdriver from scrapy.selector import Selector from selenium.webdriver.common.by import By from.. 2021. 12. 18.
URL URI URN 이란? URL(Uniform Resource Locator)은 웹상에서 자원이 위치한 장소를 알려주는 규약이다. 웹상에서 리소스를 얻기 위해서는 정확한 자원의 위치를 알아야 하기 때문에 집주소와 같은 개념이다. 흔히 웹에서 사용하는 웹 브라우저 규약이 HTTP이다. 만약 파일 전송 프로토콜을 사용하기 위해서는 FTP 규약을 사용한다. URI vs URN vs URL? URI는 URL과 URN의 상위개념이다. URL과 URN에서 추천되는 방식을 참고해서 만들어 졌으며, 기본 구성은 다음과 같다. URN은 URI를 구성하기 위해 만들어진 이름이다. 영속적이고 독립적인 자원의 위치를 가리키는 이름이다. URN의 구성은 다음과 같다. URL은 URI에서 #를 사용하지 않는 구조다. URL의 기본 표현 방법은 다음과 같.. 2021. 12. 17.
BeautifulSoup 제대로 활용하기 find() 부터 prettyfy()까지 xpath는 가능한걸까? 뷰티풀 수프는 크롤링 프로젝트에서 scrapy와 같이 가장 많이 사용되는 도구중 하나다. HTML 문서에서 필요한 부분만 출력해서, 크롤링의 속도를 올려주는 모듈이다. # BeautifulSoup 추가하기 1 2 3 4 5 6 7 from bs4 import BeautifulSoup as bs from urllib import request url = 'https://www.example.com' html = request.urlopen(url) soup = bs(html, 'html.parser') Colored by Color Scripter cs # 정갈하게 출력하기 prettyfy() 사용 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 .. 2021. 12. 11.
CrawlSpider Rule 10분만에 이해하기 CrawlSpider를 사용해서 Crawling을 진행한다. 먼저 Rule을 셋팅한다. allow , deny, follow, callback 파라미터를 전달하고, 이에 맞는 링크를 추출해서, 해당 페이지의 정보들을 크롤링하는 방법이다. CralwSpider에는 여러가지 파라미터들이 들어간다. 중요한건 allow + deny의 조합으로 링크들을 순회 하면서 모든 링크들을 추출한다. deny는 항상 allow에 우선하기 때문에, Rule을 셋팅할 때, 조건값 설정이 필요하다. 1) allow 에 아무 파라미터도 전달하지 않은 경우 이 경우에는 document 상으로 follow는 True로 셋팅되서, 모든 링크들을 추출한다고 되어 있다. 링크들을 확인하기 위해서는 callback 함수를 지정하고, foll.. 2021. 12. 6.
반응형