본문 바로가기
Programming/Crawling

URL URI URN 이란?

by 하하호호 2021. 12. 17.
반응형

URL(Uniform Resource Locator)은 웹상에서 자원이 위치한 장소를 알려주는 규약이다. 웹상에서 리소스를 얻기 위해서는 정확한 자원의 위치를 알아야 하기 때문에 집주소와 같은 개념이다. 흔히 웹에서 사용하는 웹 브라우저 규약이 HTTP이다. 만약 파일 전송 프로토콜을 사용하기 위해서는 FTP 규약을 사용한다.

 

URI vs URN vs URL?

URI는 URL과 URN의 상위개념이다. URL과 URN에서 추천되는 방식을 참고해서 만들어 졌으며, 기본 구성은 다음과 같다.

URN은 URI를 구성하기 위해 만들어진 이름이다. 영속적이고 독립적인 자원의 위치를 가리키는 이름이다. URN의 구성은 다음과 같다.

URL은 URI에서 #<fragment>를 사용하지 않는 구조다. 

URL의 기본 표현 방법은 다음과 같다. 데이터베이스 프로토콜 또한 이 방식으로 표현된다.

흔히 사용하는 HTTP 프로토콜의 URL의 scheme은 다음과 같다.

scheme : http / ftp 등의 프로토콜을 의미한다.

authority : 호스트 이름을 의미한다. 사용자이름/패스워드 등을 넣는다.

path : 호스트 내부의 구체적인 리소스 경로를 의미한다.

query : ? 뒤에 나오는 경로와는다른 방법으로 리소스의 위치를 표현한다. 

flagment : # 리소스 내부의 특정 부분을 지칭한다.

 

더 읽을거리

 

 

CrawlSpider Rule 10분만에 이해하기

CrawlSpider를 사용해서 Crawling을 진행한다. 먼저 Rule을 셋팅한다. allow , deny, follow, callback 파라미터를 전달하고, 이에 맞는 링크를 추출해서, 해당 페이지의 정보들을 크롤링하는 방법이다. CralwSpid..

incomeplus.tistory.com

 

반응형

댓글