본문 바로가기
개발 이론[기타..]

[웹 크롤링] 웹 크롤링?

by oomm112 2022. 2. 22.

웹 크롤링(Web Crawling)?

web상에 존재하는 콘텐츠들을 수집하는 작업

원하는 조건에 맞는 데이터를 직접 수집하고 저장하는 목적을 가지고있다.

  • HTML 페이지를 가져와서 파싱 후 데이터를 추출하는 기법
  • Selenium등 브라우저를 프로그래밍으로 조작해 필요 데이터만 추출하는 기법

(출처: Stanford_IR_ch20)

대표적으로  Frontier / Fetcher / Parser가 있다.

  1. Frontier : 중복URL / 방문한 URL을 제외한 탐색할 URL을 Fetcher에 넘겨준다.
  2. Fetcher : 받아온 페이지의 html내용을 parser에 넘겨준다.
  3. Parser : 다른 하이퍼링크를 찾는 역할
  4. Content Seen : 방문한 페이지의 본문이 이미 본 내용인지
  5. Dup URL Elim : 방문한 페이지를 다시 방문하지 않도록 중복된 URL을 제거한다.

웹 스크래핑 vs 웹 크롤링?

웹 스크래핑원하는 데이터를 웹에서 추출하는 것을 말하며, 크롤링일반적으로 “crawler”라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램의 능력을 의미한다.

 

 

※ Robots.txt 윤리란?

웹 페이지를 아무렇게나 긁어서는 안되고 robots.txt에 작성된 줄에 따라서 수집가능 페이지 (Allow) / 수집 불가능 페이지(Disallow)가 존재한다.

robots.txt를 지키지 않고 크롤링 할 경우 법적으로 문제가 될 수 있다.

 

ex) http://naver.com/robots.txt

 

 

반응형

댓글