본문 바로가기

개발 이론[기타..]

[웹 크롤링] 웹 크롤링?

by oomm112 2022. 2. 22.

웹 크롤링(Web Crawling)?

web상에 존재하는 콘텐츠들을 수집하는 작업

원하는 조건에 맞는 데이터를 직접 수집하고 저장하는 목적을 가지고있다.

HTML 페이지를 가져와서 파싱 후 데이터를 추출하는 기법
Selenium등 브라우저를 프로그래밍으로 조작해 필요 데이터만 추출하는 기법

(출처: Stanford_IR_ch20)

대표적으로 Frontier / Fetcher / Parser가 있다.

Frontier : 중복URL / 방문한 URL을 제외한 탐색할 URL을 Fetcher에 넘겨준다.
Fetcher : 받아온 페이지의 html내용을 parser에 넘겨준다.
Parser : 다른 하이퍼링크를 찾는 역할
Content Seen : 방문한 페이지의 본문이 이미 본 내용인지
Dup URL Elim : 방문한 페이지를 다시 방문하지 않도록 중복된 URL을 제거한다.

웹 스크래핑 vs 웹 크롤링?

웹 스크래핑은 원하는 데이터를 웹에서 추출하는 것을 말하며, 크롤링은 일반적으로 “crawler”라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램의 능력을 의미한다.

※ Robots.txt 윤리란?

웹 페이지를 아무렇게나 긁어서는 안되고 robots.txt에 작성된 줄에 따라서 수집가능 페이지 (Allow) / 수집 불가능 페이지(Disallow)가 존재한다.

robots.txt를 지키지 않고 크롤링 할 경우 법적으로 문제가 될 수 있다.

ex) http://naver.com/robots.txt

저작자표시 비영리 변경금지

'개발 이론[기타..]' 카테고리의 다른 글

6. [전자계산기] 불(Boolean) 대수 (0)	2022.02.21
5. [전자계산기] 컴퓨터의 발전 과정 (0)	2022.02.21
4. [전자계산기] 입/출력장치 (0)	2022.02.21
3. [전자계산기] 마이크로프로세서 (RISC/CISC) (0)	2022.02.21
2.[전자계산기] CPU의 구성 (제어장치/연산장치/레지스터) (0)	2022.02.21

댓글

티스토리툴바