웹 크롤링(Web Crawling)?
web상에 존재하는 콘텐츠들을 수집하는 작업
원하는 조건에 맞는 데이터를 직접 수집하고 저장하는 목적을 가지고있다.
- HTML 페이지를 가져와서 파싱 후 데이터를 추출하는 기법
- Selenium등 브라우저를 프로그래밍으로 조작해 필요 데이터만 추출하는 기법
대표적으로 Frontier / Fetcher / Parser가 있다.
- Frontier : 중복URL / 방문한 URL을 제외한 탐색할 URL을 Fetcher에 넘겨준다.
- Fetcher : 받아온 페이지의 html내용을 parser에 넘겨준다.
- Parser : 다른 하이퍼링크를 찾는 역할
- Content Seen : 방문한 페이지의 본문이 이미 본 내용인지
- Dup URL Elim : 방문한 페이지를 다시 방문하지 않도록 중복된 URL을 제거한다.
웹 스크래핑 vs 웹 크롤링?
웹 스크래핑은 원하는 데이터를 웹에서 추출하는 것을 말하며, 크롤링은 일반적으로 “crawler”라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램의 능력을 의미한다.
※ Robots.txt 윤리란?
웹 페이지를 아무렇게나 긁어서는 안되고 robots.txt에 작성된 줄에 따라서 수집가능 페이지 (Allow) / 수집 불가능 페이지(Disallow)가 존재한다.
robots.txt를 지키지 않고 크롤링 할 경우 법적으로 문제가 될 수 있다.
ex) http://naver.com/robots.txt
반응형
'개발 이론[기타..]' 카테고리의 다른 글
6. [전자계산기] 불(Boolean) 대수 (0) | 2022.02.21 |
---|---|
5. [전자계산기] 컴퓨터의 발전 과정 (0) | 2022.02.21 |
4. [전자계산기] 입/출력장치 (0) | 2022.02.21 |
3. [전자계산기] 마이크로프로세서 (RISC/CISC) (0) | 2022.02.21 |
2.[전자계산기] CPU의 구성 (제어장치/연산장치/레지스터) (0) | 2022.02.21 |
댓글