Fetcher1 [웹 크롤링] 웹 크롤링? 웹 크롤링(Web Crawling)? web상에 존재하는 콘텐츠들을 수집하는 작업 원하는 조건에 맞는 데이터를 직접 수집하고 저장하는 목적을 가지고있다. HTML 페이지를 가져와서 파싱 후 데이터를 추출하는 기법 Selenium등 브라우저를 프로그래밍으로 조작해 필요 데이터만 추출하는 기법 대표적으로 Frontier / Fetcher / Parser가 있다. Frontier : 중복URL / 방문한 URL을 제외한 탐색할 URL을 Fetcher에 넘겨준다. Fetcher : 받아온 페이지의 html내용을 parser에 넘겨준다. Parser : 다른 하이퍼링크를 찾는 역할 Content Seen : 방문한 페이지의 본문이 이미 본 내용인지 Dup URL Elim : 방문한 페이지를 다시 방문하지 않도록 .. 2022. 2. 22. 이전 1 다음 반응형