본문 바로가기

크롤링2

[웹 크롤링] Jsoup? Jsoup? 자바로 만들어진 HTML 파서 이며 쉽고 강력한 기능을 제공한다. URL, 파일, 문자열을 소스로 하여 html을 파싱 가능 DOM 구조를 추적하거나 익숙한 CSS선택자를 사용하여 데이터를 찾아 추출 가능 문서내의 HTML요소, 속성, 텍스트 조작 가능 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 제거 가능 +XSS? 사용자 입력 값에 대한 필터링이 제대로 이루어지지 않을 경우, 공격자가 입력이 가능한 폼에 악의적인 스크립트를 삽입하여 해당 스크립트가 희생자 측에서 동작하도록 하여 악의적인 행위를 수행하는 취약점 Jsoup Document https://jsoup.org/ jsoup: Java.. 2022. 2. 22.
[웹 크롤링] 웹 크롤링? 웹 크롤링(Web Crawling)? web상에 존재하는 콘텐츠들을 수집하는 작업 원하는 조건에 맞는 데이터를 직접 수집하고 저장하는 목적을 가지고있다. HTML 페이지를 가져와서 파싱 후 데이터를 추출하는 기법 Selenium등 브라우저를 프로그래밍으로 조작해 필요 데이터만 추출하는 기법 대표적으로 Frontier / Fetcher / Parser가 있다. Frontier : 중복URL / 방문한 URL을 제외한 탐색할 URL을 Fetcher에 넘겨준다. Fetcher : 받아온 페이지의 html내용을 parser에 넘겨준다. Parser : 다른 하이퍼링크를 찾는 역할 Content Seen : 방문한 페이지의 본문이 이미 본 내용인지 Dup URL Elim : 방문한 페이지를 다시 방문하지 않도록 .. 2022. 2. 22.
반응형