본문 바로가기
프로그래밍/개발 상식 등

[요약] 웹 크롤러 좀 그만 만들어라

by 숙님 2022. 3. 31.
728x90

웹 크롤러 좀 그만 만들어라 

- 대부분
크롤러 만들기: scarpy, 셀레니움, beautifulsoup4 사용하여
웹 사이트 긁어냄

- 진정한 크롤링
더 이상 방문페이지가 없을 때까지 url을 계속 탐색
www를 대상으로 DFS, BFS 실행(알고리즘)
CSS selector가 아닌 DOM을 사용하여 본문 데이터를 가져옴 


- robots.txt 윤리에 대한 설명 필요
https://www.google.com/robots.txt
각 사이트 별 루트 경로의 로봇룰이 적혀 있으며 '크롤러'를 만든다면 이 룰을 따라야함 

출처:
https://velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I

댓글