728x90
웹 크롤러 좀 그만 만들어라
- 대부분
크롤러 만들기: scarpy, 셀레니움, beautifulsoup4 사용하여
웹 사이트 긁어냄
- 진정한 크롤링
더 이상 방문페이지가 없을 때까지 url을 계속 탐색
www를 대상으로 DFS, BFS 실행(알고리즘)
CSS selector가 아닌 DOM을 사용하여 본문 데이터를 가져옴
- robots.txt 윤리에 대한 설명 필요
https://www.google.com/robots.txt
각 사이트 별 루트 경로의 로봇룰이 적혀 있으며 '크롤러'를 만든다면 이 룰을 따라야함
출처:
https://velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I
'프로그래밍 > 개발 상식 등' 카테고리의 다른 글
[독서] HTM5 독학백서 (0) | 2022.03.31 |
---|---|
구글링 잘하는 법 (0) | 2022.03.31 |
[독서] IT비전공자를 위한 돈 버는 파이썬 코딩 (0) | 2022.03.31 |
주니어 개발자가 빠르게 성장할 수 있는 비법은?(feat. 노마드코더) (0) | 2022.03.31 |
[독서] 오늘부터 개발자 (0) | 2022.03.29 |
댓글