<aside>
<aside> <img src="/icons/bookmark_blue.svg" alt="/icons/bookmark_blue.svg" width="40px" />
</aside>
https://github.com/Seong-taeHan/yogoDam
</aside>
<aside> <img src="/icons/cursor_gray.svg" alt="/icons/cursor_gray.svg" width="40px" />
웹 크롤링을 통해 데이터를 수집할 때, 사이트마다 설정된 서버 접속 횟수 제한에 걸리는 문제가 발생했습니다. 이는 크롤링이 짧은 시간에 여러 번 요청을 보내는 특성 때문에, 서버에서 비정상적인 접근으로 간주되어 접속이 차단되는 현상입니다.
이를 해결하기 위해 아래와 같은 방법을 적용했습니다.
실제 사용자 브라우저(예: Chrome)에서 접속한 것처럼 보이도록,
requests
요청 시 User-Agent
값을 명시하여 서버 접근을 우회했습니다.
반복문으로 크롤링 시, time.sleep()
을 활용해 일정 간격을 두고 요청을 보냄으로써,
서버 과부하와 차단 리스크를 최소화했습니다.
결과
모든 대상 URL에 차단 없이 정상 접근하여, 목표한 레시피 데이터를 성공적으로 수집했습니다.
</aside>