<aside>

📑 프로젝트 요약



🧑🏻‍💻 담당 역할

  1. Python 기반 데이터 수집 자동화 및 레시피 크롤링
  2. Pandas 기반 머신러닝용 레시피 데이터 전처리 및 중복 제거
  3. Oracle·Express 기반 레시피 리스트 REST API 개발 및 React 목록 페이지 연동
  4. Python·Flask 기반 AI 추천 기능 REST API 개발 및 React 연동
  5. 중간 기획 발표 및 PPT 제작

🧑🏻‍💻 직접 사용한 기술

<aside> <img src="/icons/bookmark_blue.svg" alt="/icons/bookmark_blue.svg" width="40px" />

⚠️ Troubleshooting - 1

🦊 Github , Role

📝 Results and Reflections

</aside>

https://github.com/Seong-taeHan/yogoDam

</aside>


🛠️ System Design & Implementation

스크린샷 2025-07-15 오전 9.19.22.png

스크린샷 2025-07-15 오전 9.20.42.png

스크린샷 2025-07-15 오후 3.24.59.png


⚠️ Troubleshooting - 1

스크린샷 2025-07-15 오전 9.57.12.png

<aside> <img src="/icons/cursor_gray.svg" alt="/icons/cursor_gray.svg" width="40px" />

트러블슈팅 : 서버 접속 제한 문제 해결 과정

웹 크롤링을 통해 데이터를 수집할 때, 사이트마다 설정된 서버 접속 횟수 제한에 걸리는 문제가 발생했습니다. 이는 크롤링이 짧은 시간에 여러 번 요청을 보내는 특성 때문에, 서버에서 비정상적인 접근으로 간주되어 접속이 차단되는 현상입니다.


이를 해결하기 위해 아래와 같은 방법을 적용했습니다.

1. User-Agent 헤더 설정

실제 사용자 브라우저(예: Chrome)에서 접속한 것처럼 보이도록, requests 요청 시 User-Agent 값을 명시하여 서버 접근을 우회했습니다.

2. 요청 속도 조절 (딜레이 설정)

반복문으로 크롤링 시, time.sleep()을 활용해 일정 간격을 두고 요청을 보냄으로써, 서버 과부하와 차단 리스크를 최소화했습니다.


결과

모든 대상 URL에 차단 없이 정상 접근하여, 목표한 레시피 데이터를 성공적으로 수집했습니다.

</aside>