네이버 스크래핑
-
[Node.js] node.js 크롤링 방지 우회하기(네이버 크롤링)개발/Javascript 2018. 11. 19. 23:52
node.js 크롤링 방지 우회하기(네이버 크롤링).md 웹 크롤링을 이용하는 프로젝트를 진행하다보면, 네이버, 구글, 다음과 같은 대형 포털사이트를 크롤링하여 정보를 얻는 경우가 많습니다. node.js환경에서 웹 크롤링 하기(cheerio-httpcli) https://hanswsw.tistory.com/6 그런데, 원래 하던대로 크롤링을 해도, 원하는 결과값을 얻지 못할 때가 있습니다. 물론 코드가 잘못됐거나, 크롤링할 selector을 잘못 지정했을 수도 있지만, 네이버같은 대형 포털사이트의 경우에는, 웹서버에서 크롤링 봇을 탐지해서 차단했을 가능성이 높습니다. 네이버에서 차단된 경우, "검색 서비스 이용이 제한되었습니다." 라는 문구가 보입니다. 이러한 경우, 간단한 헤더 설정으로 크롤링 탐지를..