Selenium설정 방법
1. Selenium 공식 사이트 jar 다운로드
https://www.selenium.dev/downloads/
사이트에 접속하여 아래 zip 파일을 다운받아줍니다.
2. Java Web Project에 추가하기
zip파일에 selenium-java-4.24.0.jar를 WEB-INF -> lib 에 추가해주자.
이제 Web에서 Selenium을 사용할 준비가 완료되었다.
이제 우리 팀프로젝트에 맞는 사이트를 찾아서 웹 크롤링을 진행해보자.
확인하나 해보고 진행하자.
"robots.txt"
이게 무엇이냐 웹 사이트에서 크롤링을 하면서 정보 수집을 할때
해어느 페이지가 정보 수집이 가능한지 안되는지를 알려주는 역할을 한다.
여기서 아래를 참고해서 사이트를 찾자.
- User-agent : robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정
- Allow : 크롤링을 허용할 경로
- Disallow : 크롤링을 제한할 경로
- Sitemap : 사이트맵이 위치한 경로의 전체 URL(https:// 부터 /sitemap.xml 까지의 전체 절대경로 URL).
이걸 바탕으로 사이트를 찾아보았다.
찾아보니 클라이밍 사이트로 스피릿이 가장 좋아보였다.
해당 사이트의 robots.txt 를 확인해볼때 크롤링을 사용해도 된다고 되어 있다.
물론 괜찮다고 해도 크롤링을 남용하면 안된다는 것을 기억하자.
설정 및 사이트를 찾았으니 다음에는 selenium을 이용해서 크롤링을 해보도록 하겠다
728x90
'추가 공부 > Web' 카테고리의 다른 글
JSP Selenium 사용해보기 2 (3) | 2024.09.03 |
---|---|
JSP Selenium 사용해보기 1 (0) | 2024.09.02 |
2023년 3월 이후 새로 개설된 JavaScript importmap (1) | 2024.09.02 |
쉽게 배우는 HTML5 & CSS3 & JavaScript 2 (1) | 2024.09.01 |
cos 라이브러리와 @MultipartConfig() 의 차이점 (0) | 2024.08.29 |