Selenium설정 방법

1. Selenium 공식 사이트 jar 다운로드

https://www.selenium.dev/downloads/

 

Downloads

Downloads Below is where you can find the latest releases of all the Selenium components. You can also find a list of previous releases, source code, and additional information for Maven users.

www.selenium.dev

 

사이트에 접속하여 아래 zip 파일을 다운받아줍니다.

 

2. Java Web Project에 추가하기

zip파일에 selenium-java-4.24.0.jar를 WEB-INF -> lib 에 추가해주자.

 

이제 Web에서 Selenium을 사용할 준비가 완료되었다.

 

이제 우리 팀프로젝트에 맞는 사이트를 찾아서 웹 크롤링을 진행해보자.

확인하나 해보고 진행하자.

 

"robots.txt"

이게 무엇이냐 웹 사이트에서 크롤링을 하면서 정보 수집을 할때

해어느 페이지가 정보 수집이 가능한지 안되는지를 알려주는 역할을 한다.

여기서 아래를 참고해서 사이트를 찾자.

  1. User-agent : robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정
  2. Allow : 크롤링을 허용할 경로 
  3. Disallow : 크롤링을 제한할 경로 
  4. Sitemap : 사이트맵이 위치한 경로의 전체 URL(https:// 부터 /sitemap.xml 까지의 전체 절대경로 URL).

 

이걸 바탕으로 사이트를 찾아보았다.

https://spiri7.com/

 

스피릿 | 클라이머를 위한 기록, 경쟁, 스토어 앱 SPIRI7

스피릿에서 볼더링 활동을 기록, 성적을 비교하고 다른 클라이머들과 소통하세요. 클라이밍 커뮤니티에서 클라이밍 최신 소식을 확인하고 최저가에 암벽화와 용품을 구매할 수 있어요. 스피릿

spiri7.com

찾아보니 클라이밍 사이트로 스피릿이 가장 좋아보였다.

해당 사이트의 robots.txt 를 확인해볼때 크롤링을 사용해도 된다고 되어 있다.

https://spiri7.com/robots.txt

 

물론 괜찮다고 해도 크롤링을 남용하면 안된다는 것을 기억하자.

 

설정 및 사이트를 찾았으니 다음에는 selenium을 이용해서 크롤링을 해보도록 하겠다

 

728x90
개발자가 되고 싶은 곰