EEYatHo 앱 깎는 이야기

크롤링 ) 기본지식 본문

Server/크롤링

크롤링 ) 기본지식

EEYatHo 2023. 3. 15. 22:21
반응형

 

 

 

페이지 종류


  • 정적 페이지
    • url이 같다면 같은 페이지. 일반적인 페이지. 
    • 크롤링 방법 = requests + beautifulSoup
  • 동적 페이지
    • url은 같은데, html이 동적으로 변하는 페이지. 스크롤이나 클릭시 상품 데이터가 더 생기는 등.
      (ex. 네이버 쇼핑 검색결과 페이지)
    • 크롤링 방법 = selenium

 

 

 

태그 구성요소


  • 태그명
  • 속성명
  • 속성값
  • 내용
<태그명 속성명="속성값"> 내용 </태그명>

 

 

 

CSS 선택자


  • 크롤링하려면, 내가 원하는 내용이 들어있는 태그를 찾아야한다.
    해당 태그를 찾기위한 4가지 선택자.
  1. 태그 : "태그명"
    (a태그 찾기 = "a") 
  2. 클래스 : #클래스명
    (a클래스 찾기 = "#a")
  3. id : .id
    (id가 a인 태그 찾기 = ".a")
  4. 자식 : 부모선택자 > 자식선택자
    (id가 a인 태그의 자식 중 div 태그 찾기 = ".a > div"
  • and조건 가능 : a태그의 loginButton클래스라면, a.loginButton
  • id값은 해당 페이지에서 무조건 단 하나뿐

 

 

 

기본적인 파이썬 문법


  • 일정시간 기다려주기
import time

time.sleep(2) # 2 seconds

 

 

 

크롬 개발자 페이지 사용법


  • 크롬 개발자 페이지 열기 : f12

 

  • 태그 검색하기
    • macOS : command + f 후 CSS선택자 입력
    • window : crtl + f 후 CSS선택자 입력

 

  • 웹 페이지에 보이는 Component가 어떤 태그에 해당하는지 찾기
    • 좌측 상단의 버튼 클릭 후, 마우스를 원하는 Component 위에 두면, 태그가 하이라이팅 됨

 

 

'Server > 크롤링' 카테고리의 다른 글

크롤링 ) Selenium  (2) 2023.03.15
크롤링 ) requests + beautifulSoup  (0) 2023.03.15
Comments