Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 한글
- FLUTTER
- Realm
- Session
- error
- github
- Git
- 이미지
- 개발자
- appstore
- Apple
- view
- Archive
- SwiftUI
- Xcode
- iOS16
- 웹뷰
- MacOS
- mac
- Swift
- darkmode
- UIButton
- geofencing
- Notification
- window
- IOS
- Code
- Firebase
- JPA
- rxswift
Archives
- Today
- Total
EEYatHo 앱 깎는 이야기
크롤링 ) 기본지식 본문
반응형
페이지 종류
- 정적 페이지
- url이 같다면 같은 페이지. 일반적인 페이지.
- 크롤링 방법 = requests + beautifulSoup
- 동적 페이지
- url은 같은데, html이 동적으로 변하는 페이지. 스크롤이나 클릭시 상품 데이터가 더 생기는 등.
(ex. 네이버 쇼핑 검색결과 페이지) - 크롤링 방법 = selenium
- url은 같은데, html이 동적으로 변하는 페이지. 스크롤이나 클릭시 상품 데이터가 더 생기는 등.
태그 구성요소
- 태그명
- 속성명
- 속성값
- 내용
<태그명 속성명="속성값"> 내용 </태그명>
CSS 선택자
- 크롤링하려면, 내가 원하는 내용이 들어있는 태그를 찾아야한다.
해당 태그를 찾기위한 4가지 선택자.
- 태그 : "태그명"
(a태그 찾기 = "a") - 클래스 : #클래스명
(a클래스 찾기 = "#a") - id : .id
(id가 a인 태그 찾기 = ".a") - 자식 : 부모선택자 > 자식선택자
(id가 a인 태그의 자식 중 div 태그 찾기 = ".a > div"
- and조건 가능 : a태그의 loginButton클래스라면, a.loginButton
- id값은 해당 페이지에서 무조건 단 하나뿐
기본적인 파이썬 문법
- 일정시간 기다려주기
import time
time.sleep(2) # 2 seconds
크롬 개발자 페이지 사용법
- 크롬 개발자 페이지 열기 : f12
- 태그 검색하기
- macOS : command + f 후 CSS선택자 입력
- window : crtl + f 후 CSS선택자 입력
- 웹 페이지에 보이는 Component가 어떤 태그에 해당하는지 찾기
- 좌측 상단의 버튼 클릭 후, 마우스를 원하는 Component 위에 두면, 태그가 하이라이팅 됨
'Server > 크롤링' 카테고리의 다른 글
크롤링 ) Selenium (2) | 2023.03.15 |
---|---|
크롤링 ) requests + beautifulSoup (0) | 2023.03.15 |
Comments