728x90
반응형
안녕하세요 늑대양입니다 :)
오늘은 [AI 데이터 사이언티스트 취업 완성 과정]의 14일차 일과를 정리하여 안내해드리도록 하겠습니다.
내일은 추석연휴 휴일입니다!
Day 14. 시간표:
- 선택학습
- 오프라인 강의: [웹크롤링 실전 : Python]
Day 14. 웹크롤링 실전 : Python
데이터 크롤링:
Selenium (셀레니움):
- 웹 어플리케이션 테스트를 위한 프레임워크
- 다양한 브라우저 작동을 지원하며 크롤링에도 활용가능
- 인스타그램, 페이스북 등의 페이지도 크롤링 가능!
- 정적, 동적페이지 크롤링으로도 접근이 불가능한 데이터에 접근할 때 유용하게 사용
- 현존하는 거의 모든 웹브라우저를 다양한 언어를 통해 제어 가능
Selenium setting:
# 패키지 설치
# 셀레니움 설치
!pip install selenium --trusted-host pypi.org --trusted-host files.pythonhosted.org
# 크롬드라이버 관리 툴 설치
!pip install webdriver-manager --trusted-host pypi.org --trusted-host files.pythonhosted.org
# 셀레니움 import
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
# webdriver 자동설정
def set_chrome_driver():
chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
return driver
# set_chrome_driver() 실행!
set_chrome_driver()
>[WDM] - Downloading: 100%|█████████████████| 8.15M/8.15M [00:02<00:00, 3.58MB/s]
<selenium.webdriver.chrome.webdriver.WebDriver (session="3c34d2f96c8e17c988559a071ea611d6")>
# driver 변수 설정
driver = set_chrome_driver()
# 설정한 url로 데이터 get함수로 요청
url = 'https://naver.com'
driver.get(url)
# 선택항목 클릭
# 스포츠 항목으로 넘어감!!
driver.find_element(By.XPATH, '//*[@id="NM_THEME_CATE_LIST"]/li[2]/a').click()
# 네이버 검색창 클릭
driver.find_element(By.XPATH, '//*[@id="query"]').click()
# 검색어 입력
driver.find_element(By.XPATH, '//*[@id="query"]').send_keys("투헬 경질")
# 입력테스트 지우기
driver.find_element(By.XPATH, '//*[@id="query"]').clear()
# 검색어 입력 - 2 # 엔터까지 동시에 입력!
driver.find_element(By.XPATH, '//*[@id="query"]').send_keys("투헬 경질\n")
# 웹페이지 뒤로
driver.back()
인스타그램 크롤링:
robot.txt 사이트:
- robots.txt 파일은 크롤러가 사이트에서 액세스할 수 있는 URL을 검색엔진 크롤러에 알려 줍니다.
- 이 파일은 주로 요청으로 인해 사이트가 오버로드되는 것을 방지하기 위해 사용합니다.
구글: https://www.google.com/robots.txt
인스타그램: https://instagram.com/robots.txt
네이버: https://naver.com/robots.txt
728x90
반응형
'AI > [부트캠프] 데이터 사이언티스트 과정' 카테고리의 다른 글
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 19. (0) | 2022.09.19 |
---|---|
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 18. (2) | 2022.09.16 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 13. (0) | 2022.09.07 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 12. (0) | 2022.09.06 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 11. (0) | 2022.09.05 |