许多网站不会在页面加载时显示所有搜索结果,而只在需要时显示它们,例如访问者继续滚动表示他们想要查看更多内容。
我们可以使用javascript滚动到页面底部 window.scrollTo(0,document.body.scrollHeight) ,(你可能希望循环这个,如果你期望数百个结果)强制页面上的所有结果,之后我们可以抓取HTML。
window.scrollTo(0,document.body.scrollHeight)
下面应该做的伎俩。
browser = webdriver.Firefox(executable_path=r'D:\geckodriver\geckodriver.exe') url1 = "https://www.linkedin.com/sales/search/company?companySize=E&geoIncluded=emea%3A0%2Ceurope%3A0&industryIncluded=6&keywords=AI&page=1&searchSessionId=zreYu57eQo%2BSZiFskdWJqg%3D%3D" browser.get(url1) time.sleep(15) browser.execute_script('window.scrollTo(0,document.body.scrollHeight)') time.sleep(15) parsed = browser.find_element_by_tag_name('html').get_attribute('innerHTML') soup = BeautifulSoup(parsed, 'html.parser') search_results = soup.select('dt.result-lockup__name a') print(len(search_results))