用requests库获取网页信息却发现与实际网页内容不一致,如何解决?
欢迎各位小伙伴来到,相聚于此都是缘哈哈哈!今天我给大家带来,这篇文章主要讲到等等知识,如果你对文章相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!
requests库无法获取网页信息?
想要通过requests库获取某物流公司的物流信息,却发现获取到的信息与网页代码存在较大差异。
问题原因:
从代码中url部分可以看出,该网页包含javascript引用。这些javascript文件可能包含了动态生成网页内容的代码。因此,单纯使用requests库无法获取到这些动态加载的信息。
解决方案:
可以使用selenium等模拟浏览器行为的库,模拟用户打开网页的过程,从而获取到动态加载的信息。
示例代码:
import time from selenium import webdriver # 创建浏览器实例 driver = webdriver.Chrome() # 打开页面 url = "http://qqb3c.cn/webapp/orderDetail.html?orderNumber=D89F3A35931C386956C1A402A8E09941@11339833&openid=" driver.get(url) # 等待页面加载完成 time.sleep(5) # 获取物流信息 logistics_info = driver.find_element_by_id('logisticsInfo').text # 打印物流信息 print(logistics_info) # 关闭浏览器 driver.quit()
今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注公众号,一起学习编程~