程序开发 · 2024年1月13日

爬虫无法下载附件，如何解决附件 URL 处理问题？

爬虫无法下载附件，如何解决附件 URL 处理问题？

文章小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《爬虫无法下载附件，如何解决附件 URL 处理问题？》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

爬虫附件下载问题解答

在给定的代码片段中，无法下载附件的原因可能是缺少对附件 url 的正确处理。代码中使用 download 函数下载附件，但未正确提取附件 url。

为了解决此问题，需要修改代码中的以下部分：

if '&lt;a' in contents:  # 判断附件
    fileUrls = re.findall(r'href=&quot;(.*?)&quot;', contents, 0)
    for fileUrl in fileUrls:
        fileUrl = 'http://www.liyang.gov.cn/' + fileUrl
        print(fileUrl)
        download(fileUrl.split('/' + '[-1], fileUrl, path)  # 下载附件

修改后，代码可以正确提取附件 url 并完成下载附件操作。

到这里，我们也就讲完了《爬虫无法下载附件，如何解决附件 URL 处理问题？》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注公众号，带你了解更多关于的知识点！

标签： 100Gbps服务器 24/7支持 CDN服务 EPYC处理器 IP传输 NVMe存储 VPS服务器专用服务器全球服务器即时部署数据中心托管数据隐私服务器折扣灵活支付高速带宽

您可能还喜欢...