程序开发 · 2024年5月27日

相同 URL，Windows 爬取成功，Linux 却返回 403：如何解决爬虫难题？

相同 URL，Windows 爬取成功，Linux 却返回 403：如何解决爬虫难题？

爬虫遇到难题：同一 url 在 linux 返回 403

在尝试使用 python 的 requests 库爬取新浪新闻的 json 格式新闻信息时，开发人员遇到了一个奇怪的问题：相同 url 在 windows 系统下可以正常爬取，但在 linux 系统下却返回 403 错误。

这个 url（https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1）提供的是新浪新闻的异步加载新闻信息。而在 windows 系统中，使用以下代码可以正常获取新闻信息：

import requests

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.1) Gecko/20021104 Chimera/0.6'}

url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1" class="uri'

resp = requests.get(url, headers=headers)

print(resp.status_code)

然而，在 linux 系统中，使用同样的代码却报出 403 错误。这让人困惑，因为该 url 并未启用反爬虫机制。

经过探索，发现问题可能出在 linux 系统的 ip 地址上。使用 curl 命令尝试访问该 url 时，发现同样可以正常访问。因此，建议检查 linux 系统的 ip 地址是否被新浪新闻屏蔽或限制。通过更换 ip 地址或使用代理服务器，可能会解决这个问题。

理论要掌握，实操不能落！以上关于《相同 URL，Windows 爬取成功，Linux 却返回 403：如何解决爬虫难题？》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注公众号吧！

标签： 100Gbps服务器 24/7支持 CDN服务 EPYC处理器 IP传输 NVMe存储 VPS服务器专用服务器全球服务器即时部署数据中心托管数据隐私服务器折扣灵活支付高速带宽

您可能还喜欢...