为什么都说爬虫PYTHON好?

首先我本人是个JAVA 开发者,开发正常网页 ,没研究过爬虫

个人理解 爬虫就是把 HTML文件爬下来 然后在HTML文件内 找到有用的数据 保存到自己的数据库或文件里

这套操作 JAVA C# 似乎都可以轻松做到 ,为什么都说爬虫PYTHON好,优势在哪里,求大佬解惑

JAVA C#一样可以做,只是Python有很多爬虫框架,相对的学习成本,开发效率都要高很多。
“HTML文件爬下来 然后在HTML文件内”算入门级的知识点,实际应用中要复杂的多。反爬虫一项就有非常多的内容。
你有做个网页开发,应该知道,现在的网页,大多是动态的,直接请求到的页面并非最终显示的页面。期间有大量的接口请求,然后通过返回的数据,本地渲染最终页面。这类爬虫就需要跟踪目标网页的请求过程,分析接口。
再者,爬取数据也只是爬虫工作的一部分,还有数据清洗,数据转存,爬虫的云端部署,等等等。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2020-07-14

python上手容易,第三方库多(go现在第三方库也多)。

如果不考虑采集速度,不用登陆——requests,单线程,简单的代码如下:

url = "http://dd.com"

html = requests.get(url)

html.encoding=('GBK') #避免编码问题 如有报错,另外测试

print (html.text[:1000]) #输出1000个字符,避免ide假死。

本人没学过java  c#,不清楚他们两个一个简单爬虫的代码量,想来最起码比python的要多。

不过说实话python的工作机会没有 java c#的多,也就是说别想着花钱去培训班培训了几个月,就能找到月入过万的工作。

python的运行效率比其他编程语言要差,不考虑效率的情况下,可以用python写写小代码,有钱的可以写scrapy代码,堆服务器做分布式爬虫。

第2个回答  2020-07-14
者,开发正常网页 ,没研究过爬虫 个人理解
相似回答