首先我本人是个JAVA 开发者,开发正常网页 ,没研究过爬虫
个人理解 爬虫就是把 HTML文件爬下来 然后在HTML文件内 找到有用的数据 保存到自己的数据库或文件里
这套操作 JAVA C# 似乎都可以轻松做到 ,为什么都说爬虫PYTHON好,优势在哪里,求大佬解惑
python上手容易,第三方库多(go现在第三方库也多)。
如果不考虑采集速度,不用登陆——requests,单线程,简单的代码如下:
url = "http://dd.com"
html = requests.get(url)
html.encoding=('GBK') #避免编码问题 如有报错,另外测试
print (html.text[:1000]) #输出1000个字符,避免ide假死。
本人没学过java c#,不清楚他们两个一个简单爬虫的代码量,想来最起码比python的要多。
不过说实话python的工作机会没有 java c#的多,也就是说别想着花钱去培训班培训了几个月,就能找到月入过万的工作。
python的运行效率比其他编程语言要差,不考虑效率的情况下,可以用python写写小代码,有钱的可以写scrapy代码,堆服务器做分布式爬虫。