从零开始学Python-使用Selenium抓取动态网页数据

如题所述

第1个回答  2022-07-28

  AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行局部更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。

  因为传统的网页在传输数据格式方面,使用的是 XML 语法,因此叫做 AJAX ,其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据,即使使用了JS将数据渲染到了浏览器中,在 右键->查看网页源代码 还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。

  法1:直接分析ajax调用的接口。然后通过代码请求这个接口。

  法2:使用Selenium+chromedriver模拟浏览器行为获取数据。

  Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:

  现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门:


参考:Selenium的使用


直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

第2个回答  2023-08-02
您可以按照以下步骤来配置八爪鱼采集器进行数据采集:1. 打开八爪鱼采集器,并创建一个新的采集任务。2. 在任务设置中,输入要采集的网址作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则。4. 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,并设置相应的采集规则,以确保正确获取所需的数据。5. 设置翻页规则。如果需要采集多页数据,可以设置八爪鱼采集器自动翻页,以获取更多的数据。6. 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集数据。7. 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,可以帮助您轻松解决数据采集问题。了解更多八爪鱼采集器的功能和使用方法,请前往官网教程与帮助了解更多详情。
相似回答