从零开始学Python-使用Selenium抓取动态网页数据

如题所述

第1个回答 2022-07-28

　　AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

　　因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

　　法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

　　法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

　　Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

　　现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

第2个回答 2023-08-02

您可以按照以下步骤来配置八爪鱼采集器进行数据采集：1. 打开八爪鱼采集器，并创建一个新的采集任务。2. 在任务设置中，输入要采集的网址作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能，让八爪鱼自动识别页面的数据结构，或者手动设置采集规则。4. 如果手动设置采集规则，可以通过鼠标选择页面上的数据元素，并设置相应的采集规则，以确保正确获取所需的数据。5. 设置翻页规则。如果需要采集多页数据，可以设置八爪鱼采集器自动翻页，以获取更多的数据。6. 运行采集任务。确认设置无误后，可以启动采集任务，让八爪鱼开始采集数据。7. 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据，并将其保存到本地或导出到指定的数据库等。八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器，可以帮助您轻松解决数据采集问题。了解更多八爪鱼采集器的功能和使用方法，请前往官网教程与帮助了解更多详情。

相似回答

从零开始学python爬虫(八):selenium提取数据和其他使用方法答：知识点：掌握利用selenium获取cookie的方法知识点：掌握 selenium控制浏览器执行js代码的方法知识点：掌握手动实现页面等待知识点：掌握 selenium开启无界面模式知识点：了解 selenium使用代理ip 知识点：了解 selenium替换user-agent

想认真学爬虫,我应该怎么入门?答：完成基础入门后，迎接你的将是HTTP协议的探索之旅，这是爬虫世界的关键桥梁。接下来，你需要掌握requests、lxml、BeautifulSoup、selenium和Scrapy等核心库，它们将帮助你构建强大的数据抓取能力。下面这篇Python爬虫实战指南将带你逐一解锁这些库的秘密：薯条老师，这位资深技术专家和作家，以其深厚的技术底蕴，...

零基础学python能学会吗答：可以的，只要你愿意付出时间和努力，肯定是可以学会的。而且Python本身就是适合零基础人员学习的编程语言，而且功能强大、语法简单、上手更加容易，学习的时候找一个好的培训机构，从入门到精通只需要5个月的时间就可以了，平时自己多练习、多交流、多敲敲代码。

python培训机构具体都学习哪些内容答：阶段一：Python开发基础 Python全栈开发与人工智能之Python开发基础知识学习内容包括：Python基础语法、数据类型、字符编码、文件操作、函数、装饰器、迭代器、内置方法、常用模块等。阶段二：Python高级编程和数据库开发 Python全栈开发与人工智能之Python高级编程和数据库开发知识学习内容包括：面向对象开发、Socket...

有哪些 Python 经典书籍答：作者：[ 日］斋藤康毅译者：陆宇杰豆瓣评分：9.4 出版社：人民邮电出版社出版年份：2018-7 页数：285 内容简介：本书是深度学习真正意义上的入门书，深入浅出地剖析了深度学习的原理和相关技术。书中使用Python3，尽量不依赖外部库或工具，从基本的数学知识出发，带领读者从零创建一个经典的深度...

python培训课程安排哪个好答：还是还没有开始了解？如果是想了解培训学校的话，可以从多方面的考察：1 师资团队，资历如何，授课如何；2 课程内容更新程度，是否随技术发展更新；3 教学环境如何；4 学员就业情况；5 口碑如何。可以看学校的视频或者去学校现场去试听，亲自感受下，也可以跟在读学员或者老学员了解。每个人的基本情况不...

快艾特你的程序员大学男友进来收藏答：一个学习GIT入门的优质网站网站中可以练习使用GIT的基本操作。除此之外，网站中还包含了一些其他有用的在线学习Git的资源网站比如LearnGit branching网站，并且在web浏览器上就能学到Git命令特点: 1.页面简洁易查找资料 2.操作简单，适合新手入门 code4startup.com 一个从零开始学习Web开发的网站，用户...

Python可以用来干什么?答：目前好多人都开始学习人工智能+Python学科。8、网络爬虫爬虫是属于运营的比较多的一个场景吧,比如谷歌的爬虫早期就是用跑Python写的. 其中有一个库叫 Requests ,这个库是一个模拟HTTP请求的一个库,非常的出名! 学过Python的人没有不知道这个库吧,爬取后的数据分析与计算是Python最为擅长的领域，非常...

python培训哪里好?答：4、全栈覆盖，能力打通。前四阶段打好开发基础，深入学习人工智能开发，发展稳职位晋升无极限。5、教学科学，轻松入门。多年Python课程打磨，降低人工智能学习难度，体系化学习，科学提升。感兴趣的话点击此处，免费学习一下想了解更多有关python培训机构的相关信息，推荐咨询【达内教育】。秉承“名师出高徒、...

大家正在搜

python爬取动态网页数据 python抓取js动态网页 python爬虫抓取动态网页 python动态数据抓取 vba抓取动态网页数据 Python获取动态网页 python爬取js动态网页如何取得动态网页服务器数据 python动态网页