python怎么获取动态网页链接？

python怎么获取动态网页链接

第1个回答 2021-07-07

四中方法：

'''
得到当前页面所有连接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

相似回答

从零开始学Python-使用Selenium抓取动态网页数据答：您可以按照以下步骤来配置八爪鱼采集器进行数据采集：1. 打开八爪鱼采集器，并创建一个新的采集任务。2. 在任务设置中，输入要采集的网址作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能，让八爪鱼自动识别页面的数据结构，或者手动设置采集规则。4. 如果手动设置采集规则，可以通过鼠标选择页面...

如何用Python抓取动态页面信息答：1、2两步完成之后，Python的PyQt4的模块就安装好了。在Python shell中输入import PyQt4看看能不能找到PyQt4的模块。3、Spynner spynner是一个QtWebKit的客户端，它可以模拟浏览器，完成加载页面、引发事件、填写表单等操作。这个模块可以在Python的官网找到。下载地址: https://pypi.python.org/pypi/spynn...

python3 怎样爬取动态加载的网页信息答：方法1 寻找页面中的xhr请求, 并得到实际的请求参数. 直接获取相关搜索的请求返回代码, 然后进行数据整理.方法2 模拟浏览器操作, 比如使用Selenium 模块.

如何用python爬取js动态生成内容的页面答：1用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！2 selenium web测试框架...

python如何获取网页script里的url?答：获取方法如下：def get_js_value(url):page_source = requests.get(url, headers=headers).content.decode('utf8')selector = etree.HTML(page_source)script_content = selector.xpath('/html/head/script[3]/text()')[0]context = js2py.EvalJs()context.execute(script_content)

Python提取网页链接和标题答：grabHref(url,localfile)if __name__=="__main__":main()方法2：Re版由于方法1有问题，只能获取到下载页面链接，所以换用Re解决，代码如下：import urllib2 import re url = 'http://www.freebuf.com/tools'find_re = re.compile(r'href="([^"]*)".+?>(.+?)')pat2 = ...

python 如何抓取动态页面内容?答：= zlib.decompress(respHtml, -zlib.MAX_WBITS); return respHtml;及示例代码：url = "http://www.crifan.com";respHtml = getUrlRespHtml(url);完全库函数，自己搜：crifanLib.py 关于抓取动态页面，详见：Python专题教程：抓取网站，模拟登陆，抓取动态网页 （自己搜标题即可找到）...

如何使用爬虫获取网页数据 python答：以下是使用Python编写爬虫获取网页数据的一般步骤：1. 安装Python和所需的第三方库。可以使用pip命令来安装第三方库，如pip install beautifulsoup4。2. 导入所需的库。例如，使用import语句导入BeautifulSoup库。3. 发送HTTP请求获取网页内容。可以使用Python的requests库发送HTTP请求，并获取网页的HTML内容。4...

Python爬取动态生成的网页(框架)需要具备哪些知识或者使用哪些库?答：详解如何抓取动态网页中的内容；5、详解了在模拟登陆和抓取动态网页过程中，如何用对应的网页分析工具，如IE9的F12，Chrome的Ctrl+Shift+J，Firefox的Firebug，去分析出对应的逻辑；6、针对抓取网站，模拟登陆，抓取动态网页，全部给出了完整的可用的，多种语言的示例代码：Python，C#，Java，Go等。

大家正在搜

Python获取动态网页 python爬取动态网页数据 python动态网页 python爬虫动态页面 python爬虫js动态 python动态编程 python爬虫调用网页js nodejs动态网页 python爬虫动态解析js