python怎么爬去<span>lt;/span>中间标签的内容

如题所述

推荐答案 2017-08-23

这个要看你使用的是什么页面解析工具了

html = """
<span class='red'>item1</span>
<div>
<span id='s1'>item2</span>
</div>
"""
# 使用 scrapy 的Selector
from scrapy.selector import Selector

# scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识，
# 会发现
Selector(text=html).css('span::text').extract()
# 输出 : ['item1','item2']
Selector(text=html).css('span#s1::text').extract()
# 输出 : ['item2']
Selector(text=html).css('div>span::text').extract()
# 输出 : ['item2']

# 使用bs4
from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
sl = soup.find_all("span")
result = [span.get_text() for span in sl]
print(result)
# ['item1', 'item2']

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vvtXBezzOOBtetz7t7O.html

相似回答

html 没有指定class 怎么爬内容下来答：可以通过标签来解决，取页面中第x个table中第x个tr的第x个td。例：getelementsbytabname("td").item(3)

Python+requests 爬取网站遇到中文乱码怎么办答：1. 遇到的中文乱码问题1.1 简单的开始使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。点击(此处)折叠或打开 url = 'http//www.pythonscraping.com/'req = requests.get(url)print(req.text)tree = html.fromstring(req.text)print(tree.xpath("//h1[@class='t...

python3爬取网页,报错AttributeError: 'NoneType' object has no att...答：加一个头部就行了

网络爬虫findall()正则(.*?)不起作用,无返回答：你调试一下就能发现错误了。web_data.text 里根本没有 ¥ 这个符号。需要html 实体编码转换，正确的完整代码如下：import requests,re,html headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 ...

好大夫网站的数据怎么爬答：搜索一个竞争压力山大的词“整形”,在百度里排第一,链接地址是www.haodf.com/jibing/zhengxing.htm,我们来看下这个词的页面内容。首先看下H1 H2,这里好大夫竟然使用了3个H1,大站里第一次见过同时使用3个H1的,截图如下三个H1的标签写法是:<h1>整形专家观点</h1><h1>相关疾病-<span title="整形...

Python爬虫中i['rate']是啥意思呢?答：问题1从字典里面取rate title的值问题2因为遍历的话会自动转成list

python多元线性回归怎么计算答：(1)、使用pandas来构建X(特征向量)和y(标签列) scikit-learn要求X是一个特征矩阵,y是一个NumPy向量。 pandas构建在NumPy之上。因此,X可以是pandas的DataFrame,y可以是pandas的Series,scikit-learn可以理解这种结构。 [python] view plain copy #create a python list of feature names feature_cols = ['TV'...

Python+requests 爬取网站遇到中文乱码怎么办答：对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器...

大家正在搜

python中re模块的span python的span方法 python中span函数 python中tuple python attrs python sort key python compile python strip selenium python