如何用Python抓取动态页面信息

如题所述

推荐答案 æ¨èäº2016-08-30

ããå¾æ©ä¹åï¼å¦ä¹ Python webç¼ç¨çæ¶åï¼å°±æ¶åä¸ä¸ªPythonçurllibãå¯ä»¥ç¨urllib.urlopen("url").read()å¯ä»¥è½»æ¾è¯»åé¡µé¢ä¸é¢çéæä¿¡æ¯ãä½æ¯ï¼éçæ¶ä»£çåå±ï¼ä¹æ¥è¶å¤çç½é¡µä¸æ´å¤çä½¿ç¨javascriptãjQueryãPHPçè¯è¨å¨æçæé¡µé¢ä¿¡æ¯ãå æ¤ï¼ç¨urllibåå»æåé¡µé¢HTMLå°±ä¸è¶³ä»¥è¾¾å°æä»¬æ³è¦çææã

ããè§£å³æè·¯ï¼
ããæä¸ä¸ªæè·¯æä¸ºç®åçæè·¯å¯ä»¥å¨æè§£æé¡µé¢ä¿¡æ¯ãurllibä¸å¯ä»¥è§£æå¨æä¿¡æ¯ï¼ä½æ¯æµè§å¨å¯ä»¥ãå¨æµè§å¨ä¸å±ç°å¤ççä¿¡æ¯å¶å®æ¯å¤çå¥½çHTMLææ¡£ãè¿ä¸ºæä»¬æåå¨æé¡µé¢ä¿¡æ¯æä¾äºå¾å¥½çæè·¯ãå¨Pythonä¸æä¸ä¸ªå¾æåçå¾å½¢åºââPyQtãPyQtè½ç¶æ¯å¾å½¢åºï¼ä½æ¯ä»éé¢ QtWebkitãè¿ä¸ªå¾å®ç¨ãè°·æçChromeåè¹æçSafarié½æ¯åºäºWebKitåæ ¸å¼åçï¼æä»¥æä»¬å¯ä»¥éè¿PyQtä¸å¾QtWebKit æé¡µé¢ä¸çä¿¡æ¯è¯»åå è½½å°HTMLææ¡£ä¸ï¼åè§£æHTMLææ¡£ï¼ä»HTMLææ¡£ä¸æåæä»¬æ³ç¨å¾ä¿¡æ¯ã

ããä½èæ¬äººå®ç¨Mac OS Xãåºè¯¥å¨WindowsåLinuxå¹³å°ä¹å¯ä»¥éç¨ç¸åçåæ³ã

ãã1ãQt4 library
ããLibraryï¼èä¸æ¯CreatorãLibraryå¨Macçé»è®¤å®è£è·¯å¾ä¸ï¼åºè¯¥æ¯/home/username/Developor/ï¼ä¸è¦æ¹åQt4çé»è®¤å®è£è·¯å¾ãå¦åå¯è½å®è£å¤±è´¥ã

ããå®æ¹ç½åï¼http://qt-project.org/downloads

ãã

ãã2ãSIPãPyQt4
ããè¿ä¸¤ä¸ªè½¯ä»¶å¯ä»¥å¨å¨PyQtçå®ç½æ¾å°ãä¸è½½çæ¯å®çæºç ãMacåLinuxéè¦èªå·±ç¼è¯ã

ããä¸è½½å°åæ¯ï¼http://www.riverbankcomputing.co.uk/software/pyqt/download

ããå¨ç»ç«¯åæ¢å°æä»¶è§£ååçç®å½ä¸ã

ããå¨ç»ç«¯ä¸è¾å¥

ããpython configure.py

ããmake

ããsudo make install

ããè¿è¡å®è£ç¼è¯ã

ããSIPåPyQt4ä¸¤ä¸ªå®è£æ¹æ³ç¸åãä½æ¯PyQt4ä¾èµSIPãæä»¥åå®è£SIPåå®è£PyQt4

ãã

ãã1ã2ä¸¤æ¥å®æä¹åï¼PythonçPyQt4çæ¨¡åå°±å®è£å¥½äºãå¨Python shellä¸è¾å¥import PyQt4ççè½ä¸è½æ¾å°PyQt4çæ¨¡åã

ãã

ãã3ãSpynner
ããspynneræ¯ä¸ä¸ªQtWebKitçå®¢æ·ç«¯ï¼å®å¯ä»¥æ¨¡ææµè§å¨ï¼å®æå è½½é¡µé¢ãå¼åäºä»¶ãå¡«åè¡¨åçæä½ã

ããè¿ä¸ªæ¨¡åå¯ä»¥å¨Pythonçå®ç½æ¾å°ã

ããä¸è½½å°å: https://pypi.python.org/pypi/spynner/2.5

ããè§£ååï¼cdå°å®è£ç®å½ï¼ç¶åè¾å¥sudo python configure.py installå®è£è¯¥æ¨¡åã

ããè¿æ ·Spynneræ¨¡åå°±å®è£å®æäºï¼å¨python shellä¸è¯è¯import spynnerççè¯¥æ¨¡åææ²¡æå®è£å®æã

ãã

ããåå°é¡¶é¨
ããSpynnerçç®åä½¿ç¨
ããSpynnerçåè½ååå¼ºå¤§ï¼ä½æ¯ç±äºæ¬äººè½åæéï¼å°±ä»ç»ä¸ä¸å¦ä½æ¾ç¤ºç½é¡µçæºç å§ã

ãã#! /usr/bin/python
ãã#-*-coding: utf-8 -*-
ãã
ããimport spynner
ãã
ããbrowser = spynner.Browser()
ãã#åå»ºä¸ä¸ªæµè§å¨å¯¹è±¡
ãã
ããbrowser.hide()
ãã#æå¼æµè§å¨ï¼å¹¶éèã
ãã
ããbrowser.load("http://www.baidu.com")
ãã#browser ç±»ä¸æä¸ä¸ªç±»æ¹æ³loadï¼å¯ä»¥ç¨webkitå è½½ä½ æ³å è½½çé¡µé¢ä¿¡æ¯ã
ãã#load(æ¯ä½ æ³è¦å è½½çç½åçåç¬¦ä¸²å½¢å¼)
ãã
ããprint browser.html.encode("utf-8")
ãã#browser ç±»ä¸æä¸ä¸ªæåæ¯htmlï¼æ¯é¡µé¢è¿è¿å¤çåçæºç çåç¬¦ä¸².
ãã#å°å¶è½¬ç ä¸ºUTF-8ç¼ç
ãã
ããopen("Test.html", 'w+').write(browser.html.encode("utf-8"))
ãã#ä½ ä¹å¯ä»¥å°å®åå°æä»¶ä¸ï¼ç¨æµè§å¨æå¼ã
ãã
ããbrowser.close()
ãã#å³éè¯¥æµè§å¨
ããéè¿è¿ä¸ªç¨åºï¼å°±å¯ä»¥æ¯è¾å®¹æçæ¾ç¤ºwebkitå¤ççé¡µé¢HTMLæºç äºã
ãã

ããåå°é¡¶é¨
ããspynneråºç¨
ããä¸é¢ä»ç»ä¸ä¸spynnerçç®ååºç¨ï¼éè¿ç®åçç¨åºï¼å¯ä»¥è·åä½ å¨æµè§å¨ä¸çå°çé¡µé¢çå¨é¨å¾çãç¨HTMLParserãBeautifulSoupçé½å¯ä»¥å®æHTMLParserææ¡£çè§£æãèæéæ©HTMParserã

ãã#!/usr/bin/python
ãã
ããimport spynner
ããimport HTMLParser
ããimport os
ããimport urllib
ãã
ããclass MyParser(HTMLParser.HTMLParser):
ãã
ããdef handle_starttag(self, tag, attrs):
ããif tag == 'img':
ããurl = dict(attrs)['src']
ããname = os.path.basename(dict(attrs)['src'])
ããif name.endswith('.jpg') or name.endswith('.png') or name.endswith('gif'):
ããprint "Download.....", name
ããurllib.urlretrieve(url, name)
ãã
ãã
ããif __name__ == "__main__":
ããbrowser = spynner.Browser()
ãã
ããbrowser.show()
ãã
ããbrowser.load("http://www.artist.cn/snakewu1994/StyleBasis_Four/en_album_607236.shtml")
ãã
ããParser = MyParser()
ãã
ããParser.feed(browser.html)
ãã
ããprint "Done"
ãã
ããbrowser.close()
ããéè¿è¿ä¸ªç¨åºï¼å¯ä»¥ä¸è½½ä½ å¨é¡µé¢ä¸çå°çå¨é¨å¾çãç®åçå è¡ç¨åºå°±å®æäºè¿ä¸ªè°å·¨çä»»å¡ãå®ç°äºå¾ççæ¹éå¤çãè¿çæ¯Pythonè¯è¨çä¼å¿ï¼åè°å·¨çä»»å¡äº¤ç»ç¬¬ä¸æ¹å§ã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/BOeeteOvXX7ttzvz7B.html

相似回答

python怎么获取动态网页链接?答：利用 BeautifulSoup4 （DOM树）soup = BeautifulSoup(r.text,'lxml')for a in soup.find_all('a'):link = a['href']print(link)print()利用 lxml.etree （XPath）tree = etree.HTML(r.text)for link in tree.xpath("//@href"):print(link)print()利用selenium（要开浏览器！）driver = ...

如何用Python抓取动态页面信息答：1、2两步完成之后，Python的PyQt4的模块就安装好了。在Python shell中输入import PyQt4看看能不能找到PyQt4的模块。3、Spynner spynner是一个QtWebKit的客户端，它可以模拟浏览器，完成加载页面、引发事件、填写表单等操作。这个模块可以在Python的官网找到。下载地址: https://pypi.python.org/pypi/spynn...

如何用Python抓取动态页面信息答：spynner和BeautifulSoup下载后，都可以cd到解压出来的目录，然后使用python setup.py install来完成安装，需要注意的是spynner依赖pyqt，所以一定要安装pyqt，否则无法使用spynner。下面使用一个具体是例子来说明一下spynner和BeautifulSoup的使用，我们就以爬取京东页面上的一些产品数据来说明如何爬取动态页面数据（...

如何抓取网页上的数据(如何使用Python进行网页数据抓取)答：一、安装Python和相关库要使用Python进行网页数据抓取，首先需要安装Python解释器。可以从Python官方网站下载并安装最新的Python版本。安装完成后，还需要安装一些相关的Python库，如requests、beautifulsoup、selenium等。可以使用pip命令来安装这些库，例如在命令行中输入以下命令来安装requests库：```pipinstall...

从零开始学Python-使用Selenium抓取动态网页数据答：您可以按照以下步骤来配置八爪鱼采集器进行数据采集：1. 打开八爪鱼采集器，并创建一个新的采集任务。2. 在任务设置中，输入要采集的网址作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能，让八爪鱼自动识别页面的数据结构，或者手动设置采集规则。4. 如果手动设置采集规则，可以通过鼠标选择页面...

如何在scrapy框架下,用python实现爬虫自动跳转页面来抓去网页内容...答：爬虫跟踪下一页的方法是自己模拟点击下一页连接，然后发出新的请求。请看：item1 = Item()yield item1item2 = Item()yield item2req = Request(url='下一页的链接', callback=self.parse)yield req 注意使用yield时不要用return语句。

如何用Python抓取动态页面信息答：1.先了解网页抓取的逻辑过程可参考：【整理】关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项 2.再利用工具分析出需要的内容是如何产生的【总结】浏览器中的开发人员工具（IE9的F12和Chrome的Ctrl+Shift+I）-网页分析的利器用你所说的Firefox的firebug也可以，但是我用过了，觉得...

如何用Python抓取动态页面信息答：! /usr/bin/python -*-coding: utf-8 -*- import spynner browser = spynner.Browser()创建一个浏览器对象 browser.hide()打开浏览器，并隐藏。browser.load("http://www.baidu.com")browser 类中有一个类方法load，可以用webkit加载你想加载的页面信息。load(是你想要加载的网址的字符串形式)pr...

如何用python爬取网站数据?答：抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例 1.这里假设我们爬取的是债券数据，主要包括年利率、借款标题、期限、金额和进度这5个字段信息，截图如下：打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：2.获取到json文件的...

大家正在搜

js 页面信息抓取用js如何抓取别人网页的数据 html页面抓取网页页面内容抓取 indexof抓取页面如何抓取网站html 抓取页面页面抓取方式有哪些页面访问抓取