激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python使用scrapy抓取網站sitemap信息的方法

Python使用scrapy抓取網站sitemap信息的方法

2020-06-01 10:25pythoner Python

這篇文章主要介紹了Python使用scrapy抓取網站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定參考借鑒價值,需要的朋友可以參考下

本文實例講述了Python使用scrapy抓取網站sitemap信息的方法。分享給大家供大家參考。具體如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述對大家的Python程序設計有所幫助。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 视频一区二区三区在线播放 | 亚洲最新色 | 激情视频免费观看 | 主播粉嫩国产在线精品 | 欧美成人久久 | 一级做a爱片毛片免费 | 久久久成人精品视频 | 国产欧美日韩视频在线观看 | 护士hd老师fre0性xxx | 亚洲精品永久视频 | 欧美精品一区二区三区在线 | 青青草最新网址 | 草b视频在线观看 | 久草在线视频看看 | 黄色a级片视频 | 午色影院| 免费视频xxxx | 国产男女 爽爽爽爽视频 | 黄色成年在线观看 | 亚洲国产网站 | 北原夏美av | 中文字幕国产日韩 | 久久久久久久久久久久久久av | 污黄视频在线播放 | 黄色片网站在线看 | 久久久久久免费 | 精品一区二区久久久久久按摩 | 99在线热视频 | 久久国产精品久久精品国产演员表 | 久久视频在线免费观看 | 国产精品视频六区 | 国产午夜精品久久久久 | 精品久久一区二区三区 | 男女无遮挡羞羞视频 | 久久久久99一区二区三区 | 九九精品视频免费 | 久草视频免费 | 欧美性受xxxx白人性爽 | 中国嫩模一级毛片 | 日韩中文字幕三区 | 久久久久久久久久久久久国产精品 |