激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python爬蟲基礎知識點整理

python爬蟲基礎知識點整理

2020-06-02 10:22愛喝馬黛茶的安東尼 Python

在本篇文章里小編給大家整理的是一篇關于python爬蟲基礎知識點整理內容,有興趣的朋友們可以學習下。

首先爬蟲是什么?

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。

根據我的經驗,要學習Python爬蟲,我們要學習的共有以下幾點:

  • Python基礎知識
  • Python中urllib和urllib2庫的用法
  • Python正則表達式
  • Python爬蟲框架Scrapy
  • Python爬蟲更高級的功能

1.Python基礎學習

首先,我們要用Python寫爬蟲,肯定要了解Python的基礎吧,萬丈高樓平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾經看過的一些Python教程,小伙伴們可以作為參考。

1) Python學習網

Python學習網上有大量免費的Python入門教程,以便大家學習。不僅有視頻教程,還有相應的問答版塊,幫你解決學習過程中的問題,效果還是蠻不錯的,內容基本上都是最基礎的,入門開始的話,就這個吧

2) 廖雪峰Python教程

后來,我發現了廖老師的Python教程,講的那是非常通俗易懂哪,感覺也是非常不錯,大家如果想進一步了解Python就看一下這個吧。

3) 簡明Python教程

還有一個我看過的,簡明Python教程,感覺講的也不錯

學習網址:簡明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

4) 汪海的實驗室

這是我的本科實驗室學長,入門的時候參考的他的文章,自己重新做了總結,后來這些系列文章又在他的基礎上增加了一些內容。

學習網址:汪海的實驗室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

2.Python urllib和urllib2 庫的用法

urllib和urllib2庫是學習Python爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,并對內容用正則表達式提取分析,得到我們想要的結果。這個在學習過程中我會和大家分享的。

3.Python 正則表達式

Python正則表達式是一種用來匹配字符串的強有力的武器。它的設計思想是用一種描述性的語言來給字符串定義一個規則,凡是符合規則的字符串,我們就認為它“匹配”了,否則,該字符串就是不合法的。這個在后面的博文會分享的。

4.爬蟲框架Scrapy

如果你是一個Python高手,基本的爬蟲知識都已經掌握了,那么就尋覓一下Python框架吧,我選擇的框架是Scrapy框架。這個框架有什么強大的功能呢?下面是它的官方介紹:

HTML, XML源數據 選擇及提取 的內置支持
提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders),對智能處理爬取數據提供了內置支持。
通過 feed導出 提供了多格式(JSON、CSV、XML),多存儲后端(FTP、S3、本地文件系統)的內置支持
提供了media pipeline,可以 自動下載 爬取到的數據中的圖片(或者其他資源)。
高擴展性。您可以通過使用 signals ,設計好的API(中間件, extensions, pipelines)來定制實現您的功能。
內置的中間件及擴展為下列功能提供了支持:
cookies and session 處理
HTTP 壓縮
HTTP 認證
HTTP 緩存
user-agent模擬
robots.txt
爬取深度限制
針對非英語語系中不標準或者錯誤的編碼聲明, 提供了自動檢測以及健壯的編碼支持。
支持根據模板生成爬蟲。在加速爬蟲創建的同時,保持在大型項目中的代碼更為一致。詳細內容請參閱 genspider 命令。
針對多爬蟲下性能評估、失敗檢測,提供了可擴展的 狀態收集工具 。
提供 交互式shell終端 , 為您測試XPath表達式,編寫和調試爬蟲提供了極大的方便
提供 System service, 簡化在生產環境的部署及運行
內置 Web service, 使您可以監視及控制您的機器
內置 Telnet終端 ,通過在Scrapy進程中鉤入Python終端,使您可以查看并且調試爬蟲
Logging 為您在爬取過程中捕捉錯誤提供了方便
支持 Sitemaps 爬取
具有緩存的DNS解析器

官方文檔:http://doc.scrapy.org/en/latest/

等我們掌握了基礎的知識,再用這個 Scrapy 框架吧!

扯了這么多,好像沒多少有用的東西額,那就不扯啦!

知識點擴展:

爬蟲基本原理

爬蟲是 模擬用戶在瀏覽器或者App應用上的操作,把操作的過程、實現自動化的程序

當我們在瀏覽器中輸入一個url后回車,后臺會發生什么?比如說你輸入https://www.baidu.com

簡單來說這段過程發生了以下四個步驟:

  1. 查找域名對應的IP地址。
  2. 瀏覽器首先訪問的是DNS(Domain Name System,域名系統),dns的主要工作就是把域名轉換成相應的IP地址向IP對應的服務器發送請求。
  3. 服務器響應請求,發回網頁內容。
  4. 瀏覽器顯示網頁內容。

網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給用戶所需要的數據, 而不需要一步步人工去操縱瀏覽器獲取。

到此這篇關于python爬蟲基礎知識點整理的文章就介紹到這了,更多相關Python2爬蟲入門內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!

原文鏈接:https://www.py.cn/spider/guide/14348.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 欧美精品一区二区久久 | 韩国精品一区二区三区四区五区 | 日韩视频在线观看免费视频 | 亚洲视频精选 | 久久亚洲线观看视频 | 国产一区视频免费观看 | 成人午夜免费av | 日本高清视频网站www | 本站只有精品 | 成年人精品视频 | 午夜精品久久久久久久久久久久久蜜桃 | free性欧美hd另类 | 成人精品一区二区 | 欧美成人综合视频 | 在线播放免费人成毛片乱码 | 午夜视频久久 | 久久99精品久久 | 欧美日韩在线播放一区 | 久久久久久片 | 一级毛片一区 | 2019天天干夜夜操 | 91一区二区三区久久久久国产乱 | 国产二区三区在线播放 | av电影观看 | 操你逼 | 一级毛片在线免费观看 | 精品亚洲国产视频 | 成人免费视频视频在线观看 免费 | 欧美日本一区二区 | 亚洲成人免费影视 | 欧美a∨亚洲欧美亚洲 | 亚洲第五色综合网 | 欧洲黄视频 | 国产精品视频网 | 国产精品av久久久久久网址 | 27xxoo无遮挡动态视频 | 怦然心动50免费完整版 | 国产精品一区视频 | 毛片一级免费看 | 午夜视频你懂的 | 91久久久久久久久久久久久 |