自己在剛學習python時寫的,中途遇到很多問題,查了很多資料,下面就是我爬取租房信息的代碼:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
鏈家的房租網站 兩個導入的包 1.requests 用來過去網頁內容 2.BeautifulSoup import time import pymssql import requests from bs4 import BeautifulSoup # https://wh.lianjia.com/zufang/ #獲取url中下面的內容 def get_page(url): responce = requests.get(url) soup = BeautifulSoup(responce.text, 'lxml' ) return soup #封裝成函數,作用是獲取列表下的所有租房頁面的鏈接,返回一個鏈接列表 def get_links(url): responce = requests.get(url) soup = BeautifulSoup(responce.text, 'lxml' ) link_div = soup.find_all( 'div' ,class_ = 'pic-panel' ) links = [ div .a.get( 'href' ) for div in link_div] return links #收集一個房子的信息 def get_house_info(house_url): soup = get_page(house_url) price = soup.find( 'span' ,class_= 'total' ).text unit = soup.find( 'span' ,class_= 'unit' ).text[1:-1] area = soup.find( 'p' , class_ = 'lf' ).text house_info= soup.find_all( 'p' ,class_ = 'lf' ) area = house_info[0].text[3:] #字符串切片工具 layout = house_info[1].text[5:] info={ '價格' :price, '單位' :unit, '面積' :area, '戶型' :layout } return info #鏈接數據庫 server= "192.168.xx.xx" #換成自己的服務器信息 user= "liujiepeng" password= "xxxxx" #自己的數據庫用戶名和密碼 conn=pymssql.connect(server,user,password,database= "house" ) def insert(conn,house): #sql_values = values.format(house['價格'],house['單位'],house['面積'], #house['戶型']) sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')" %(house[ "價格" ],house[ "單位" ],house[ "面積" ],house[ "戶型" ]) print(sql) cursor = conn.cursor() #游標,開拓新的窗口 #cursor1 = conn.cursor() cursor.execute(sql) #執行sql語句 conn.commit() #提交 ,更新sql 語句 links = get_links( 'https://wh.lianjia.com/zufang/' ) count = 1 for link in links: #time.sleep(2) print( '獲取一個數據成功' ) house = get_house_info(link) insert(conn,house) print( "第%s個數據,存入數據庫成功!" %(count)) count = count+1 #print(house["價格"],end='\r') |
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對服務器之家的支持。如果你想了解更多相關內容請查看下面相關鏈接
原文鏈接:https://blog.csdn.net/qq_39486027/article/details/80526094