激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python爬取網頁內容轉換為PDF文件

python爬取網頁內容轉換為PDF文件

2021-03-02 00:17007與狼共舞 Python

這篇文章主要為大家詳細介紹了python爬取網頁內容轉換為PDF文件,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文實例為大家分享了python爬取網頁內容轉換為PDF的具體代碼,供大家參考,具體內容如下

將廖雪峰的學習教程轉換成PDF文件,代碼只適合該網站,如果需要其他網站的教程,可靠需要進行稍微的修改。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
# coding=utf-8
import os
import re
import time
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
html_template = """
<!DOCTYPE html>
<html lang="en">
<head>
 <meta charset="UTF-8">
</head>
<body>
{content}
</body>
</html>
 
"""
 
#----------------------------------------------------------------------
def parse_url_to_html(url, name):
 """
 解析URL,返回HTML內容
 :param url:解析的url
 :param name: 保存的html文件名
 :return: html
 """
 try:
  response = requests.get(url)
  soup = BeautifulSoup(response.content, 'html.parser')
  # 正文
  body = soup.find_all(class_="x-wiki-content")[0]
  # 標題
  title = soup.find('h4').get_text()
 
  # 標題加入到正文的最前面,居中顯示
  center_tag = soup.new_tag("center")
  title_tag = soup.new_tag('h1')
  title_tag.string = title
  center_tag.insert(1, title_tag)
  body.insert(1, center_tag)
  html = str(body)
  # body中的img標簽的src相對路徑的改成絕對路徑
  pattern = "(<img .*?src=\")(.*?)(\")"
 
  def func(m):
   if not m.group(3).startswith("http"):
    rtn = m.group(1) + "http://www.liaoxuefeng.com" + m.group(2) + m.group(3)
    return rtn
   else:
    return m.group(1)+m.group(2)+m.group(3)
  html = re.compile(pattern).sub(func, html)
  html = html_template.format(content=html)
  html = html.encode("utf-8")
  with open(name, 'wb') as f:
   f.write(html)
  return name
 
 except Exception as e:
  print "解析錯誤!"
 
#----------------------------------------------------------------------
def get_url_list():
 """
 獲取所有URL目錄列表
 :return:
 """
 response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000")
 soup = BeautifulSoup(response.content, "html.parser")
 menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
 urls = []
 for li in menu_tag.find_all("li"):
  url = "http://www.liaoxuefeng.com" + li.a.get('href')
  urls.append(url)
 return urls
 
#----------------------------------------------------------------------
def save_pdf(htmls, file_name):
 """
 把所有html文件保存到pdf文件
 :param htmls: html文件列表
 :param file_name: pdf文件名
 :return:
 """
 options = {
  'page-size': 'Letter',
  'margin-top': '0.75in',
  'margin-right': '0.75in',
  'margin-bottom': '0.75in',
  'margin-left': '0.75in',
  'encoding': "UTF-8",
  'custom-header': [
   ('Accept-Encoding', 'gzip')
  ],
  'cookie': [
   ('cookie-name1', 'cookie-value1'),
   ('cookie-name2', 'cookie-value2'),
  ],
  'outline-depth': 10,
 }
 pdfkit.from_file(htmls, file_name, options=options)
 
#----------------------------------------------------------------------
def main():
 start = time.time()
 file_name = u"liaoxuefeng_Python3_tutorial"
 urls = get_url_list()
 for index, url in enumerate(urls):
  parse_url_to_html(url, str(index) + ".html")
 htmls =[]
 pdfs =[]
 for i in range(0,124):
  htmls.append(str(i)+'.html')
  pdfs.append(file_name+str(i)+'.pdf')
 
  save_pdf(str(i)+'.html', file_name+str(i)+'.pdf')
 
  print u"轉換完成第"+str(i)+'個html'
 
 merger = PdfFileMerger()
 for pdf in pdfs:
  merger.append(open(pdf,'rb'))
  print u"合并完成第"+str(i)+'個pdf'+pdf
 
 output = open(u"廖雪峰Python_all.pdf", "wb")
 merger.write(output)
 
 print u"輸出PDF成功!"
 
 for html in htmls:
  os.remove(html)
  print u"刪除臨時文件"+html
 
 for pdf in pdfs:
  os.remove(pdf)
  print u"刪除臨時文件"+pdf
 
 total_time = time.time() - start
 print(u"總共耗時:%f 秒" % total_time)
 
#----------------------------------------------------------------------
def changeDir(dir_name):
 """
 目錄切換
 """
 if not os.path.exists(dir_name):
  os.mkdir(dir_name)
 
 os.chdir(dir_name)
#----------------------------------------------------------------------
if __name__ == '__main__':
 #存放文件的路徑
 dir_name = '/home/Python/Html'
 changeDir(dir_name)
 main()

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。

原文鏈接:https://blog.csdn.net/manjianchao/article/details/71122815

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产女厕一区二区三区在线视 | 成人视屏免费看 | 亚洲视频精品在线 | 视频在线91 | 黄色片在线免费播放 | 亚洲精品成人18久久久久 | 国产一级免费视频 | 国产色片在线观看 | 国产成人综合在线观看 | 久综合色| 国产羞羞视频在线免费观看 | 亚洲草原天堂 | 看a级毛片| 中国大陆一级毛片 | av电影网在线观看 | 91成人久久| 国产一级www | 一区二区三区在线观看国产 | 粉嫩粉嫩一区二区三区在线播放 | 中国一级无毛黄色 | 污污网站入口 | 91性高湖久久久久久久久网站 | 黄色免费高清网站 | 看一级大毛片 | 92看片淫黄大片欧美看国产片 | 精品国产一区二区三区久久久 | 一级看片免费视频 | www.成人在线视频 | 色诱亚洲精品久久久久久 | 一区二区三区日韩视频在线观看 | 成人短视频在线观看免费 | 一级黄色播放 | 欧美成人免费 | 叶子楣成人爽a毛片免费啪啪 | 国产精品成人av片免费看最爱 | www成人在线观看 | 国产99免费 | 草莓视频在线导航 | 一级毛片在线观看免费 | 日韩在线视频在线观看 | 黄色网址在线播放 |