激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python轉換HTML到Text純文本的方法

Python轉換HTML到Text純文本的方法

2020-05-19 09:18腳本之家 Python

這篇文章主要介紹了Python轉換HTML到Text純文本的方法,分析了常用的兩種方法,非常具有實用價值,需要的朋友可以參考下

本文實例講述了Python轉換HTML到Text純文本的方法。分享給大家供大家參考。具體分析如下:

今天項目需要將HTML轉換為純文本,去網上搜了一下,發現Python果然是神通廣大,無所不能,方法是五花八門。

拿今天親自試的兩個方法舉例,以方便后人:

方法一:

1. 安裝nltk,可以去pipy裝

(注:需要依賴以下包:numpy, PyYAML)

2.測試代碼:

復制代碼 代碼如下:
>>> import nltk 
>>> aa = r'''''
<html>
    <body>
 <b>Project:</b> DeHTML<br>
 <b>Description</b>:<br>
 This small script is intended to allow conversion from HTML markup to 
 plain text.
    </body>
</html>
'''
>>> aa 
'\n<html>\n            <body>\n                <b>Project:</b> DeHTML<br>\n                <b>Description</b>:<br>\n                This small script is intended to allow conversion from HTML markup to \n                plain text.\n            </body>\n        </html>\n        ' 
>>> <strong>print nltk.clean_html(aa)</strong> 
Project: DeHTML  
     Description :  
    This small script is intended to allow conversion from HTML markup to  
    plain text.

 

方法二:

如果覺得nltk太笨重,大材小用的話,可以自己寫代碼,代碼如下:

復制代碼 代碼如下:
from HTMLParser import HTMLParser 
from re import sub 
from sys import stderr 
from traceback import print_exc 
 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = sub('[ \t\r\n]+', ' ', text) 
            self.__text.append(text + ' ') 
 
    def handle_starttag(self, tag, attrs): 
        if tag == 'p': 
            self.__text.append('\n\n') 
        elif tag == 'br': 
            self.__text.append('\n') 
 
    def handle_startendtag(self, tag, attrs): 
        if tag == 'br': 
            self.__text.append('\n\n') 
 
    def text(self): 
        return ''.join(self.__text).strip() 
 
 
def dehtml(text): 
    try: 
        parser = _DeHTMLParser() 
        parser.feed(text) 
        parser.close() 
        return parser.text() 
    except: 
        print_exc(file=stderr) 
        return text 
 
 
def main(): 
    text = r'''''
        <html>
            <body>
                <b>Project:</b> DeHTML<br>
                <b>Description</b>:<br>
                This small script is intended to allow conversion from HTML markup to 
                plain text.
            </body>
        </html>
    ''' 
    print(dehtml(text)) 
 
 
if __name__ == '__main__': 
    main()

 

運行結果:

>>> ================================ RESTART ================================ 
>>>  
Project: DeHTML  
Description :  
This small script is intended to allow conversion from HTML markup to plain text. 

希望本文所述對大家的Python程序設計有所幫助。

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25
主站蜘蛛池模板: 黄色成年在线观看 | 在线成人免费网站 | 久久亚洲一区二区三区成人国产 | 中国黄色一级生活片 | 亚洲精品xxx | 操毛片| 一区免费 | 午夜a狂野欧美一区二区 | 日日综合| 久久欧美亚洲另类专区91大神 | 高潮娇喘嗯啊~文字 | 97青青草视频 | 精品国产乱码久久久久久久久 | 免费男女乱淫真视频 | 在线观看免费精品 | 黄色免费在线网站 | 一级黄色av电影 | 国产欧美精品综合一区 | 中文字幕一二区 | 欧美a∨亚洲欧美亚洲 | 亚洲福利在线观看视频 | 91网站链接 | 欧美一级做a | 日日爱夜夜操 | 国产精品亚洲综合 | 国产草草视频 | 日日草天天干 | 男女无遮挡羞羞视频 | 精品国产一区二区亚洲人成毛片 | 日本a∨精品中文字幕在线 狠狠干精品视频 | 爱视频福利 | 中文字幕 亚洲一区 | 国产一级小视频 | 国产高清自拍一区 | 久久精品a一级国产免视看成人 | 国产精品午夜未成人免费观看 | 91精品福利视频 | 久久久久女人精品毛片 | 亚洲婷婷日日综合婷婷噜噜噜 | 一级做a爰性色毛片免费1 | 亚洲一区二区免费视频 |