日本精品久久久,免费日本视频,国变精品美女久久久久av爽

如果我們要編寫一個搜索引擎，第一步是用爬蟲把目標網站的頁面抓下來，第二步就是解析該HTML頁面，看看里面的內容到底是新聞、圖片還是視頻。

假設第一步已經完成了，第二步應該如何解析HTML呢？

HTML本質上是XML的子集，但是HTML的語法沒有XML那么嚴格，所以不能用標準的DOM或SAX來解析HTML。

好在Python提供了HTMLParser來非常方便地解析HTML，只需簡單幾行代碼：

									from HTMLParser import HTMLParser

									from htmlentitydefs import name2codepoint

									class MyHTMLParser(HTMLParser):

									  def handle_starttag(self, tag, attrs):

									    print('<%s>' % tag)

									  def handle_endtag(self, tag):

									    print('</%s>' % tag)

									  def handle_startendtag(self, tag, attrs):

									    print('<%s/>' % tag)

									  def handle_data(self, data):

									    print('data')

									  def handle_comment(self, data):

									    print('<!-- -->')

									  def handle_entityref(self, name):

									    print('&%s;' % name)

									  def handle_charref(self, name):

									    print('&#%s;' % name)

									parser = MyHTMLParser()

									parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')