亚洲高清av,精品在线看,成人精品鲁一区一区二区

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常被稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本，已被廣泛應用于互聯網領域。搜索引擎使用網絡爬蟲抓取Web網頁、文檔甚至圖片、音頻、視頻等資源，通過相應的索引技術組織這些信息，提供給搜索用戶進行查詢。網絡爬蟲也為中小站點的推廣提供了有效的途徑，網站針對搜索引擎爬蟲的優化曾風靡一時。

網絡爬蟲的基本工作流程如下：

1.首先選取一部分精心挑選的種子URL；

2.將這些URL放入待抓取URL隊列；

3.從待抓取URL隊列中取出待抓取在URL，解析DNS，并且得到主機的ip，并將URL對應的網頁下載下來，存儲進已下載網頁庫中。此外，將這些URL放進已抓取URL隊列。

4.分析已抓取URL隊列中的URL，分析其中的其他URL，并且將URL放入待抓取URL隊列，從而進入下一個循環。

當然，上面說的那些我都不懂，以我現在的理解，我們請求一個網址，服務器返回給我們一個超級大文本，而我們的瀏覽器可以將這個超級大文本解析成我們說看到的華麗的頁面

那么，我們只需要把這個超級大文本看成一個足夠大的String 字符串就OK了。

下面是我的代碼

									package main.spider;

									import org.jsoup.Jsoup;

									import org.jsoup.nodes.Document;

									import org.jsoup.nodes.Element;

									import org.jsoup.select.Elements;

									import java.io.IOException;

									/**

									 * Created by 1755790963 on 2017/3/10.

									 */

									public class Second {

									  public static void main(String[] args) throws IOException {

									    System.out.println("begin");

									    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();

									    String selector="div[class=d_post_content j_d_post_content clearfix]";

									    Elements elements = document.select(selector);

									    for (Element element:elements){

									      String word= element.text();

									      if(word.indexOf("@")>0){

									        word=word.substring(0,word.lastIndexOf("@")+7);

									        System.out.println(word);

									      }

									      System.out.println(word);

									    }

									  }

									}