Java 實現網絡爬蟲框架
最近在做一個搜索相關的項目,需要爬取網絡上的一些鏈接存儲到索引庫中,雖然有很多開源的強大的爬蟲框架,但本著學習的態度,自己寫了一個簡單的網絡爬蟲,以便了解其中的原理。今天,就為小伙伴們分享下這個簡單的爬蟲程序!!
一、每個類的功能介紹
- DownloadPage.java的功能是下載此超鏈接的頁面源代碼.
- FunctionUtils.java 的功能是提供不同的靜態方法,包括:頁面鏈接正則表達式匹配,獲取URL鏈接的元素,判斷是否創建文件,獲取頁面的Url并將其轉換為規范的Url,截取網頁網頁源文件的目標內容。
- HrefOfPage.java 的功能是獲取頁面源代碼的超鏈接。
- UrlDataHanding.java 的功能是整合各個給類,實現url到獲取數據到數據處理類。
- UrlQueue.java 的未訪問Url隊列。
- VisitedUrlQueue.java 已訪問過的URL隊列。
二、每個類的源代碼
DownloadPage.java 此類要用到HttpClient組件。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
package com.sreach.spider; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.DefaultHttpClient; import org.apache.http.util.EntityUtils; /** * @author binghe */ public class DownloadPage { /** * 根據URL抓取網頁內容 * * @param url * @return */ public static String getContentFormUrl(String url) { /* 實例化一個HttpClient客戶端 */ HttpClient client = new DefaultHttpClient(); HttpGet getHttp = new HttpGet(url); String content = null ; HttpResponse response; try { /* 獲得信息載體 */ response = client.execute(getHttp); HttpEntity entity = response.getEntity(); VisitedUrlQueue.addElem(url); if (entity != null ) { /* 轉化為文本信息 */ content = EntityUtils.toString(entity); /* 判斷是否符合下載網頁源代碼到本地的條件 */ if (FunctionUtils.isCreateFile(url) && FunctionUtils.isHasGoalContent(content) != - 1 ) { FunctionUtils.createFile( FunctionUtils.getGoalContent(content), url); } } } catch (ClientProtocolException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { client.getConnectionManager().shutdown(); } return content; } } |
FunctionUtils.java 此類的方法均為static方法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
|
package com.sreach.spider; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @author binghe */ public class FunctionUtils { /** * 匹配超鏈接的正則表達式 */ private static String pat = "http://www\\.oschina\\.net/code/explore/.*/\\w+\\.[a-zA-Z]+" ; private static Pattern pattern = Pattern.compile(pat); private static BufferedWriter writer = null ; /** * 爬蟲搜索深度 */ public static int depth = 0 ; /** * 以"/"來分割URL,獲得超鏈接的元素 * * @param url * @return */ public static String[] divUrl(String url) { return url.split( "/" ); } /** * 判斷是否創建文件 * * @param url * @return */ public static boolean isCreateFile(String url) { Matcher matcher = pattern.matcher(url); return matcher.matches(); } /** * 創建對應文件 * * @param content * @param urlPath */ public static void createFile(String content, String urlPath) { /* 分割url */ String[] elems = divUrl(urlPath); StringBuffer path = new StringBuffer(); File file = null ; for ( int i = 1 ; i < elems.length; i++) { if (i != elems.length - 1 ) { path.append(elems[i]); path.append(File.separator); file = new File( "D:" + File.separator + path.toString()); } if (i == elems.length - 1 ) { Pattern pattern = Pattern.compile( "\\w+\\.[a-zA-Z]+" ); Matcher matcher = pattern.matcher(elems[i]); if ((matcher.matches())) { if (!file.exists()) { file.mkdirs(); } String[] fileName = elems[i].split( "\\." ); file = new File( "D:" + File.separator + path.toString() + File.separator + fileName[ 0 ] + ".txt" ); try { file.createNewFile(); writer = new BufferedWriter( new OutputStreamWriter( new FileOutputStream(file))); writer.write(content); writer.flush(); writer.close(); System.out.println( "創建文件成功" ); } catch (IOException e) { e.printStackTrace(); } } } } } /** * 獲取頁面的超鏈接并將其轉換為正式的A標簽 * * @param href * @return */ public static String getHrefOfInOut(String href) { /* 內外部鏈接最終轉化為完整的鏈接格式 */ String resultHref = null ; /* 判斷是否為外部鏈接 */ if (href.startsWith( "http://" )) { resultHref = href; } else { /* 如果是內部鏈接,則補充完整的鏈接地址,其他的格式忽略不處理,如:a href="#" rel="external nofollow" */ if (href.startsWith( "/" )) { resultHref = "http://www.oschina.net" + href; } } return resultHref; } /** * 截取網頁網頁源文件的目標內容 * * @param content * @return */ public static String getGoalContent(String content) { int sign = content.indexOf( "<pre class=\"" ); String signContent = content.substring(sign); int start = signContent.indexOf( ">" ); int end = signContent.indexOf( "</pre>" ); return signContent.substring(start + 1 , end); } /** * 檢查網頁源文件中是否有目標文件 * * @param content * @return */ public static int isHasGoalContent(String content) { return content.indexOf( "<pre class=\"" ); } } |
HrefOfPage.java 此類為獲取頁面的超鏈接
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
package com.sreach.spider; /** * @author binghe * */ public class HrefOfPage { /** * 獲得頁面源代碼中超鏈接 */ public static void getHrefOfContent(String content) { System.out.println( "開始" ); String[] contents = content.split( "<a href=\"" ); for ( int i = 1 ; i < contents.length; i++) { int endHref = contents[i].indexOf( "\"" ); String aHref = FunctionUtils.getHrefOfInOut(contents[i].substring( 0 , endHref)); if (aHref != null ) { String href = FunctionUtils.getHrefOfInOut(aHref); if (!UrlQueue.isContains(href) && href.indexOf( "/code/explore" ) != - 1 && !VisitedUrlQueue.isContains(href)) { UrlQueue.addElem(href); } } } System.out.println(UrlQueue.size() + "--抓取到的連接數" ); System.out.println(VisitedUrlQueue.size() + "--已處理的頁面數" ); } } |
UrlDataHanding.java 此類主要是從未訪問隊列中獲取url,下載頁面,分析url,保存已訪問url等操作,實現Runnable接口
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
package com.sreach.spider; /** * @author binghe * */ public class UrlDataHanding implements Runnable { /** * 下載對應頁面并分析出頁面對應的URL放在未訪問隊列中。 * * @param url */ public void dataHanding(String url) { HrefOfPage.getHrefOfContent(DownloadPage.getContentFormUrl(url)); } public void run() { while (!UrlQueue.isEmpty()) { dataHanding(UrlQueue.outElem()); } } } |
UrlQueue.java 此類主要是用來存放未訪問的URL隊列
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
package com.sreach.spider; import java.util.LinkedList; /** * @author binghe * */ public class UrlQueue { /** 超鏈接隊列 */ public static LinkedList<String> urlQueue = new LinkedList<String>(); /** 隊列中對應最多的超鏈接數量 */ public static final int MAX_SIZE = 10000 ; public synchronized static void addElem(String url) { urlQueue.add(url); } public synchronized static String outElem() { return urlQueue.removeFirst(); } public synchronized static boolean isEmpty() { return urlQueue.isEmpty(); } public static int size() { return urlQueue.size(); } public static boolean isContains(String url) { return urlQueue.contains(url); } } |
VisitedUrlQueue.java 主要是保存已訪問過的URL,使用HashSet來保存,主要是考慮到每個訪問過的URL是不同。HashSet剛好符合這個要求
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
package com.sreach.spider; import java.util.HashSet; /** * 已訪問url隊列 * @author binghe * */ public class VisitedUrlQueue { public static HashSet<String> visitedUrlQueue = new HashSet<String>(); public synchronized static void addElem(String url) { visitedUrlQueue.add(url); } public synchronized static boolean isContains(String url) { return visitedUrlQueue.contains(url); } public synchronized static int size() { return visitedUrlQueue.size(); } } |
Test.java 此類為測試類
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
import java.sql.SQLException; import com.sreach.spider.UrlDataHanding; import com.sreach.spider.UrlQueue; /** * @author binghe * */ public class Test { public static void main(String[] args) throws SQLException { String url = "http://www.oschina.net/code/explore/achartengine/client/AndroidManifest.xml" ; String url1 = "http://www.oschina.net/code/explore" ; String url2 = "http://www.oschina.net/code/explore/achartengine" ; String url3 = "http://www.oschina.net/code/explore/achartengine/client" ; UrlQueue.addElem(url); UrlQueue.addElem(url1); UrlQueue.addElem(url2); UrlQueue.addElem(url3); UrlDataHanding[] url_Handings = new UrlDataHanding[ 10 ]; for ( int i = 0 ; i < 10 ; i++) { url_Handings[i] = new UrlDataHanding(); new Thread(url_Handings[i]).start(); } } } |
說明一下:由于我抓取的是針對oschina的,所以里面的url正則表達式不適合其他網站,需要自己修改一下。你也可以寫成xml來配置。
以上就是Java 實現網絡爬蟲框架詳細代碼的詳細內容,更多關于Java 實現網絡爬蟲框架的資料請關注服務器之家其它相關文章!
原文鏈接:https://blog.csdn.net/l1028386804/article/details/118324379