在一個文件里有很多以下內容:
1
2
3
4
5
|
< p style = "display:none" >此題選D。 .... .... .... </ p > |
而本人要實現的功能是將它替換成:
1
2
3
4
5
|
< div style = "display:none" class = "sl_explain" >此題選D。 ..... ..... ..... </ div > |
這個東西看起來有點簡單,但本人整整花了半天才實現此功能,主要是很久沒寫RUBY程序了,所以對API比較陌生;其次是本人對正則表達式,尤其是ruby的正則表達式不太熟悉;最后,還因為一些細節考慮得不夠。
要實現上述功能,可以分為兩步,第一步是將
1
2
3
4
5
|
< p style = "display:none" >此題選D。 .... .... .... </ p > |
中的\n替換掉,即替換成:
1
|
< p style = "display:none" >此題選D。............</ p > |
這種形式,為什么要替換換\n呢,因為在讀文件是,需要一行一行讀,所以有\n的話,這一行就讀不完,那么在用正則表達式匹配時,自然會匹配不全。要實現替換掉而且只替換掉
1
|
< p style = "display:none" >此題選D。............</ p > |
內部的\n,需要一些限制,具體實現代碼如下:
File.open("邏輯填空2.htm","w") do |test|
1
2
3
4
5
6
7
8
9
|
File .open( "邏輯填空.htm" , 'r:gbk' ) do |file| file.each_line do | line| if (line.start_with?( '<p style="display:none">' ) && !line.end_with?( "</p>\n" )) line.gsub!( Regexp . new ( '\n' ), '' ) end test.print line end end end |
即將替換掉的內容放在新的一個文件“邏輯填空2.html”中(注意1,上面輸出到文件時,使用的是print,而不是puts,不然它又會自然加上一個\n,那就白替換了;注意2,上面的end_with后面還加個\n,因為讀取這行結尾時,還有個隱形的換行符\n;注意3,有時候<p style="display:none">前面會有空格,所以可以將start_with改成include?),然后再讀取此文件,再通過正則表達式進行替換,將替換掉的內容又放在“test.html”中:
1
2
3
4
5
6
7
8
9
|
File .open( "test.html" , "w" ) do |test| File .open( "邏輯填空2.htm" , 'r' ) do |file| file.each_line do | line| line.gsub!( Regexp . new ( '<p style="display:none">(.*)</p>' ), '<div style="display:none" class="sl_explain">\1</div>' ) test.puts line end end end |
這樣,本人要實現的功能就達到了,另外,如果如果文件不是一行一行讀取的,倒是可以用多行匹配的方式來做:
1
|
Regexp . new ( '<p style="display:none">(.*)</p>' , Regexp :: MULTILINE ) |
可惜,本人只想出了逐行讀取的方法,所以多行匹配模式沒用上。