由于需要在半結構化的文本數據中提取一些特定格式的字段、數據輔助挖掘分析工作,以往都是使用Matlab工具進行結構化數據處理的建模,matlab擅長矩陣處理、結構化數據的計算,Python具有與matlab共同的特點:語法簡潔、庫豐富,對算法仿真來說都是一門簡潔易用的語言。
Python做字符串匹配相對來說上手比較容易,且具有成熟的字符串處理庫re供我們使用;
在re庫的幫助下,只需簡單的兩步就可完成匹配工作,對做數據分析/算法的工作者來說,輕松了許多:
step1:構建正則表達式模式,并使用compile()函數生產正則表達式對象
step2:調用step1生成的正在表達式對象的方法、屬性,返回匹配結果
1
2
3
4
5
6
7
8
9
10
11
|
<span style = "color:#333300;" ># 導入正則表達式匹配模塊 Py 3.0 import re text = "today is 01/04/2015, happy new year..." #建立日期的正則表達式 detepat = re. compile ( '(\d+)/(\d+)/(\d+)' ) #進行匹配并打印結果 result = detepat.finditer(text) for m in result: print (m.group())< / span> |
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
原文鏈接:http://blog.csdn.net/zbc1090549839/article/details/42400979