一 前言
對于正規表達式,相信很多人都知道,但是很多人的第一感覺就是難學,因為看第一眼時,覺得完全沒有規律可尋,而且全是一堆各種各樣的特殊符号,完全不知所雲。
其實隻是對正則不了解而以,了解了你就會發現,原來就這樣啊正則所用的相關字元其實不多,也不難記,更不難懂,唯一難的就是組合起來之後,可讀性比較差,而且不容易了解,本文旨在讓大家對正則有一個基本的了解,能看得懂簡單的正規表達式,寫得出簡單的正規表達式,用以滿足日常開發中的需求即可。
0\d{2}-\d{8}|0\d{3}-\d{7} 先來一段正則,如果你對正則不了解,是不是完全不知道這一串字元是什麼意思?這不要緊文章會詳細解釋每個字元的含義的。
1.1 什麼是正規表達式
正規表達式是一種特殊的字元串模式,用于比對一組字元串,就好比用模具做産品,而正則就是這個模具,定義一種規則去比對符合規則的字元。
1.2 常用的正則比對工具
線上比對工具:
1 http://www.regexpal.com/
2 http://rubular.com/
正則比對軟體
McTracer
用過幾個之後還是覺得這個是最好用的,支援将正則導成對應的語言如java C# js等還幫你轉義了,Copy直接用就行了很友善,另外支援把正規表達式用法解釋,如哪一段是捕獲分組,哪段是貪婪比對等等,總之用起來 So Happy .
二 正則字元簡單介紹
2.1 元字元介紹
"^" :^會比對行或者字元串的起始位置,有時還會比對整個文檔的起始位置。
"$" :$會比對行或字元串的結尾
如圖
而且被比對的字元必須是以This開頭有空格也不行,必須以Regex結尾,也不能有空格與其它字元
"\b" :不會消耗任何字元隻比對一個位置,常用于比對單詞邊界 如 我想從字元串中"This is Regex"比對單獨的單詞 "is" 正則就要寫成 "\bis\b"
\b 不會比對is 兩邊的字元,但它會識别is 兩邊是否為單詞的邊界
"\d": 比對數字,
例如要比對一個固定格式的電話号碼以0開頭前4位後7位,如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這裡隻是為了介紹"\d"字元,實際上有更好的寫法會在 下面介紹。
"\w":比對字母,數字,下劃線.
例如我要比對"a2345BCD__TTz" 正則:"\w+" 這裡的"+"字元為一個量詞指重複的次數,稍後會詳細介紹。
"\s":比對空格
例如字元 "a b c" 正則:"\w\s\w\s\w" 一個字元後跟一個空格,如有字元間有多個空格直接把"\s" 寫成 "\s+" 讓空格重複
".":比對除了換行符以外的任何字元
這個算是"\w"的加強版了"\w"不能比對 空格 如果把字元串加上空格用"\w"就受限了,看下用 "."是如何比對字元"a23 4 5 B C D__TTz" 正則:".+"
"[abc]": 字元組 比對包含括号内元素的字元
這個比較簡單了隻比對括号記憶體在的字元,還可以寫成[a-z]比對a至z的是以字母就等于可以用來控制隻能輸入英文了,
2.2 幾種反義
寫法很簡單改成大寫就行了,意思與原來的相反,這裡就不舉例子了
"\W" 比對任意不是字母,數字,下劃線 的字元
"\S" 比對任意不是空白符的字元
"\D" 比對任意非數字的字元
"\B" 比對不是單詞開頭或結束的位置
"[^abc]" 比對除了abc以外的任意字元
2.3 量詞
先解釋關于量詞所涉及到的重要的三個概念
貪婪(貪心) 如"*"字元 貪婪量詞會首先比對整個字元串,嘗試比對時,它會標明盡可能多的内容,如果 失敗則回退一個字元,然後再次嘗試回退的過程就叫做回溯,它會每次回退一個字元,直到找到比對的内容或者沒有字元可以回退。相比下面兩種貪婪量詞對資源的消耗是最大的,
懶惰(勉強) 如 "?" 懶惰量詞使用另一種方式比對,它從目标的起始位置開始嘗試比對,每次檢查一個字元,并尋找它要比對的内容,如此循環直到字元結尾處。
占有 如"+" 占有量詞會覆寫事個目标字元串,然後嘗試尋找比對内容 ,但它隻嘗試一次,不會回溯,就好比先抓一把石頭,然後從石頭中挑出黃金
"*"(貪婪) 重複零次或更多
例如"aaaaaaaa" 比對字元串中所有的a 正則: "a*" 會出到所有的字元"a"
"+"(懶惰) 重複一次或更多次
例如"aaaaaaaa" 比對字元串中所有的a 正則: "a+" 會取到字元中所有的a字元, "a+"與"a*"不同在于"+"至少是一次而"*" 可以是0次,
稍後會與"?"字元結合來展現這種差別
"?"(占有) 重複零次或一次
例如"aaaaaaaa" 比對字元串中的a 正則 : "a?" 隻會比對一次,也就是結果隻是單個字元a
"{n}" 重複n次
例如從"aaaaaaaa" 比對字元串的a 并重複3次 正則: "a{3}" 結果就是取到3個a字元 "aaa";
"{n,m}" 重複n到m次
例如正則 "a{3,4}" 将a重複比對3次或者4次 是以供比對的字元可以是三個"aaa"也可以是四個"aaaa" 正則都可以比對到
"{n,}" 重複n次或更多次
與{n,m}不同之處就在于比對的次數将沒有上限,但至少要重複n次 如 正則"a{3,}" a至少要重複3次
把量詞了解了之後之前比對電話号碼的正則現在就可以改得簡單點了^0\d\d\d-\d\d\d\d\d\d\d$ 可以改為"^0\d+-\d{7}$"。
這樣寫還不夠完美如果因為前面的區号沒有做限定,以至于可以輸入很多們,而通常隻能是3位或者4位,
現在再改一下 "^0\d{2,3}-\d{7}"如此一來區号部分就可以比對3位或者4位的了
2.4 懶惰限定符
"*?" 重複任意次,但盡可能少重複
如 "acbacb" 正則 "a.*?b" 隻會取到第一個"acb" 原本可以全部取到但加了限定符後,隻會比對盡可能少的字元 ,而"acbacb"最少字元的結果就是"acb"
"+?" 重複1次或更多次,但盡可能少重複
與上面一樣,隻是至少要重複1次
"??" 重複0次或1次,但盡可能少重複
如 "aaacb" 正則 "a.??b" 隻會取到最後的三個字元"acb"
"{n,m}?" 重複n到m次,但盡可能少重複
如 "aaaaaaaa" 正則 "a{0,m}" 因為最少是0次是以取到結果為空
"{n,}?" 重複n次以上,但盡可能少重複
如 "aaaaaaa" 正則 "a{1,}" 最少是1次是以取到結果為 "a"
三 正則進階
3.1 捕獲分組
先了解在正則中捕獲分組的概念,其實就是一個括号内的内容 如 "(\d)\d" 而"(\d)" 這就是一個捕獲分組,可以對捕獲分組進行 後向引用 (如果後而有相同的内容則可以直接引用前面定義的捕獲組,以簡化表達式) 如(\d)\d\1 這裡的"\1"就是對"(\d)"的後向引用
那捕獲分組有什麼用呢看個例子就知道了
如 "zery zery" 正則 \b(\w+)\b\s\1\b 是以這裡的"\1"所捕獲到的字元也是 與(\w+)一樣的"zery",為了讓組名更有意義,組名是可以自定義名字的
"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定義組名了而要後向引用組時要記得寫成 "\k<name>";自定義組名後,捕獲組中比對到的值就會儲存在定義的組名裡
下面列出捕獲分組常有的用法
"(exp)" 比對exp,并捕獲文本到自動命名的組裡
"(?<name>exp)" 比對exp,并捕獲文本到名稱為name的組裡
"(?:exp)" 比對exp,不捕獲比對的文本,也不給此分組配置設定組号
以下為零寬斷言
"(?=exp)" 比對exp前面的位置
如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這裡取ing前所有的字元,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組裡的值為"How are you do";
"(?<=exp)" 比對exp後面的位置
如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這裡取"How"之後所有的字元,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組裡的值為" are you doing";
"(?!exp)" 比對後面跟的不是exp的位置
如 "123abc" 正則 "\d{3}(?!\d)"比對3位數字後非數字的結果
"(?<!exp)" 比對前面不是exp的位置
如 "abc123 " 正則 "(?<![0-9])123" 比對"123"前面是非數字的結果也可寫成"(?!<\d)123"
四 正則實戰
正則在做驗證,與資料過濾時展現的威力是巨大的,我想用過的朋友都知道,下面我們把剛剛了解的全部結合起來做一次實戰 做資料采集用正則過濾Html标簽并取相應的資料
我們的戰場就選在部落格園吧,假設現在要采集部落格園首頁的所有文章資訊 包括文章标題,連結接 作者部落格位址,文章簡介,文章釋出時間,閱讀資料,評論數 ,推薦數。
先看部落格園文章的Html格式
<div class="post_item">
<div class="digg">
<div class="diggit" onclick="DiggIt(3439076,120879,1)">
<span class="diggnum" id="digg_count_3439076">4</span>
</div>
<div class="clear"></div>
<div id="digg_tip_3439076" class="digg_tip"></div>
</div>
<div class="post_item_body">
<h3><a class="titlelnk" href="http://www.cnblogs.com/swq6413/p/3439076.html" target="_blank" rel="external nofollow" target="_blank" rel="external nofollow" target="_blank">分享完整的項目工程目錄結構</a></h3>
<p class="post_item_summary">
<a href="http://www.cnblogs.com/swq6413/" target="_blank" rel="external nofollow" target="_blank" rel="external nofollow" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnitblog.com/face/142964/20131116170946.png" alt=""/></a> 在項目開發過程中,如何有序的儲存項目中的各類資料檔案,建立一個分類清晰、友善管理的目錄結構是非常重要的。 綜合以前的項目和一些朋友的項目結構,我整理了一份我覺得還不錯的項目目錄結構。 在這裡分享給大家,歡迎各位提出你寶貴的意見和建議。如果喜歡請“推薦”則個,感激萬分!! 整個目錄設定到4級子目錄,實...
</p>
<div class="post_item_foot">
<a href="http://www.cnblogs.com/swq6413/" target="_blank" rel="external nofollow" target="_blank" rel="external nofollow" class="lightblue">七少爺</a>
釋出于 2013-11-23 15:48
<span class="article_comment"><a href="http://www.cnblogs.com/swq6413/p/3439076.html#commentform" target="_blank" rel="external nofollow" title="2013-11-23 16:40" class="gray">
評論(4)</a></span><span class="article_view"><a href="http://www.cnblogs.com/swq6413/p/3439076.html" target="_blank" rel="external nofollow" target="_blank" rel="external nofollow" class="gray">閱讀(206)</a></span></div>
</div>
<div class="clear"></div>
</div>
通過構造一個Http請求來取到資料并對資料進行相應處理得到關鍵資訊,在過濾Html标簽取文章時正則的強大的威力就展現出來了,
正則的知識點也都基本用上了比如 "\s \w+ . * ? "還有捕獲分組,零寬斷言等等。喜歡的朋友可以試一試,然後自己看如何通過正則取相應資料的,代碼中的正則都是很基本簡單的,其意思與用法都在上文中詳細寫了。
class Program
{
static void Main(string[] args)
{
string content = HttpUtility.HttpGetHtml();
HttpUtility.GetArticles(content);
}
}
internal class HttpUtility
{
//預設擷取第一頁資料
public static string HttpGetHtml()
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.cnblogs.com/");
request.Accept = "text/plain, */*; q=0.01";
request.Method = "GET";
request.Headers.Add("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3");
request.ContentLength = 0;
request.Host = "www.cnblogs.com";
request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.1.3.5000 Chrome/26.0.1410.43 Safari/537.1";
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream responStream = response.GetResponseStream();
StreamReader reader = new StreamReader(responStream, Encoding.UTF8);
string content = reader.ReadToEnd();
return content;
}
public static List<Article> GetArticles(string htmlString)
{
List<Article> articleList = new List<Article>();
Regex regex = null;
Article article = null;
regex = new Regex("<div class=\"post_item\">(?<content>.*?)(?=<div class=\"clear\">" + @"</div>\s*</div>)",
RegexOptions.Singleline);
if (regex.IsMatch(htmlString))
{
MatchCollection aritcles = regex.Matches(htmlString);
foreach (Match item in aritcles)
{
article = new Article();
//取推薦
regex =
new Regex(
"<div class=\"digg\">.*<span.*>(?<digNum>.*)" + @"</span>" +
".*<div class=\"post_item_body\">", RegexOptions.Singleline);
article.DiggNum = regex.Match(item.Value).Groups["digNum"].Value;
//取文章标題 需要去除轉義字元
regex = new Regex("<h3>(?<a>.*)</h3>", RegexOptions.Singleline);
string a = regex.Match(item.Value).Groups["a"].Value;
regex = new Regex("<a\\s.*href=\"(?<href>.*?)\".*>(?<summary>.*)</a>", RegexOptions.Singleline);
article.AritcleUrl = regex.Match(a).Groups["href"].Value;
article.AritcleTitle = regex.Match(a).Groups["summary"].Value;
//取作者圖檔
regex = new Regex("<a.*>(?<img><img[^>].*>)</a>", RegexOptions.Singleline);
article.AuthorImg = regex.Match(item.Value).Groups["img"].Value;
//取作者部落格URL及連結的target屬性
regex = new Regex("<a\\s*?href=\"(?<href>.*)\"\\s*?target=\"(?<target>.*?)\">.*</a>",
RegexOptions.Singleline);
article.AuthorUrl = regex.Match(item.Value).Groups["href"].Value;
string urlTarget = regex.Match(item.Value).Groups["target"].Value;
//取文章簡介
//1 先取summary Div中所有内容
regex = new Regex("<p class=\"post_item_summary\">(?<summary>.*)</p>", RegexOptions.Singleline);
string summary = regex.Match(item.Value).Groups["summary"].Value;
//2 取簡介
regex = new Regex("(?<indroduct>(?<=</a>).*)", RegexOptions.Singleline);
article.AritcleInto = regex.Match(summary).Groups["indroduct"].Value;
//取釋出人與釋出時間
regex =
new Regex(
"<div class=\"post_item_foot\">\\s*<a.*?>(?<publishName>.*)</a>(?<publishTime>.*)<span class=\"article_comment\">",
RegexOptions.Singleline);
article.Author = regex.Match(item.Value).Groups["publishName"].Value;
article.PublishTime = regex.Match(item.Value).Groups["publishTime"].Value.Trim();
//取評論數
regex =
new Regex(
"<span class=\"article_comment\"><a.*>(?<comment>.*)</a></span><span class=\"article_view\">",
RegexOptions.Singleline);
article.CommentNum = regex.Match(item.Value).Groups["comment"].Value;
//取閱讀數
regex = new Regex("<span\\s*class=\"article_view\"><a.*>(?<readNum>.*)</a>", RegexOptions.Singleline);
article.ReadNum = regex.Match(item.Value).Groups["readNum"].Value;
articleList.Add(article);
}
}
return articleList;
}
public static string ClearSpecialTag(string htmlString)
{
string htmlStr = Regex.Replace(htmlString, "\n", "", RegexOptions.IgnoreCase);
htmlStr = Regex.Replace(htmlStr, "\t", "", RegexOptions.IgnoreCase);
htmlStr = Regex.Replace(htmlStr, "\r", "", RegexOptions.IgnoreCase);
htmlStr = Regex.Replace(htmlStr, "\"", "'", RegexOptions.IgnoreCase);
return htmlStr;
}
}
public class Article
{
/// <summary>
/// 文章标題
/// </summary>
public string AritcleTitle { get; set; }
/// <summary>
/// 文章連結
/// </summary>
public string AritcleUrl { get; set; }
/// <summary>
/// 文章簡介
/// </summary>
public string AritcleInto { get; set; }
/// <summary>
/// 作者名
/// </summary>
public string Author { get; set; }
/// <summary>
/// 作者位址
/// </summary>
public string AuthorUrl { get; set; }
/// <summary>
/// 作者圖檔
/// </summary>
public string AuthorImg { get; set; }
/// <summary>
/// 釋出時間
/// </summary>
public string PublishTime { get; set; }
/// <summary>
/// 推薦數
/// </summary>
public string DiggNum { get; set; }
/// <summary>
/// 評論數
/// </summary>
public string CommentNum { get; set; }
/// <summary>
/// 閱讀數
/// </summary>
public string ReadNum { get; set; }
}
正則部分可能寫得不很完美,但至少也比對出來了,另外因為自己也是剛接觸正則,也隻能寫出這種比較簡單的正則。還望大家海涵~~
五 總結
正則其實并不難,了解每個符号的意思後,自己馬上動手試一試多寫幾次自然就明白了,正則是出了名的坑多,随便少寫了個點就比對不到資料了,我也踩了很多坑,踩着踩着就踩出經驗了。
本文也隻是對正則做了很基本的介紹,還有很多正則的字元沒有介紹,隻是寫了比較常用的一些。如有錯誤之處,還望在評論中指出,我會馬上修改。