C# HtmlAgilityPack 頁面結構解析

2023-08-02 22:12:02

HtmlAgilityPack是.net下的一個HTML解析類庫。支援用XPath來解析HTML。簡單的來說，在頁面上查詢元素速度更快，更準。

HtmlWeb web = new HtmlWeb();//建立Web請求
      HtmlAgilityPack.HtmlDocument doc = web.Load(m);//加載頁面的連結
      var json = Common.Http_Get(m);//擷取網頁源代碼
      //擷取某個節點的集合，這裡擷取出現 p 标簽 的集合            
      var nodes = doc.DocumentNode.SelectNodes("//p");
       //周遊集合                                 
      foreach (HtmlNode node in nodes)
      {
         try
          {
             //擷取其中一個出現p标簽的HTML源碼
             HtmlNode thumbnail = HtmlNode.CreateNode(node.OuterHtml);
             //擷取p标簽文本内容
             var thumbnailstr = thumbnail.InnerText.Trim();
             // 擷取img目錄下的img标簽中的圖檔連結
             var img_node = thumbnail.SelectSingleNode("//img");
             var img = img_node.Attributes["src"].Value;
             //擷取a目錄下a标簽class屬性為ql-link 的節點
             var link_node = thumbnail.SelectSingleNode("//a[@class='ql-link']");
             var link = link_node.Attributes["href"].Value;
            }catch{}
      }

注意：記得XPath表達式要寫對，否則會報錯或查詢不到某元素

/ {從根節點選取}

// {選擇元素後代元素,必須在後面跟上nodeName}

. {選取目前節點}

… {選取目前節點的父節點}

@ {選取屬性節點(@是attribute的縮寫)}

/root/child[3] {選取root元素的第三個child子元素,注意,這和數組下标不一樣,從1開始計數}

//child[@attr] {選取所有具有屬性attr的child元素}

body/p[position()=4] {這個XPath表達式将選取body子元素中第4個p元素,注意這裡從1開始計數}

//div[@class=‘ql-link’] {擷取某個class屬性為ql-link 的div 層 }

C# HtmlAgilityPack 頁面結構解析

HtmlAgilityPack是.net下的一個HTML解析類庫。支援用XPath來解析HTML。簡單的來說，在頁面上查詢元素速度更快，更準。

繼續閱讀

門戶通專訪草根站長九天狼：做站貴在堅持

tabpanel 使用問題

為什麼把CSS放頭部，script放下面

C# 位元組數組 byte[] 快速比較算法

C# 位元組數組、字元串轉化位元組數組轉字元串字元串轉位元組數組位元組數組轉整數整數轉位元組數組字元串轉位元組字元串轉數值數值轉字元串

C#用Zlib壓縮或解壓縮位元組數組

C# 比較兩個位元組數組是否相等

對于VS中scanf報錯永久解決，建立源檔案自動添加#define _CRT_SECURE_NO_WARNINGS 1

《C#進階程式設計》讀書筆記 -索引

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

C#多線程——前台線程和背景線程

CSS之折疊菜單

C#+ArcEngine代碼檢測ArcEngine Runtime是否安裝以及是否授權

web開發之前後端渲染

七牛雲-C#SDK-上傳-前期準備

403 Forbidden，You don't have permission to access / on this server.Forbidden