天天看點

C#第五次作業:開源項目“網頁正文提取”的了解

信管1121

201211671121

王曉俊

1.作業要求:從網上找到一篇很不錯的分享文章“我為開源做貢獻,網頁正文提取——Html2Article”(連結),用C#語言實作了 網頁正文提取 的功能。

測試如下三個不同的網頁的提取效果,并把結果截圖釋出到作業博文中:

http://blog.csdn.net/quailquailquail/article/details/45821703 

http://user.qzone.qq.com/303727350/blog/1430870007  

http://www.cnblogs.com/jasondan/p/4145305.html 

2.運作結果截圖:

提取http://blog.csdn.net/quailquailquail/article/details/45821703結果截圖: 

C#第五次作業:開源項目“網頁正文提取”的了解

提取http://user.qzone.qq.com/303727350/blog/1430870007結果截圖: 

C#第五次作業:開源項目“網頁正文提取”的了解

 提取http://www.cnblogs.com/jasondan/p/4145305.html結果截圖: 

C#第五次作業:開源項目“網頁正文提取”的了解

3.心得體會:

1、本次的作業讓我提取不同的網站,有些網站能提取到正文文本,有些提取不到。為了搞清楚這個問題,對網頁的一些結構有了初步了解。

2、此次的作業中,下載下傳的程式是用VS2013編的,我的VS版本是2005,是以打不開。經過百度這個問題,對VS個版本之間打開檔案的切換初步熟悉,不過最後還是得在别人的機子上運作這個作業。