天天看點

網絡輿情分析系統的研究與設計

Quanlong Guan1, Saizhi Ye2, Guoxiang Yao2, Huanming Zhang1, Linfeng Wei2, Gazi Song2, Kejing He3

1中國廣州 暨南大學 網絡與教育科技中心

2中國廣州 暨南大學 資訊科學技術學院

3中國廣州 華南理工大學 計算機科學與工程學院

[email protected]

摘要— 網絡正在成為公衆輿論的一個傳播平台。及時地掌握網絡輿情和恰當地了解他們的看法趨向是很重要的。文本分類在大量的資訊管理和檢索任務扮演一個根本角色。但是網頁分類比純文字分類困難在于網頁中存在着大量的嘈雜資訊。在本文,我們提出一種網絡輿情(IPO)分析系統的方案。我們通過在摘要中應用網頁分類法來提取網頁中最為相關的内容,然後再将他們傳遞到标準文本分類算法(NB或SVM)中。我們全面地利用文本分類和文本聚類算法,證明了它們在單獨使用時是高效率且有效的。根據實驗結果,我們證明了系統結構在系統設計中的重要性。

關鍵詞— 網絡輿情;網頁摘要;文本分類;向量空間模型;

<b></b>

<b>Ⅰ. </b><b>介紹</b>

       現如今,人們越來越多地使用網際網路與他人進行溝通,發表他/她們的關于某些話題的看法和表達他/她們的關于某些事的怨言(我們把所有這些相關的話題和人們的觀點叫做網絡輿情,簡稱IPO)。網際網路可能會被攻擊者或敵人用作破壞網際網路穩定和威脅網絡社會安全的工具[1]。然而,網絡輿情可能會對真實世界的社會安全産生巨大的沖擊[2]。目前對網絡輿情的研究主要是研究它對真實世界的社會或政府的影響,并且從心理學或社會學的角度分析它的活動方式[3]。文本分類在大量的資訊管理和檢索任務扮演一個根本角色。但是網頁分類比純文字分類困難在于網頁中存在着大量的嘈雜資訊。網頁是不同于一般的的文本文檔集合。文本文檔可以被認為是一個詞語的彙集,而網頁則含有附加的結構資訊。

在本文,我們設法顯示我們的網絡輿情分析系統(IPOAS)的模型。 我們的主要工作如下:

1)參考各種各樣的相關技術,我們提出一種改進的網絡語請分析模型,它可以更加有效地處理和探求網絡輿情的特征。

2)在這個系統中,有二個重要的核心子產品:資訊預處理子產品和網絡輿情語義分析子產品。 我們分析了他們的實作方法。

3) 我們通過在摘要中應用網頁分類法來提取網頁中最為相關的内容,然後再将他們傳遞到标準文本分類算法(NB或SVM)中。根據實驗結果,我們證明了系統結構在系統設計中的重要性。

本文的其他部分結構如下。在第2部分,我們将回顧有關網絡輿情最新的工作成果和有關傳統網絡輿情分析方法的研究,然後将提出我們的IPOAS模型。我們的方法将在第3部分和第4部分詳述。在第5部分,實驗結果和一些相關的讨論将會被列出。最後,在第6部分,我們将總結我們的工作。

<b>Ⅱ. </b><b>相關著作</b>

網絡輿情是一個寬泛的題目。從網絡中擷取情感傾向是一個困難的語義問題。與文本文檔比較,網頁有一些額外特點,例如HTML标簽,URL,超連結和錨文本,他們都被證明在擷取情感傾向時是有用的。最近許多有關利用這些特性進行情感傾向提取的網頁摘要研究[4,5]都完成了。 Dou[4]指出用于在網頁分類中預處理的網絡摘要技術是一個可行的且有效的技術。證據顯示考慮到上下文資訊的摘要比僅僅從目标文檔提取的内容相關性更強。同樣,我們在摘要過程中利用網頁分類去從網頁中提取最相關的内容。我們系統的網絡輿情資訊預處理子產品也使用了這些特點。 這個子產品由二個方法構成:數學算法或神經網絡和文本分類/聚類。

有許多根據數學算法中的方法建構的子產品。網絡公共會話的的增長使得網絡通信成為了一個潛在的富有的資料來源。P.D. Turney[6]介紹了一種從龐大的語料庫中對語義傾向進行無監督學習的簡單算法。這種方法涉及了向搜尋引擎進行請求和利用逐點互動資訊來分析結果。 類似地,Peter Jorgensen[7]探索了競争(IAC)的互相作用和人工神經網絡(ANN)的使用來找到存在于電子郵件文本中的關系。最終,Pjianping Zeng[8]提出了隐馬爾可夫模型(HMM)來描述網絡輿情的活動。所有他們的研究最終形成了有關網絡輿情活動過程的數學模型的整合,這一整合可以利用一定的資料進行自動的分析。 

其他的研究使用了文本分類或聚類的方法。文本分類目前是資訊搜尋和資料挖掘領域研究的一個熱門主題[9,10]。其在近年來有着迅速的發展,并在資訊過濾,自然語言處理和資訊的組織和管理方面有着廣泛的應用。Pyanjun Li和Soon M.Chung [11]提出了二種新的文本聚類算法,名為根據頻繁詞序的聚類(CFWS)和根據頻繁詞意序列的聚類(CFWMS)。

<b>Ⅲ</b><b>. IPOAS</b><b>模型概覽</b><b></b>

IPOAS模型采用了三層結構,分别是I/O層、服務處理層和資料層。圖1顯示了系統的具體結構。每層都可以被細分。每層的具體分解見圖1。

網絡輿情分析系統的研究與設計

圖1. IPOAS模型

<b>A.     </b><b>I/O</b><b>層</b>

1) 資料集:資料集與使用者要求要收集的資料有關。它主要包括内部資料、網絡資料和媒體資料。 網際網路在日常生活中逐漸成為了公衆交換資訊的一個重要平台。例如BBS、部落格、門戶網站和政府網站等等資訊平台可以作為對輿情進行監視和疏導的一個來源。

2) 前端應用子產品:前端應用子產品是網絡輿情分析系統的輸出程式。在大多數情況下,它提供适應使用者需要的功能,包括有——熱點查尋,關鍵詞檢索,自動摘要,主題詞自動推薦,輔助收集功能等等。

<b>B. </b><b>服務加工層數</b>

1) 網絡輿情資訊收集子產品:網絡輿情資訊收集子產品用來定位網頁資源和擷取它的源代碼。 目前基于網頁連結的資訊收集技術可以自動地擷取基于的網頁資源和源代碼。因而收集覆寫面便可以通過連結遍及整個網際網路。網絡輿情監控系統可以根據使用者提供的網絡輿情關注點制定主體目标,然後利用手工幹預和資訊自動收集的聯合方法完成資訊收集的任務。對于那些被定位的網頁資源,系統會判斷這些資源是否被儲存進了曆史資料庫。如果是并且兩者相同,系統将忽略這樣的資源并繼續收集其他資源。相反,如果資源未被儲存入資料庫或儲存過後被改變了,系統将使用網絡爬蟲技術收集這些資訊然後儲存這些資料到資料庫中以便之後進行資訊預處理工作。

2) 資訊預處理子產品:資訊預處理子產品的主要作用是通過使用諸如去雜、分詞和分類等方法将從網頁上收集的資料處理成格式化資料,然後将他們儲存到資料庫中。這個子產品是網絡輿情分析系統中的資料準備和技術準備階段。預處理收集到的資訊意味着轉換網頁格式并且過濾出網絡輿情資訊。對于新聞評論,這個子產品需要過濾掉無關的資訊并保留諸如新聞标題、來源、日期、内容、點選量、評論者、評論内容、評論數量等等資訊。類似地,對于BBS,子產品需要記錄文章的标題、發帖人、發帖日期和時間、内容、回複、回複的數量的标題,最後要産生格式化過的資訊。

收集子產品和資訊預處理子產品的資料互動是通過檔案完成的。是以資訊預處理子產品可以直接将處理後的資料結果存放到資料庫中。

3) 網絡輿情語義分析子產品:網絡輿情語義分析子產品進一步地從資訊預處理子產品生成的資料中挖掘資料。所運用的關鍵技術有熱點發現的和跟蹤,新事件發現,關聯分析和趨勢分析。 這一子產品是整體系統的核心子產品。它有着像網絡輿情監視,熱點跟蹤和事件發現等等功能。

在系統實作過程中,網頁資訊分析方法基于向量空間模型,并且采用了成熟的的資料挖掘算法和技術,例如文本分類和文本聚類。與其他研究相比,這個系統的好處是它采用了靈活的方法對資料挖掘算法進行了整合應用,并且這些算法可以根據文本分析和資料挖掘的需要進行定制。可以确信,整體系統可以執行政策調整和優化以适應使用者和應用的需要,是以系統可以在使用中達到它的設計水準。

4) 趨勢分析子產品:趨勢分析子產品用來分析公衆對一個主題在不同的時期的關心程度。因而它可以提供網絡輿情趨勢的預測和預警服務來幫助決策者了解網絡輿情的趨勢和事先發現熱點問題。

<b>C.</b><b>資料層</b>

資料層主要負責儲存實體資料到資料庫中,這其中會用到有關算法、網絡輿情收集、網絡輿情特征向量、語義分析等方面的知識。

<b>Ⅳ. </b><b>網絡輿情資訊預處理技術</b>

網絡輿情資訊預處理子產品是網絡輿情分析系統中最重要資訊處理的子產品之一。這個子產品将進一步處理從網絡輿情資訊收集子產品傳來的網頁源代碼。現今有許多資訊預處理技術,例如網頁摘要,網絡文本組織法,網頁淨化,重複網頁刪除偵測,文本分割,停用詞和功能詞删除和詞頻統計。在這個部分,我們考慮如何分析嵌在網頁中的複雜隐晦的結構和如何使用這些資訊進行網頁摘要。我們的方法是從網頁提取最相關的内容然後傳遞他們到一種标準文本分類算法中。

尤其是,我們将用頁面布局分析法識别出的内容主體指導網頁的摘要工作。

網頁中結構化的字元使網頁摘要與純文字摘要不同。這項任務的難點在于在網頁中數量衆多的“嘈雜”成分,例如導覽列、廣告和版權資訊。為了運用網頁的結構資訊,我們使用了如[12]所描述的基于功能的對象模型(FOM)的一個簡化版本。

簡言之,FOM試圖通過辨認對象的作用和類别來了解作者的意圖。在FOM中,對象被分類成一個作為最小的資訊體并不可進一步被劃分的基本的對象(BO),或者是一個組合對象(CO)。組合對象是對象(BO或CO)的集合,而這些對象可以同時發揮某些作用。BO的一個例子是jpeg檔案。在HTML内容中,BO是一個在兩個标簽或一個内嵌對象中的不可分的元素。在BO的内容的裡面沒有其他标記。根據這個标準,我們可以容易地在網頁裡找出所有的BO。同樣,CO可以被網頁布局分析所查出。基本思想是在同一個類别的對象通常有一緻的視覺樣式,以便他們可以從其他類别對象中由明顯的可見邊界分離,例如表格邊界。在查出網頁中的所有的BO和CO後,我們可以根據一些啟發式規則辨認每個對象類别。 這些規則的詳細例子在[15]中被展示;這裡我們僅提供概要。首先,對象類别包括:

1)資訊對象:這個對象表示内容資訊。

2)導航對象:這個對象提供導航指南。

3)互動對象:這個對象提供使用者端互動。

4)裝飾對象:這個對象起裝飾作用。

5)特殊功能對象:這個對象執行特殊功能例如廣告、商标、聯系方式、版權、參考等等。

為了利用這些對象,從上述的對象類型中,我們定義了一個網頁中包含與該頁主題有關的主要對象的内容體(CB);這些是表達關于網頁重要資訊的對象。找出CB的算法如下:

1. 把每個被選擇的對象當作一個單一文檔并且為對象建立的TF*IDF索引。

2. 利用餘弦相似度算法計算任意兩個對象的相似度,如果相似度大于某個門檻值,就增加一個這兩個對象間的連結。門檻值需要根據經驗進行選擇。在處理完所有對象對之後,我們将得到一張連接配接不同的對象的關聯圖。

3. 在圖表中,擁有最多邊緣的對象被定義為核心對象。

4. 提取CB作為與核心對象相連接配接的所有對象的組合。

最後,我們将配置設定CB值S到每個句子。如果句子包括在“内容體”中,則Scb= 1.0;否則, Scb= 0.0。最後,所有Scb等于1.0的句子将用來進行我們所談到的的網頁摘要。

<b>Ⅴ. </b><b>網絡輿情資訊的語義分析(IPOISA</b><b>)</b>

       IPOISA是系統的核心技術,主要用來檢測和追蹤熱點。由它來确定網絡輿情(IPO)資訊的準确性。系統運用文本分類和文本聚類的算法來實施語義分析和處理被預處理過的内容,以便建立由索引資訊組成的分析資料庫。

網絡輿情分析系統的研究與設計

圖2. 網絡輿情資訊的語義分析

       圖2顯示的是IPOISA的結構。 IPOISA包括文檔特征據庫、算法庫和分析結果資料庫。 文檔特征資料庫是在預處理網絡輿情(IPO)資訊以後生成的知識資料庫。分析結果資料庫儲存IPOISA的結果。 IPOISA的主要功能是算法庫,算法排程和線程操作:

<b>A. </b><b>算法庫</b>

算法庫包括一些可以動态地被擴充和增加的配置檔案。算法庫可以為每一種類型的執行線程生成特定的算法,并被算法排程程式所使用。系統根據系統管理者的需求儲存關于算法政策的配置資訊到算法庫中。

<b>B. </b><b>算法排程</b>

算法排程負責配置設定多線程的執行和管理任務,即IPOISA的引擎。算法排程用來排程不同的算法和處理次序來分類或聚類本文的特征向量,并且控制線程的運作。系統掌管和控制每個使用者的不同程序,這意味着他可以在同一時間處理一個使用者的不同程序。例如,由系統提供的基本的處理方法是熱點事件的探測和使用者感興趣的事件的追逐,然後系統可以同時為使用者A創造兩個程序—熱點探測程序“A_Detection”和事件跟蹤程序的“A_Tracking”,用這兩個程序來分析和處理來自多方面的資訊。

<b>C. </b><b>線程處理</b>

每個處理線程都是文本分類或聚類之一的過程,包含值向量的生成、特征選擇或者特征提取、文本分類或聚類。算法庫确定每個線程的每個部分的算法。線程根據預程式設計式時間頻率和處理政策從文檔特征向量庫中讀取需要的内容,并且進行進一步的分析和處理,其結果将被儲存入結果資料庫。最後,使用者可以在結果資料庫中進行查詢,所需要的結果将以适當的形式呈現給使用者。

<b>Ⅵ. </b><b>實驗</b>

為了确定對網絡分類和IPOAS的摘要效果,我們進行了幾次實驗。

<b>A. </b><b>資料集</b>

實驗資料集由我們自己的語科庫和北京大學中文網頁訓練集CCT2006組成。它包含8個類别和6000個句子,其中有4000個被用作訓練集合而其他的則用作測試。共有四個類别,包括教育、商業、計算機和網際網路、新聞和媒體,被選中用來分析結果。

<b>B. </b><b>分類器</b>

因為本文的焦點是确定對網絡分類和IPOAS的摘要效果,在實驗中我們選擇了兩個流行的分類器。 一個是原生貝葉斯分類器,另一個是支援向量機。

1) 原生貝葉斯分類器(NB)

原生貝葉斯分類器(NB)是在實踐中被證明很好使用的一種簡單但有效的文本分類算法。NB的基本思想是使用詞彙和分類的聯合機率來估算一篇給定文檔所在分類的機率。多數研究者通過運用貝葉斯規則使用NB方法:

網絡輿情分析系統的研究與設計

 當P(Cj|θ)可以通過計數在訓練資料出現的每個類别Cj的頻率來計算;|C| 是類别的數量;p(wi|cj)代表詞wi可能在分類cj出現的機率在可能小在訓練資料,這種機率在訓練資料中可能會較小,是以拉普拉斯過濾被用來估算它;N(wk,di)是單詞wk出現在di中的次數;n是單詞在訓練資料中的數量。

2) 支援向量機(SVM)

支援向量機(SVM)是V.Vapnik最近介紹的一個強有力的學習方法。它是建立在計算型學習理論之上的,而且已被成功地用于文本分類。

SVM通過在可能的輸入空間内發現超曲面來運作。超曲面試圖通過最大化最近的距離的正負面例子來從負面例子中分裂正面例子到超曲面。直覺地,這使為那些與訓練資料很近但又不相同測驗資料分類正确。有各種各樣的方式訓練SVM。一個特别簡單和快速的方法是由J.Platt開發的序列最小最優化(SMO)。他的序列最小最優化算法将二次規劃(QP)問題分解為一系列小的QP問題來進行分析解決。因而SMO算法有效地适用于大型的特征和訓練集。

3) 評估名額

我們使用标準名額來評估網頁分類的效果,即精确度、召回率和F1-measure名額。要确定這些,我們必須首先來了解一篇文檔的分類是否是真陽性(TP),假陽性(FP)或假陰性(FN) (參見表1)

表Ⅰ

一篇文檔的分類

TP

決定于一篇文檔是否根據其相關的分類被正确地分類。

FP

決定于一篇文檔是否被說明錯誤地與分類關聯。

FN

決定于一篇文檔是否本應關聯到一個分類卻沒有關聯上。

精确度(P)是在系統傳回的所有被預言的正面類成員之中的系統傳回的實際正面類成員的比例。P=TP/(TP+FP)。召回率(R)是被預言的正面成員在資料中所有實際正面類成員之中所占的比例。R= TP/(TP+FN)。F1是精确度和召回率的調和平均數,如下所示:

F1 = 2* P *R/ (P + R)

<b>C. </b><b>實驗結果和分析</b>

表Ⅱ

有關P、R和F1實驗結果

Education

News and Media

Computer and Internet

Business

P

NB

95.51

97.36

94.37

92.24

SVM

93.29

97.06

95.03

91.85

R

90.33

96.93

91.34

93.71

90.87

96.25

91.08

93.65

F1

92.85

97.14

92.83

92.96

92.06

96.65

93.01

92.74

實驗結果顯示兩種類型的成熟文本分類算法在被大量訓練集訓練後再次被聚類處理,精确率和召回率以及F1值大緻相同。例如,兩種算法的結果在新聞和媒體方面令人滿意,然而NB在教育和商業類别中表現得要比SVM更好,而SVM比NB更擅長計算機和網際網路類别。可見一個适用不同的種類的文本分類算法的通用平台由IPOAS建立。根據實際需要和使用者需求,IPOAS可以通過滿足不同算法的處理需求來運用更多更為有效的的算法。是以,這再次證明了IPOAS有良好的擴充性和多算法相容性。

<b>Ⅶ. </b><b>總結</b>

以前,網絡輿情分析系統隻不過是輿情資訊處理的其中一環,隻是文本分類或文本聚類而已。這種應用在某種狀況下經常被認為是差強人意的,例如,在使用者想要在某個時期把新聞歸類為教育、經濟、文化、科學技術等等,并且想要檢視每個類别中的熱點事件時。很明顯地,這些要求的實作需要首先對文本進行分類,再從前一階段的結果中針對每個類别的文本進行聚類操作。

本文提出了一份網絡輿情分析的系統計劃。這個模組化方法是可行且有效的。我們将文本分類和聚類算法巧妙地結合了起來,并證明了這種結合比僅使用它們其中的一個要更有效率、更有效果。我們通過應用網頁摘要技術可以從網頁中提取最相關的内容,然後把它們傳遞給一個标準的文本分類算法。通過實驗的結果,我們證明了這一系統在系統結構和設計上的優越性。

<b>緻謝</b>

       這一成果是在CEEUSRO工程(No.2008B090500201)和廣東省高校科學技術成果轉化重點工程(No.cgzhzd0807)的支援下完成的。

<b>參考文獻</b>

[1] M.W. David, K. Sakurai. Combating cyber terrorism: countering cyber terrorist advantages of surprise and anonymity. International Conference on Advanced Information Networking and Applications.pp.716-721,2003.

[2] N. Thanthry, M. S. Ali, R. Pendse. Security, Internet connectivity and aircraft data networks. International Carnahan Conference on Security Technology. pp.251-255, 2005.

[3] G.X. Zhang.Analysis on the inclination of group polarization from subject of public opinion in the cyber space. Journal of China Qingdao University of Science and Technology.21(4), pp.104-107, 2005.

[4] PDou Shen, PQiang Yang, PZheng Chen. Noise reduction through summarization for Web-page classification. Proceedings of Information Processing and Management: an International Journal v43 i 6.2007.

[5] D. Shen, Z. Chen, Q. Yang, H. J. Zeng, B. Zhang, Y. Lu, and W. Y. Ma, "Web-page classification through summarization", Proceedings of the 27th Annual International Conference on Research and Development in Information Retrieval (SIGIR'04), Sheffield, United Kingdom, July 25-29, 2004, pp. 242-249.

[6] P.D.Turney,M.L.Littman.Unsupervised learning of semantic orientation from a hundred-billion-word corpus.Technical Report ERB-1094,National Research Council Canada,Institute for Information Technology,2002.

[7] Peter Jorgensen. Incorporating context in text analysis by interactive activation with competition artificial neural networks.ACM,pp. 1081-1099,2005.

[8] Jianping Zeng,Shiyong Zhang,Chengrong Wu,Jianfeng Xie. Predictive Model for Internet Public Opinion. IEEE Vol.3,pp.7-11,2007.

[9] Guo-Xiang

Yao

,Quan-Long Guan,Liang-Chao Lin, et al. “Research and implementation of next generration network intrusion detection system based on protocol analysis”..Proceedings-ISECS,CCCM 2008,vol 2, ,pp 353-357b,2008

[10] Shen. Y, Jiang. J. Improving the performance of Naive Bayes for text classification, CS224N spring. Technical report, Stanford University.2003.

[11] PYanjun Li,Soon M. Chung,John D. Holt. Text document clustering based on frequent word meaning sequences.ACM,pp.381-404,2008.

[12] Chen, J., Zhou, B., Shi, J., Zhang, H., and Wu, Q., Function-Based Object Model Towards Website Adaptation, In Proceedings of the 10th International World Wide Web Conference, 2001.

繼續閱讀