天天看點

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

現代城市是由人、機、物等組成的繁複的生活系統,其間産生的資料可用巨量來形容。要對這些宏大的資料進行收集、梳理并作分析,難度有之。在日前舉辦的杭州雲栖大會上,浙江大學陳為教授為我們分享了其團隊近幾年在城市大資料可視化方面的部分科研成果,并探讨了機器學習等在城市資料研究中的重要性。本文為其演講實錄,并略經編輯、删減。

可視分析研究的興起

今天我向各位分享的是我們浙江大學可視化與可視分析小組最近兩年的研究工作。

首先簡單給大家兩個定義。

第一個,可視化是什麼?可視化實際上是把資料資訊轉化為人眼能識别的可視符号,通過眼睛來增強人類大腦認知的一種方法。可視化其實是人機互動、虛拟現實應用裡面的關鍵技術。

第二個,可視分析是什麼?2004年美國在對反恐情報的分析中,出現了一些核心問題(DT君注:美國國土安全局之後成立國家可視化與分析中心),後來就演化出了一個新的學科,叫做可視分析學。這門學科是把可視化、人機互動、資料挖掘結合起來,形成的一種新的解決問題的綜合性的思維方式。

我從2004年開始就轉向了可視化分析方面的研究。尤其最近幾年,人工智能的興起使得我們能夠更好地考慮去做智能可視化,來分析一些問題。

今天要向大家展示的,是圍繞最近幾年我們拿到的一些真實、少量的資料,以及我們所做的部分研究工作。

對人群位置和手機通話關系做可視化

第一項研究,是基于手機基站資料。簡單來講,每一個手機使用者,他每分鐘在什麼位置,這個位置是不精确的,而是一個基站的ID。

使用者在某些基站可能會停留,也可能會移動,這其實反映了城市人群的流動。同時我們也獲得了這些使用者互相之間的通話資料。有了這些資料後,我們自然而然想:這個城市的人群到底是怎麼流動的呢?當然這是基于基站的流動,不是基于車輛,也不是基于GPS。

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

上圖是我們設計的4個視圖。左上角是以手機基站為中心的人群流動的規模分析,以及随着時間演變,它的變化趨勢。

左下角是一個熱力圖,它展現了在不同的區域,人群的密度、分布情況。

右上角是一個傳統的統計可視化,通過統計的報表來分析。

右下角是結合了聚類,用資料挖掘的傳統方法,來研究社交關系和人群流動之間有沒有一些沒法用統計方法來表現的規律。

在整個界面上,我們分成了幾個視圖,視圖本身是用WebGL進行加速,它的背後是整個城市數百萬人的手機每分鐘的位置資料,以及不定時的發短信和電話的記錄等資料的支撐。

在我們看來,可視化一個非常重要的功能是給人一個提示、給人一個直覺、給人一個恍然大悟的感覺。

需要注意的是,我們今天給大家提供的例子,都是以二維為背景的,因為我們覺得雖然三維的背景在某些應急指揮或者城市規劃中應用很廣泛,但在一些非結構化、時空和非時空的資訊分析當中,二維和高維的空間資料分析更加适合。

在這個視圖中,我們使用了開源的OpenStreetMap作為底圖,在此基礎上做了疊加和WebGL加速,進而能夠做到實時呈現。

基于手機信令資料做人群流動的可視化

接着我們來看看,我們在對手機信令資料的進一步挖掘中,如何觀察人群的流動。

如何來衡量人群流動呢?我們發現,20世紀80年代,國内已經有人在研究張量場和流場這樣的理論,我們認為,在城市人口密集區域研究人群流動,也可以通過流場來表達和刻畫,然後再采取一些擴散對流的方法,來進行表達。

獲得了手機信令相關的原始資料後,要進行梳理和清洗,再轉化為向量場。什麼是向量場呢?就比如風朝某個方向吹,其實就是一種向量場。

将向量場應用到人群流動分析中,可以用來刻畫人群在大範圍内的宏觀的流動。下面這張圖是我們和阿裡合作的人群實時流動的可視化分析的截圖:

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

在圖中,人群的流動是發生在道路上的。在早晚高峰,它具有某種大範圍的宏觀流場特征。通過可視化的方法,我們能讓使用者看到人群移動的方向,以及分叉和融合、聚集和擴散的情況。

我們目前的資料可能還不是那麼精确,因為我們是将某個區域劃分為若幹個小方格來進行計算、統計人群的流動,如果我們有GPS之類資料的話,可以更好地采取類似的計算機視覺的技術,來監測人群中可能發生的踩踏情況。

理論上來說,如果我們的資料彙聚得比較好,是可以提前預防踩踏事件的。

從計程車軌迹來對路況進行可視化查詢

第三個例子是基于計程車軌迹的相關資料對路況進行可視化查詢。

2012年時,杭州市有8300多輛計程車,這些計程車的車流占整個城市車流的7%左右,是以計程車的軌迹能夠反映城市交通的某種狀态。

要通過計程車的資料來查詢哪個地方堵車,哪個路口的人群往哪裡走等等,我們需要有一個能夠即時回報的查詢工具。

雖然我們也可以寫一個程式,用Excel打開進行查詢,但是要做到随時随地查詢、對不同區域進行對比等,這樣我們就需要一個可視化分析的界面,因為這才是一個即時的分析工具。

我們的課題組主要做的就是将空間的資料轉化為可視化的互動界面查詢,向使用者提供一個更簡單、靈活地的資料工具。這背後當然需要一些資料挖掘算法。

這裡來看下一我們的原始資料的情況:

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

我們拿到的原始資料,打開一個檔案需要10分鐘,但在我們對資料進行處理和建立索引後,使用者的查詢同樣也做到了實時。

基于這些資料,我們能做到什麼呢?

我們可以做雙向車道、潮汐車道的對比,還可以分析交叉路口、堵車等各種交通方面的問題。

比如,下圖展示的是杭州天目山路和曙光路的情況。這是兩條平行道路,但是由于曙光路施行了潮汐車道,是以,從圖中可以看出,曙光路的擁塞情況較輕,從右側的散點圖能看出曙光路的車流量要比天目山路(主幹道)更大。

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

下面的視訊,展示了杭州8300輛計程車的軌迹的情況,以及我們基于這些資料對車流和交通狀況的一些分析:

将機器學習引入城市空間位置的可視表達與分析

在對資料實作可視查詢後,我們認為,要對深層次的資訊進行刻畫,我們還可以采用一些機器學習的方法來進行表達。

比如說,我們最近就進行了一個簡單的嘗試。大家知道,最近有一種最新的word2vec方法,它實際是一種深度學習的資料表達。我們也把這個方法擴充到了非結構化資料的處理上。用于對時空、人群和計程車軌迹的資料分析。進而能夠幫助我們更好地來觀察人群位置移動等。

通過把粗糙的資訊進行過濾後,使用者還能夠從中找到一些很有趣的資訊。

下面是我們的一些可視化界面截圖:

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

通過引入機器學習,我們可以探索手機基站的相似性關系、城市道路的相似性、手機基站各向異性屬性與道路的相關性分析等等。可以更好的探索人群和城市地點之間的互動過程。

我們認為,對這些資訊進行可視化不僅是為了讓使用者看,更重要的是了解在三元空間中的人、機、物之間發生了什麼事。

人的社會關系的可視推理和異構資料的關聯分析

最後再來談談我們如何對個人的社會關系進行可視推理,以及不同結構類型的資料如何進行關聯分析。

我們希望基于三元空間裡的諸如微網誌資料、手機的基站相關的位置資料、計程車資料,來推測某一個不明身份者的社會關系。

先來舉個例子。有一個孕婦,在生小孩前後通過手機在車上連續發了7條帶有位置的微網誌,但是微網誌裡面的地理資訊位置不夠精确,而我們恰好有這個時間段裡的手機基站和計程車軌迹的相關資料,通過簡單的方法,我們可以在1-2分鐘内,快速把這個孕婦住在哪、她的丈夫是誰、她的手機是哪一個ID等等,都能找出來。

對于這類關系的分析,我們需要借助于人和機器的智能融合,來讓使用者通過時間線的表達,通過地理、時間,來快速疊代地把四元空間中可能會發生資訊碰撞(公安相關領域一個術語)的人物關系找出來。

另外,通過此類分析,我們還可以找到交班的計程車位置資訊,人群的通勤規律等等。

做這樣的分析,我們當然不是為了破壞隐私,反過來了解,我們其實也在做關于隐私保護的可視化分析。我們希望能給我們的使用者一種一針見血、快速而靈活地找到某個人的社會關系的一種方法。注意這些目前還不是自動做到,而是需要把人的常識,經驗融入到機器,通過可視化的互動方式去疊代地融入,這樣才能找到一些蛛絲馬迹。

接着再來看看如何對異構資料進行關聯分析。

通過把不同的線索快速彙聚在一起,能讓大家快速成為福爾摩斯。通過對不同線索的彙聚,對資料進行關聯推理分析,這裡我還是舉兩個例子。

第一個例子,某個人在微網誌中稱其在某個時間打車時丢了一部手機,半小時後用電話打過去發現手機關機。誰會拿走他的手機呢?我們通過資料,兩分鐘之内能夠查出來。可以從幾千條計程車軌迹中,快速比對出來。最後還原出來整個事件:原來是計程車司機把這個手機拿走了。

下面這張圖展示了從某條微網誌,到最終定位到某位計程車司機的推理過程:

當城市資料和社會關系被可視化,每個人都可能是福爾摩斯

(圖檔說明:城市資料的多樣化導緻了多源異構的資料,它們在帶來資訊量的同時帶來了很大的資料學習成本和資料查詢成本。本文作者團隊建立的一套模型,可以提高資料查詢效率,利用可視化的方法,使用者能夠簡捷直覺地自定義資料查詢目标,并利用不同視圖展示查詢結果,有效提高了城市資料的分析效率。這個圖展示了某個事件的分析推理過程。)

第二個例子,是關于某一起車禍。車禍發生前,所有的天氣情況、道路情況以及它引起的交通擁堵等情況,都可以快速進行分析。此外,我們的平台上還彙集了手機信令、計程車軌迹、微網誌資料、谷歌視訊、地圖、街道等各種網上資訊。可以将不同的資料關聯起來。

我們認為,對于大資料,第一步是要“存”(存儲),第二步是“通”(關聯),第三步是能做一些分析。

再進一步,可能還需要進行更多的資料挖掘,引入機器學習、人工智能等算法,才能夠讓我們智慧城市建設走得更遠,形成一個以資料為中心的城市大腦。 

原文釋出時間為:2017-10-25 

本文作者:佚名

本文來自雲栖社群合作夥伴“51CTO”,了解相關資訊可以關注。

繼續閱讀