天天看點

專訪佰騰科技大資料團隊,談專利大資料領域的挑戰與實踐

江蘇佰騰科技有限公司成立于2006年,是一家專業從事知識産權服務的高科技服務企業,國内知名的知識産權服務機構,江蘇省最大的民營知識産權綜合服務機構。 佰騰科技以專利資訊應用和專利咨詢服務為核心,面向國内外使用者提供專利資訊檢索、專利大資料應用開發、專利代理服務、專利預警分析、專利戰略研究、知識産權貫标輔導、知識産權管理、專利技術成果轉化交易等服務,為客戶提供知識産權、科技創新的整體解決方案。 

佰騰科技的專利資訊檢索平台(專利探索者)已經持續研發了10年,是目前國内最知名的免費面向公衆服務的大資料應用平台,為中國專利事業的發展做出了很多的突出貢獻。 近日,筆者有幸與佰騰科技大資料團隊進行交流,就專利大資料領域現狀與實踐進行了探讨。

<b>以下為實錄:</b>

<b></b>

<b>yq:貴公司主要使用大資料來解決哪些方面的問題,想借助大資料取得哪些成果? </b>

<b>佰騰科技大資料團隊:</b>佰騰科技專注為客戶提供最好的專利資訊和技術創新服務,我們所依賴的核心就是專利資訊的資料挖掘,以及與專利資訊相關的其它延展資訊的資料挖掘,如全球期刊文獻、法律訴訟、企業資訊等。專利資訊的『大資料』與其它領域的『大資料』多少有些不同,雖然全球專利資訊的總量僅在1億多條,但是每條專利資訊要分析擷取的資料次元目前就多達200多項,實際處理的資料量在百億級别。同時,針對各種客戶的不同需求,我們還要基于這些資料實作數百種的分析模型和方法,從中挖掘出專利資訊的深層次價值。 

在我們的業務處理場景中,我們需要經常性的對原始資料進行次元的挖掘和測試,以確定資料次元滿足客戶分析應用的要求。以前,我們在自建的環境中進行一次回歸資料處理要花費近一周的時間,如果中途發現錯誤還會導緻大量的時間浪費,效率非常低下。而在使用了數加大資料基礎服務之後,這個時間縮短到了小時級别,資料回歸處理的風險大幅下降,資料分析工程師可以在更快的時間内驗證分析模型和方法,效率提升非常顯著。 

另外,随着我們對專利資訊次元挖掘的深入,我們對于資訊挖掘的需求正在從『文字表述』向『邏輯概念』轉移,比如我們希望從專利資訊中挖掘出技術概念并發現它們之間的關系,這樣我們就能幫助客戶更好的分析技術發展的趨勢和熱點。目前我們正在推進專利資訊深度挖掘技術的研發,借助數加平台的機器學習以及資料分析能力,為我們的客戶提供更加精準、更加全面、更個性化的專利大資料應用服務。 

<b>yq:在大資料實踐的過程中,你們業務場景中的主要挑戰有? </b>

<b>佰騰科技大資料團隊:</b>我們的挑戰主要來自于三個方面: 

專利大資料處理的次元内容越來越多,資料量也越來越大,我們原有的以文本搜尋為核心的資料架構平台亟待更新,未來我們需要把數加的能力融合到我們的新資料架構平台上,實作對資料的擷取、清洗、挖掘、分析、應用的全周期的資料管理、監控和開發支撐。 

專利大資料的深度挖掘越來越需要依賴新的資料挖掘技術,比如文本聚類、機器學習、圖像識别等,而我們不可能建立并擁有研發這些技術的專業團隊,我們認為數加平台可以在我們的領域内給予針對性的能力支撐。 

專利大資料的應用是一個實踐性非常強的領域,随着客戶應用需求的不斷提升, 我們需要不斷更新分析和展示資料結果的模型和方法,這裡面不僅有提升資料處理效率的問題,也有提升資料分析應用能力的問題。 

<b>yq:阿裡雲數加的哪些特性幫助你們解決了這些問題?</b>

<b>佰騰科技大資料團隊:</b>數加平台的maxcompute 解決了我們資料存儲量大的問題,保證了資料的安全性和完整性;平台的任務開發功能很好的解決了資料處理過程中流程标準化的問題,可以将任務托管後自動化執行,解放我們雙手;分布式的架構結構解決了多任務的并發處理問題, 提高了任務處理的速度,實作了資料價值的快速挖掘,避免了我們自己開發系統存在的諸多不穩定問題;機器學習平台降低了算法的學習成本,也可利用既有的資料模型算法解決資料挖掘過程中的問題。 我們使用的服務有:資料存儲、資料處理、流程任務、機器學習。 

專訪佰騰科技大資料團隊,談專利大資料領域的挑戰與實踐

使用數加平台後,我們的資料存儲和處理效率有了大幅提升。在我們自建的環境裡進行一次回歸資料處理需要7 天時間,而使用數加平台處理隻需要3~6 個小時。這些效率的提升可以縮短我們資料分析應用産品的研發周期,并能更好的提高這些産品的需求符合度。 

<b>yq:當初是什麼原因促使您選擇阿裡雲數加産品的?</b>

<b>佰騰科技大資料團隊:</b>

我們自建環境儲存資料的代價高昂,不利于大量資料的安全存儲和快速處理。 

我們自建環境和原有資料架構平台對大資料處理的速度很慢,不能适應業務需求的快速變化。 

我們原有的資料架構平台已使用多年,技術比較落後,已經不能很好的支撐新的大資料研發需求。 

阿裡雲在國内大資料技術方面處于領先地位,也是最早進行大資料雲化的平台,我們信任阿裡雲數加平台的能力。 

<b>yq:對比雲服務和自建大資料基礎設施,你們是怎麼衡量的? </b>

<b>佰騰科技大資料團隊:</b>雲服務最大的特點就是隻管使用服務,不需要關心底層技術架構、安全性、可靠性、穩定性等方面的問題。自建大資料基礎設施需要采購和維護大量硬體裝置,部署和配置複雜的系統環境,需要耗費大量資源保證服務的持續、穩定運作,并且對于運維人員的要求會更高。 

對于我們專利大資料處理業務來講,雲服務是我們整個業務系統依賴的重要基礎,能幫助我們節省大量的基礎建設費用。同時,我們也會根據自身業務的需求,對雲服務進行進一步的開發,形成最有利于自身業務發展的大資料分析應用平台。 

<b>yq:你們未來還想借助大資料實作的場景有?阿裡雲數加是否能滿足你們的需求?如果沒有,期待有哪些? </b>

<b>佰騰科技大資料團隊:</b>我們希望借助阿裡雲數加平台打造面向專利大資料分析應用的領域性大資料平台,并利用大資料技術實作對專利資訊資料價值的深度挖掘,能幫助客戶及時掌握全球技術發展的動态和熱點,提高企業技術創新和知識産權保護的效率和成效。 

目前我們已經将基礎資料處理和部分資料挖掘的任務放在阿裡雲數加平台上完成,我相信數加平台會不斷發展并支撐我們更多的大資料業務需求,讓我們更多的大資料工作逐漸實作雲化。 

我們期待阿裡雲數加平台能在文本資料挖掘、圖像資料識别、資料關聯分析等方面給予更多的能力支撐,助力專利大資料分析應用領域的快速發展。 

繼續閱讀