天天看點

AI大腦讓機器人更像人了

作者:經濟觀察報
AI大腦讓機器人更像人了

經濟觀察報 記者 沈怡然 “我口渴了。”“需不需要我給你倒杯水?”

這是一段人類與機器人之間的對話。焦繼超首次聽到這段對話時非常激動,因為以往機器人是不會這樣回應的,機器人可能會嘗試解釋口渴的原因,或者幹脆沒有任何反應。

焦繼超是深圳市優必選科技股份有限公司(09880.HK,下稱“優必選”)的科技副總裁、研究院執行院長。他說,過去,即使一個機器人詞彙量再大,也無法真正聽懂人類的語言,隻會響應預設的關鍵詞。這種情況在實際互動中的局限非常明顯,例如,機器人能了解具體的指令“給我倒杯水”,但無法了解更抽象地表述“我口渴了”。

焦繼超說:“即使是三歲的小孩也知道‘口渴’意味着需要喝水。”2016年,優必選啟動了第一代人形機器人的研發工作。盡管研發團隊能夠讓機器人的骨架和關節實作非常精準地運動,但提升其“大腦”的智能性始終是個難題。

機器人之是以能夠完成這段對話,是因為它采用了像ChatGPT(OpenAI研發的一款聊天機器人程式)這樣的人工智能大型語言模型。

大語言模型技術第一次成功模拟了人類的語言系統,讓機器人實作與人類自然對話。AI(人工智能)大模型技術的快速更新又讓機器人陸續擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型,機器人能夠更好地感覺和了解周圍環境。當大模型演進到更進階的階段,不僅能夠處理和響應各種資訊,還能夠自主決策和執行任務,模拟出越來越接近人類大腦的功能。

人工智能技術起源于20世紀50年代,它朝着模仿人類大腦的方向演進了七十多年,卻始終遊走于數字世界;機器人技術起源于更早的20世紀20年代,并經曆了超過一個世紀的發展,機器人已經擁有了靈活的身軀和骨架,但一直未能獲得一個聰明的大腦。

在長期發展和“雙向奔赴”後,這兩大技術終于在目前的時間點交彙,這讓人工智能以實體之軀步入現實,去觸摸和改變世界;而機器人也不再隻是執行簡單指令的機械,而是變得能夠思考、學習和适應環境,像人類一樣在工業生産線、醫療手術台上工作。

焦繼超說:“這是一次質的躍遷,人形機器人的iPhone時刻到來了。”

讓機器人像人一樣說話

機器人“成為”人的第一關是語言。

起初,優必選嘗試使用傳統的處理方法和AI小模型來實作這一目标:先給機器人預設一些關鍵詞,然後再利用傳統的小語言模型(SLM)進行語義分割,通過識别關鍵詞來讓機器人觸發相應的指令。

焦繼超将這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機器人熟悉特定的語言指令,但對于未預設過的關鍵詞和指令,機器人很難給出正确的反應。

為了擴充機器人的“詞彙量”,企業不得不通過程式設計不斷添加預設程式和關鍵詞,以模拟更多的條件反射,讓機器人能響應更多的人類語言。這一過程既煩瑣又複雜,涉及資料采集、标注、訓練以及驗證推理等多個環節,工程師們還需要不斷地調整參數。

盡管團隊付出了巨大的努力,但機器人在語言了解上始終存在局限,無法達到與人類自然對話的水準。反應慢、缺乏思考和推理能力,對于預設之外的新情況和問題,機器人往往無法給出合适的反應。焦繼超說,這無疑給團隊帶來了巨大的挑戰。

面對這種情況,他們轉而探索另一種技術——知識圖譜技術。他們建構了一個龐大的知識圖譜庫,希望通過命中關鍵詞來搜尋資料庫中的知識,并據此生成回答。這種方法在一定程度上提升了機器人對自然語言的了解能力,但仍然存在局限性,機器人的回答往往預設性強,缺乏靈活性和人性化,這與團隊追求的自然、流暢的人機互動體驗仍有很大的差距。

經曆了一系列的嘗試後,焦繼超認識到,要實作真正的突破,需要更先進的技術。

機器人有了嘴巴、眼睛和耳朵

2021年底,OpenAI釋出了具有裡程碑意義的ChatGPT模型。ChatGPT以其強大的語言了解和生成能力引起了廣泛關注,它在自然語言處理技術上取得了飛躍式的進步,開啟了人工智能的“大模型時代”。

商湯科技智能産業研究院院長田豐對經濟觀察報說,在IT時代,人類通過程式設計語言開發軟體、實作人機對話,而大語言模型的出現簡化了這一流程,通過“人類母語”就能實作人機對話,這顯著降低了軟硬體開發和使用AI的門檻。

焦繼超首次使用ChatGPT時感到非常興奮,因為這種技術為解決機器人的語言互動問題提供了新的可能性。2022年初,焦繼超團隊通過開源的方式引入了大語言模型,并嘗試将其與機器人現有的系統內建,利用多年積累的資料和場景來提升機器人的語言互動能力。

結果令焦繼超驚喜,他舉例稱,當使用者說“我有口腔潰瘍”時,機器能夠了解其含義并推理出“緩解症狀需要補充維生素”“水果裡有維生素”,然後詢問使用者要不要吃水果,在使用者同意的前提下去為其拿取水果。

田豐說,AI大模型不僅能讀懂語言、文字,還能讀懂語氣、情緒,能敏感地捕捉和了解上下文資訊。

但這還遠遠不夠。人類有五官,大語言模型僅僅作為機器人的語言系統而存在,機器人還需要多種感官能力。焦繼超注意到,處理圖像和語音的大模型也相繼被開發出來,這些模型的能力可以處理和了解機器人采集的視訊、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部資訊一樣。

2023年9月,OpenAI根據ChatGPT進一步發明出了具備圖像和語音識别功能的GPT-4V,這意味着AI開始模拟人腦中複雜的神經網絡來識别圖像和聲音,并将其轉換為語言指令。

田豐稱,正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感,這種多模态大模型帶來了多種感覺能力。

焦繼超和團隊運用技術的手段将“嘴巴”“眼睛”和“耳朵”串聯起來,并實作互通協作,機器人變得能看懂、聽懂人類的指令,也就能夠更加準确地執行指令。

焦繼超說,當一個機器人具備了類似人類的眼睛,隻要它進門在你家轉一圈,觀察一下,便會自主在“大腦”中形成一幅房屋的空間格局與陳設的地圖,過程中無須人為幹預,而在過去,一個機器人觀察環境之後,還需要工程師做大量的模組化和程式設計,才能在機器人的“大腦”中“畫”出一幅空間地圖,為後期的行動提供導航。

機器人的避障反應也更快了。

北京雲迹科技股份有限公司(下稱“雲迹科技”)CPO李全印稱,遇到障礙物的機器人的反應步驟非常多,要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現在,公司運用AI大模型的強大計算能力和更精細化的算法,開發了先進的動态避障算法,能夠讓機器人了解環境,并快速作出正确決策。

然而,要将語言、視覺、語音等多類大模型內建在一起,組成一個完整的大腦,這并非易事。

田豐稱,多模态大模型的挑戰之一是如何統一處理差異化的跨模态資料,以保證時間的同步和空間的對齊。

焦繼超說,人類感官收集資訊的路徑是通過語言形式傳輸到大腦,機器人也應該按照這種思路來串聯它的“眼睛”“耳朵”和“嘴巴”。是以,團隊将不同次元的資訊接入到AI大模型的架構裡,機器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”,并讓“大腦”中的語言、視覺、聽覺系統彼此協作,以更好地作出決策。

僅僅能看、能聽、能說還不夠,人工智能距離真正模拟出人類大腦,還有最後一步要走——使用工具、自主執行任務。

田豐稱,當人工智能技術從單模态發展到多模态,并可以将AI大模型、記憶庫、執行體組合到一起的時候,就進化出了一種新形态——智能體(AIAgent)。

在形态上,智能體可以是純軟體的,也可以嵌入到硬體中。相較于AI大模型,它的更新之處在于進一步模拟了人類的決策和行動過程。如果AI大模型是一台發動機,智能體就是一輛汽車。智能體不僅依賴于AI大模型的計算能力,還需要調用各種工具和執行部件來完成任務。

解決人的問題

李全印總結了機器人幹活的三層“境界”:第一層是“你說啥我幹啥”,第二層是“你稍微表達一下,我就知道要幹啥”,第三層就是“你啥也不說,就我來幹”。人工智能技術正讓機器人進入第三層“境界”,此時的機器人已經非常接近人類的思考和行動能力了。

借助AI大模型和超強算力的力量,一些機器人在服務人類方面解鎖了更多技能。2023年,雲迹科技開發了一款用于酒店的多功能服務機器人,與上一代産品不同的是,新款機器人不僅會幹活,而且可以自己用工具幹活。

根據雲迹科技提供資料,2024年2月,該公司的智能客服機器人和實體機器人“合作”為某一家酒店幹了将近1000件工作,客人在客房内通過電話、二維碼等方式向智能客服提出需求,智能客服把指令下給實體機器人,由實體機器人取物、送物,中間不需要人參與。

雲迹科技生産的數萬台機器人應用在全球四十多個國家和地區的酒店,這些酒店對其提出的要求是:幹活,幹更多種類的活。

2023年,雲迹科技開發了一款用于酒店的多功能服務機器人,與上一代産品不同的是,新款機器人可以自己用工具幹活了。例如接到清掃任務,會主動找到吸塵器的功能倉進行組合,然後走到相應的區域進行清掃。按照這個思路,它還可以收衣服、收垃圾。

李全印認為,這是一個巨大的進步,它讓機器人具備了人的智慧——使用工具。“過去,你讓機器人去掃地,它是聽不懂的,你必須拆解任務,先拿吸塵器再掃地。但現在不同了,當你讓機器人去掃地,它會自己将任務拆分成兩步,先去拿吸塵器再進行清掃。”李全印稱。

李全印稱,過去需要人機合作的事情,未來機器人可以自閉環完成。過往在酒店場景中,清掃、收垃圾、消殺等很多任務都是機器人與服務員共同完成,現在,機器人可以自主執行一個完整的任務。這一進步意味着更多人力被解放,可以做更多有價值的事情。

他說,在不久的将來,機器人還能學會自己找活兒幹。當人類指令它把房間打掃幹淨,機器人會感覺環境裡哪些是垃圾,知道需要拿垃圾桶收垃圾,然後拿吸塵器吸塵;機器人送過來一杯水,水灑了,它會感覺到水灑了,并且知道再重新拿一杯水過來,甚至可以拿紙巾把水擦幹淨。

焦繼超說,優必選的最終目标是讓機器人走入家庭并成為其中的一員,相比一般機器人,人形機器人需要給人帶來更加極緻的互動體驗。

在一些商用和養老服務的場景中,客戶希望機器人不僅能完成一些基礎工作,還能在情感上與客戶進行更深入地互動,提供陪伴。

優必選以人形機器人全棧式技術為基礎,開展智能服務機器人解決方案的研發、設計、智能生産和商業化應用。每年用超過一半的營收投入到研發中。2023年,該公司營收10.55億元,人工智能教育、智慧物流、消費級機器人及其他硬體貢獻了93.7%的收入。

焦繼超稱,“随着AI進入大模型時代,技術的發展速度超出了我們的預期。這種加速的進展可能意味着原本預計需要5年—8年才能實作場景化落地,現在有可能被縮短至2年—3年。”

繼續閱讀