飛象原創(chuàng)(魏德齡/文)在2025MWC上海,早已對機器人演示項目司空見慣的觀眾,卻在不斷對著移遠(yuǎn)通信展臺前的一臺產(chǎn)品進(jìn)行對話交互。
這臺機器人詮釋了關(guān)于“火種”與“變形金剛”間的故事,讓很多業(yè)內(nèi)人士開始考量,自己的傳統(tǒng)設(shè)備是否也需要加上一個“靈魂大腦”,來實現(xiàn)語音交互、信息查詢與指令執(zhí)行等一系列功能。
對此,不妨先從系統(tǒng)架構(gòu)的角度來剖析下,這臺機器人是如何擁有了“靈魂大腦”的。
當(dāng)機器人有了“靈魂大腦”
觀眾之所以能聯(lián)想到自身行業(yè)的機器人產(chǎn)品升級,關(guān)鍵在于移遠(yuǎn)通信展示的機器人采用了一套融合方案,即機器人本體為逐際動力提供,通過連接一塊搭載移遠(yuǎn)高算力AI模組SG885G、集成端側(cè)本地模型的主控板,來幫助機器人解決思考與下達(dá)指令的問題。在實現(xiàn)交互方面,則配置麥克風(fēng)陣列和喇叭,從而實現(xiàn)對現(xiàn)場觀眾的語音感知。
移遠(yuǎn)通信在2025MWC上海期間發(fā)布的“Robrain AI機器人解決方案”,如同“火種”一樣,迅速讓機器人獲得“靈魂大腦”。該方案采用創(chuàng)新的端云協(xié)同架構(gòu)及麥克風(fēng)陣列拾音技術(shù),深度融合端側(cè)智能與云端大模型優(yōu)勢,賦予機器人接近人類的“思考”與“傾聽”能力。有效攻克了AI模型定制、輕量化部署及低延遲交互響應(yīng)等關(guān)鍵挑戰(zhàn),推動機器人從“機械執(zhí)行”躍升為“主動感知、智能思考、自然交流”的AI智能體。
據(jù)了解,本次的演示機器人采用的是一套輕度融合方案,好處在于整合容易,相當(dāng)于只需為固有設(shè)備提供一顆“大腦”,可以選擇內(nèi)置在本體或外掛,就能讓機器人擁有“靈魂”,由于各模塊相對獨立,系統(tǒng)對接簡單。
同時,移遠(yuǎn)通信還提供深度融合方案,采用一體化軟硬件設(shè)計。在依舊沿用機器人本體的情況下,將機器人大腦主板與小腦主板合二為一。盡管需要產(chǎn)品人員具有一定開發(fā)能力,但整機可靠性更高,在生產(chǎn)過程中也更具成本優(yōu)勢。
而對于機器人的最終體驗好壞與否來說,在融合方案內(nèi)部的“超級大腦”與“順風(fēng)耳”到底能夠發(fā)揮怎樣的作用正是關(guān)鍵所在。
當(dāng)“超級大腦”遇上“順風(fēng)耳”
從演示機器人的運轉(zhuǎn)流程來看,主要分為三個部分:感知、決策、執(zhí)行。
由于機器人采用語音交互的方式,所以在感知層需要進(jìn)行前端聲學(xué)處理,降低會場中的雜音,確定正在進(jìn)行交流的聲源內(nèi)容,最終將準(zhǔn)確的信息內(nèi)容傳遞給決策層。
在決策層通過意圖識別后,通過移遠(yuǎn)端&云混合大模型進(jìn)行指令處理,端側(cè)大模型與RAG本地知識庫結(jié)合,確保實時控制中的快速反應(yīng)與準(zhǔn)確作答,云端大模型的接入讓用戶的一些查詢、提問能夠通過聯(lián)網(wǎng)獲取信息。
最終處理完的控制指令將通過機器人執(zhí)行,機器人也能以語音播報的形式進(jìn)行反饋。
顯然,感知層的“順風(fēng)耳”與決策層“超級大腦”的產(chǎn)品能力,塑造了冰冷機器人的“有趣靈魂”。
“Robrain AI機器人解決方案”還擁有全鏈路音頻處理能力,讓機器人能夠“聽得見”,更能“聽得清”。以2025MWC上海的會場環(huán)境為例,現(xiàn)場有著嘈雜的人聲,不同展臺的喇叭也在不時播放著自家的宣傳,在巨大的室內(nèi)環(huán)境中還存在著回聲問題;同時,機器人內(nèi)部也會在運轉(zhuǎn)過程中伴有震動、電機、風(fēng)扇等噪音。
移遠(yuǎn)通信Robrain AI機器人解決方案通過“麥克風(fēng)陣列拾音+全鏈路音頻算法”,為機器人添上了“順風(fēng)耳”的功能。6麥克風(fēng)均勻分布在設(shè)備的圓環(huán)上,可以360度全向拾音,最大收錄距離可達(dá)10米,喚醒率高達(dá)95%,±10.0°的DOA精度可以確保聲源區(qū)域被增強。
有效的聲音信號被收集后,相關(guān)算法會首先去除其中的干擾信號以及密閉空間中的回聲,并通過AI降噪獲得單純的人聲,同時還會自動調(diào)節(jié)音頻增益,讓輸出音量保持在合適的幅度。
“回聲消除、聲源定位、波束成型、降噪、去混響、自動增益以及語音喚醒等一系列前端數(shù)據(jù)處理,確保了大模型識別的準(zhǔn)確率。”移遠(yuǎn)通信產(chǎn)品經(jīng)理王宗武表示。
當(dāng)清晰明了的聲音內(nèi)容輸入到“超級大腦”后,Robrain AI機器人解決方案中的端&云混合大模型同樣分工明確。其中,為了讓機器人能夠如同真人一樣在溝通交流中做出及時反饋,并且不依賴于網(wǎng)絡(luò)環(huán)境,85%的運算將在端側(cè)大模型進(jìn)行,做到時延小于1秒,并且不占用過多算力資源。對于一些與產(chǎn)品相關(guān)的問題,端側(cè)大模型還能讀取本地RAG知識庫,滿足商業(yè)化需求,減少通用大模型在專業(yè)領(lǐng)域容易出現(xiàn)的“幻覺”問題。移遠(yuǎn)通信產(chǎn)品經(jīng)理王柯將這一過程比喻為:“大模型在本地進(jìn)行‘開卷考試’,機器人如同自帶一個本地學(xué)霸。”從成本側(cè)考慮,RAG的方式也比企業(yè)根據(jù)自身數(shù)據(jù)內(nèi)容進(jìn)行私域訓(xùn)練耗費資源更少,且落地更快。
方案中的云端大模型則提供了擴充整體方案的能力,通過與通用大模型進(jìn)行合作,可以輕松接入互聯(lián)網(wǎng)資源,幫助進(jìn)行內(nèi)容搜索、新聞播報,或提供影音娛樂服務(wù)。例如在2025MWC上海的展區(qū)演示中,當(dāng)現(xiàn)場觀眾詢問“明天天氣怎么樣?”的時候,演示機器人能夠快速做出回答。
實際上,移遠(yuǎn)通信在2025MWC上海展示的機器人并非“超級大腦”+“順風(fēng)耳”這對天作之合的孤例。依托移遠(yuǎn)通信端側(cè)AI整體解決方案,今年3月聯(lián)合德壹所發(fā)布的全能王AI具身機器人,在無需理療師介入、無網(wǎng)絡(luò)連接的環(huán)境下,可快速且準(zhǔn)確地理解用戶通過自然語言提出的指令和意圖,高效完成通用聊天、醫(yī)療領(lǐng)域RAG問答、指令控制等任務(wù)。該機器人搭載高通QCS8550平臺,其意圖識別小于1s、Prefill時間小于2s,同時,超過15 tokens/s解碼速率也確保了交互的實時性。
正如這臺能夠代替一定理療師工作的機器人,當(dāng)具身智能來到生活中的每個場景,移遠(yuǎn)通信正在準(zhǔn)備將這對“天作之合”的能力進(jìn)行進(jìn)一步升級。
當(dāng)具身智能走向未來
“我的個人建議是把大模型當(dāng)做人一樣。”王柯表示,大模型方案將在如今文本和語音基礎(chǔ)上,引入視覺能力的支持,屆時,機器人將能夠通過視覺看到交流者的表情,從而提升和擴展方案的適用性。與此同時,在與多名對象的交流過程中,視覺也能幫助機器人更好地判斷說話人的轉(zhuǎn)換。最終,視覺將與文本、語音一并,構(gòu)成機器人的多模態(tài)感知能力。
移遠(yuǎn)通信還正在思考,如何解決當(dāng)前Transformer架構(gòu)下的主流大模型對算力內(nèi)存消耗比較大的問題。目前正在關(guān)注非Transformer架構(gòu)的RWKV大語言模型,并已在SG885G模組上成功運行RWKV7模型,將為機器人帶來更高效、內(nèi)存占用更小的能力。
在語音交互的演進(jìn)方面,移遠(yuǎn)通信同樣聚焦在多維感知的方向上。例如,在目前的交互開啟環(huán)節(jié),語音喚醒還只是基礎(chǔ)層面,如果需要能夠鎖定個人對象的識別開啟,就需要引入聲紋識別或人臉喚醒。同時,聲紋或聲源與人臉、人體的結(jié)合,更有利于保持交互狀態(tài),從而做出更準(zhǔn)確的語義判斷。人臉鎖定功能也可以在多人對話中,通過重新鎖定人臉來切換對話信息的收集。另外,在最后結(jié)束交互的環(huán)節(jié),移遠(yuǎn)通信也正在讓機器人能夠以比較友好的方式進(jìn)行表達(dá),比如說“我累了”或“我想休息了”。
當(dāng)“超級大腦”遇上“順風(fēng)耳”,正在如同兒時動畫片中的“火種”一般,為眾多機器人賦予全新的智能靈魂,讓冰冷的機身展現(xiàn)出思考與表達(dá)的“火花”。隨著具身智能開始走向生活中的每一個角落,移遠(yuǎn)通信也正在推動兒時的科幻想象成為美好現(xiàn)實。