
隨著人工智能技術(shù)的飛速發(fā)展,大模型在各個領(lǐng)域展現(xiàn)出強大的能力。其中,可操控終端設(shè)備的大模型更是為RPA(機器人流程自動化)行業(yè)帶來了革命性的變化。本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設(shè)備的大模型,并探討其對傳統(tǒng)RPA行業(yè)的影響以及未來發(fā)展趨勢。
引言
RPA(機器人流程自動化)作為一種通過模擬人類前臺操作來執(zhí)行重復(fù)性任務(wù)的技術(shù),近年來在各個行業(yè)得到廣泛應(yīng)用。然而,傳統(tǒng)的RPA技術(shù)難以適應(yīng)復(fù)雜場景。隨著可操控終端設(shè)備的大模型的出現(xiàn),傳統(tǒng)RPA行業(yè)將會收到新技術(shù)的沖擊。
在電影《鋼鐵俠》中,我們看到了一個令人印象深刻的智能助手——賈維斯,它是一個能夠理解自然語言、執(zhí)行復(fù)雜任務(wù)的人工智能系統(tǒng),它不僅能夠控制鋼鐵俠的裝備,還能夠進行信息檢索、數(shù)據(jù)分析、輔助決策等。
如今,隨著可操控終端設(shè)備的大模型的出現(xiàn),“賈維斯”式的智能助手已經(jīng)不再是遙不可及的夢想。Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架等大模型,已經(jīng)具備了部分類似“賈維斯”的功能。它們能夠理解用戶的自然語言指令,并執(zhí)行相應(yīng)的操作。這些大模型的出現(xiàn),標志著人工智能技術(shù)正在從簡單的自動化工具向智能化的助手轉(zhuǎn)變。
本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設(shè)備的大模型,并探討其對RPA行業(yè)的影響以及未來發(fā)展趨勢。
可操控終端設(shè)備的大模型
Claude 3.5 Sonnet
Anthropic的Claude 3.5 Sonnet是一個基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型,擁有1750億參數(shù)。其具備強大的自然語言理解能力,新增的 “computer use” 功能,能夠理解用戶的指令并執(zhí)行相應(yīng)的操作,讓其能夠如同人類一般與電腦進行交互,例如打開應(yīng)用程序、瀏覽網(wǎng)頁、輸入文本等。在 OSWorld 基準測試平臺上,Claude 3.5 Sonnet 在僅使用截圖的測試類別中得分 14.9%,遠超第二名的 7.8%。雖然這一成績低于人類水平,但在人工智能領(lǐng)域已是一大突破。同時,Claude 3.5 Sonnet 開放了API與計算機界面的交互,便于開發(fā)人員基于該模型進行二次開發(fā)。
AutoGLM
智譜清言基于其GLM基座模型研發(fā)了新的具備“Phone Use”功能的 AutoGLM 。用戶可以通過文字/語音指令,使其模擬人類動作操作終端。例如,通過語音指令可以完成朋友圈點贊、寫評論、電商網(wǎng)購、O2O 平臺寫五星好評、外賣下單、資料檢索篩選、高鐵購票等多個任務(wù)。其操作流程簡單便捷,用戶可以說 “幫我點個黃燜雞米飯外賣”,AutoGLM 就會自動打開外賣軟件,搜索黃燜雞米飯,選擇訂單頁面選項,最后加購下單。
OmniParser 框架
微軟的 OmniParser 框架是一款解析和識別屏幕上可交互圖標的 AI 工具。它結(jié)合可交互區(qū)域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù),能夠在桌面、移動設(shè)備和網(wǎng)頁等上跨平臺工作。OmniParser 除了識別屏幕上的元素,還能將這些元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。同時,OmniParser框架是一個用于構(gòu)建可操控終端設(shè)備的大模型的框架,GPT-4V 在使用 OmniParser 插件后,圖標的正確標記率從 70.5% 提升至 93.8%。OmniParser 的發(fā)布為開發(fā)者提供了一個強大的工具,助力創(chuàng)建更智能、更高效的用戶界面驅(qū)動智能體。
可操控終端的大模型與傳統(tǒng)RPA技術(shù)的比較
Claude 3.5 Sonnet 能夠準確計算需要移動鼠標的像素數(shù),從而精準地點擊屏幕上的正確位置。智譜的 AutoGLM 基于自進化在線強化學(xué)習(xí)框架(WEBRL)通過自適應(yīng)學(xué)習(xí)策略,在真實環(huán)境中動態(tài)調(diào)整任務(wù)難度,實現(xiàn)任務(wù)的逐步迭代和優(yōu)化,提升執(zhí)行效率和準確度。微軟的 OmniParser 通過其中的圖標檢測模型,以及功能描述模型,用于識別可互動的區(qū)域、分析這些區(qū)域的功能。大模型通過大量的多模態(tài)訓(xùn)練數(shù)據(jù),能夠理解自然語言和圖片的含義,基于屏幕截圖更好地理解當前狀態(tài),從而執(zhí)行多種復(fù)雜任務(wù)。
而傳統(tǒng) RPA 技術(shù)則是一種軟件解決方案,通過模擬人類用戶的操作行為,自動化執(zhí)行重復(fù)性高、規(guī)則性強的任務(wù)。傳統(tǒng)RPA 機器人可以登錄應(yīng)用程序、移動文件、復(fù)制數(shù)據(jù)、填寫表單等,幾乎可以完成任何通過用戶界面進行的任務(wù)。它主要側(cè)重于執(zhí)行具體的操作流程,對于復(fù)雜的語言理解和生成能力相對較弱。
可操控終端的大模型對傳統(tǒng)RPA行業(yè)的影響
降低學(xué)習(xí)門檻
傳統(tǒng)的RPA技術(shù)需要用戶具備一定的編程基礎(chǔ),而可操控終端設(shè)備的大模型則無需用戶編寫代碼,只需通過自然語言指令即可實現(xiàn)自動化操作,極大地降低了RPA的學(xué)習(xí)門檻。
提高自動化效率
可操控終端設(shè)備的大模型能夠理解用戶的指令并執(zhí)行相應(yīng)的操作,從而實現(xiàn)更高效的自動化流程。例如,用戶可以指令模型打開應(yīng)用程序、瀏覽網(wǎng)頁、輸入文本等,無需手動操作,節(jié)省了大量時間和精力。
適應(yīng)復(fù)雜場景
大模型為RPA 裝上了“大腦”,賦予了RPA更深層次的理解和學(xué)習(xí)能力。大模型通過深度學(xué)習(xí)算法,能夠理解復(fù)雜的語言邏輯和上下文關(guān)系,更好地解析用戶的意圖并執(zhí)行相應(yīng)的操作,適應(yīng)更復(fù)雜的場景,從而對各種任務(wù)進行智能分析和規(guī)劃。RPA 在大模型的加持下,不再僅僅是機械地執(zhí)行重復(fù)性任務(wù),而是能夠處理更為復(fù)雜和抽象的任務(wù)。
大模型在RPA行業(yè)的未來發(fā)展趨勢
隨著大模型技術(shù)的迭代,可操控終端設(shè)備的大模型在RPA行業(yè)展現(xiàn)出巨大的潛力。未來,這類模型將朝著以下幾個方向發(fā)展:
一是結(jié)合其他人工智能技術(shù)??刹倏亟K端設(shè)備的大模型將會與其他人工智能技術(shù)相結(jié)合,使系統(tǒng)更好地理解用戶的訴求,實現(xiàn)更智能化、自動化的流程,更加精準地完成用戶需求、提升用戶體驗。
二是自適應(yīng)??刹倏亟K端設(shè)備的大模型將會具備更強的自適應(yīng)能力,能夠根據(jù)不同的場景和任務(wù)進行自我調(diào)整,從而適應(yīng)更復(fù)雜的自動化需求。
三是個性化。可操控終端設(shè)備的大模型將會根據(jù)用戶的行為和偏好進行個性化定制,從而提供更加個性化的自動化服務(wù)。
總結(jié)與建議
可操控終端設(shè)備的大模型為傳統(tǒng)RPA行業(yè)帶來了革命性的變化,極大地降低了RPA的學(xué)習(xí)門檻,提高了自動化效率,并推動了RPA與其他技術(shù)的融合。未來,可操控終端設(shè)備的大模型將會在RPA行業(yè)得到更廣泛的應(yīng)用,并推動RPA行業(yè)向智能化、自適應(yīng)和個性化的方向發(fā)展。為了更好地推動可操控終端設(shè)備的大模型在RPA行業(yè)的應(yīng)用,因此建議:
一是完善生態(tài)系統(tǒng)。 建立完善的生態(tài)系統(tǒng),包括開發(fā)工具、API、社區(qū)等,方便開發(fā)者使用和開發(fā)可操控終端設(shè)備的大模型。
二是培養(yǎng)企業(yè)員工對大模型的掌握。對于需要處理大量重復(fù)性工作的行政人員,培養(yǎng)其具備人工智能大模型使用的能力,使未來大量的機械、流程化的操作可以依靠大模型來快速完成,行政人員僅需負責(zé)監(jiān)督大模型處理結(jié)果是否正確,節(jié)約人工成本。
