

























摘要: 目前,可執行的視覺工作流程已經成為實際工業部署中的主流範式,提供強大的可靠性和可控性。然而,在當前實踐中,這類工作流程幾乎完全是通過手動工程構建的:開發人員必須仔細設計工作流程,為每個步驟編寫提示,並隨著需求的演變不斷修訂邏輯——這使得開發成本高昂、耗時且容易出錯。為了研究大型語言模型能否自動化這個多輪互動過程,我們引入了Chat2Workflow,這是一個直接從自然語言生成可執行視覺工作流程的基準,並提出了一個強健的代理基線來提高性能。該基準由大量真實業務工作流程構建而成,每個實例都設計為使得生成的工作流程可以轉換並直接部署到實際工作流程平台,如Dify和Coze。實驗結果顯示,雖然最先進的語言模型通常能夠捕捉高層次意圖,但它們在生成正確、穩定且可執行的工 作流程方面遇到困難,尤其是在面對複雜和演變的需求時。儘管我們的代理基線實現了最高6.05%的解決率提升,但剩餘的真實世界差距將Chat2Workflow作為推進工業級自動化的基礎。代碼可在此 https URL。
| 評論: | 進行中 |
| 主題: | 計算與語言 (cs.CL); 人工智慧 (cs.AI); 計算機視覺與模式識別 (cs.CV); 驅動學習 (cs.LG); 多智能體系統 (cs.MA) |
| 引用格式: | arXiv:2604.19667 [cs.CL] |
| (or arXiv:2604.19667v2 [cs.CL] for this version) | |
| https://doi.org/10.48550/arXiv.2604.19667 arXiv-發行的 DOI 透過 DataCite |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。