

























요약: 현재, 실행 가능한 시각적 워크플로우는 실제 산업 환경에서 주류 패러다임으로 부상했으며, 강력한 신뢰성과 제어 가능성을 제공합니다. 그러나 현재 실천에서는 이러한 워크플로우가 거의 전적으로 수동 엔지니어링을 통해 구축됩니다: 개발자는 워크플로우를 신중하게 설계해야 하며, 각 단계에 대한 프롬프트를 작성해야 하고, 요구 사항이 변화함에 따라 논리를 반복적으로 수정해야 합니다 -- 이로 인해 개발이 비용이 많이 들고 시간이 많이 걸리며 오류가 발생하기 쉽습니다. 대형 언어 모델이 이 다단계 상호작용 프로세스를 자동화할 수 있는지 연구하기 위해, 우리는 자연어에서 직접 실행 가능한 시각적 워크플로우를 생성하는 벤치마크인 Chat2Workflow를 소개하고 성능을 향상시키기 위한 강력한 에이전트 기준선을 제안합니다. 이 벤치마크는 실제 비즈니스 워크플로우의 대규모 컬렉션에서 구축되었으며, 각 인스턴스는 생성된 워크플로우가 변환되고 실제 워크플로우 플랫폼(Dify와 Coze와 같은)에 직접 배포될 수 있도록 설계되었습니다. 실험 결과, 최고 수준의 언어 모델은 종종 고수준의 의도를 포착할 수 있지만, 올바르고 안정적이며 실행 가능한 워크플로우를 생성하는 데 어려움을 겪으며, 특히 복잡하고 변화하는 요구 사항이 주어졌을 때 더욱 그렇습니다. 우리의 에이전트 기준선은 최대 6.05%의 해결율 향상을 제공하지만, 남아있는 실제 세계 격차는 Chat2Workflow를 산업 수준 자동화를 향상시키기 위한 기초로서 자리매김합니다. 코드는 다음에 제공됩니다.이 https URL.
| 댓글: | 진행 중 |
| 주제: | 컴퓨테이션과 언어 (cs.CL); 인공지능 (cs.AI); 컴퓨터 비전 및 패턴 인식 (cs.CV); 머신 러닝 (cs.LG); 멀티 에이전트 시스템 (cs.MA) |
| 참조: | arXiv:2604.19667 [cs.CL] |
| (또는 arXiv:2604.19667v2 [cs.CL] 이 버전용) | |
| https://doi.org/10.48550/arXiv.2604.19667 DataCite를 통한 arXiv 발행 DOI |
이 콘텐츠는 인셔셔RSS(RSS 리더)가 자동으로 집계한 것으로 읽기 참고용입니다. 원문 출처 — 저작권은 원저작자에게 있습니다.