慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
评估与基准测试结果
Pinaksh Pate · 2026-05-24 · via DEV Community

多模态Gemma 4視覺回歸與補丁代理

開發挑戰

Gemma挑戰

Gemma

人工智能
Gemma 4挑戰:用Gemma 4構建提交

此乃Gemma 4挑戰:用Gemma 4構建之提交

吾所構建者何
多模态Gemma 4视觉回归&补丁代理
修剂之器(境遇代码审阅视化修剂之器),乃以谷歌原生多模态Gemma 4模型驱动的生产级多模态代码分析与视化修补之器。其能沟通前端UI之弊与后端源码之隙,通过将视觉截图直接与样式表、DOM选择器或组件进行交叉参照,以诊断根本之因,生成修补之策,并经由闭环之管进行验证。

海妖流程图

核心特性
多模态视觉与逻辑解析:纳代码文件(CSS、JS、JSX、TS、TSX、HTML、Python等)及视觉回归或布局界面截图,以溯布局之弊,直指特定CSS选择器或JS组件渲染之理。
闭环安全验证之流:为确保所生代码适于生产:
补丁适用性检查器:于瞬时内存仓库中运行 git apply --check 之试运行,以保无冲突之应用。
抽象语法树验证器:于 Python 文件用 ast.parse,于 JS/TS/JSX 用定制之括号/方括号配对扫描器,以保无语法之谬误。
檢驗文件基準:確保差異標頭嚴格對應上傳文件範圍,消除人工智能幻覺之誤。
修補檢驗:篩選危險操作(刪除所有文件、評估執行、惡意套件導入)。
互動視覺驗證循環:
擦拭分拆滑動器:利用互動滑動器,並列比較錯誤截圖與預期修復。
像素差异热力图叠加:于浏览器中计算视觉色彩通道之变,以HTML5 Canvas之getImageData技术,叠加变改区域,并计算视觉对齐之分数.
"模拟修正"画布:移易布局切片,即时于客户端预览更正之布局。
自動測試框架:內建測試工具,含10例預設CSS、JavaScript及Python錯誤案例,用以評估根本原因準確性、git應用成功率及抽象語法樹有效性。
数据图
吾等验此智能体,以十种迥异之前端后端缺陷为验(溢出限制、z-index重叠、弹性布局、空指针检测、循环依赖、DOM元素错配),智能体于诸工程测试皆达百不失一之正確:

總體智能體成功率:百之百(十案悉解)
界面缺陷定位準確率:百之百(CSS/JS選擇器映射無誤)
Git施用之合宜:百之百也(洁,零冲突,应之无碍)
AST / 语法之效:百之百也(百之百之,正确无谬)
平均分析迟滞:九百之一秒
平线之准确:百之百也(与人工所修,一致无差)
基准之表
案号 测试案名 语言/类型 延迟(秒) 本地化 Git应用 AST验证 补丁准确率 状态
一 CSS溢出缺陷 CSS 1.25秒 通过 通过 通过 100.0% ✅ 成功
二 Z-Index堆叠上下文 CSS 1.03秒 通过 通过 通过 100.0% ✅ 成功
三 Flexbox对齐错位 CSS 0.60秒 通过 通过 通过 100.0% ✅ 成功
四 逾越Python之属性错误(无检查) Python 0.67秒 通过 通过 通过 100.0% ✅ 成功
五 JS点击事件选择器不匹配 JS 0.96秒 通过 通过 通过 100.0% ✅ 成功
六 CSS低对比度对比错误 CSS 0.82秒 通过 通过 通过 100.0% ✅ 成功
七 CSS侧边栏移动断点 CSS 0.54秒 通过 通过 通过 100.0% ✅ 成功
八 Python 环形依赖导入 Python 0.61秒 通过 通过 通过 100.0% ✅ 成功
九 Python SQL注入/验证 Python 1.42秒 通过 通过 通过 100.0% ✅ 成功
十 JS DOM元素querySelector不匹配 JS 1.14秒 通过 通过 通过 100.0% ✅ 成功
演示
实时链接: https://multimodal-visual-regression-patch-agent.vercel.app

視頻示範:https://youtu.be/gvarF7T1C5E

观Gemma 4视觉回归之象&补丁代理之效,示拖曳文件之纳,屏幕截图之覆,补丁之生,实时验证之徽:

屏幕截图
修接口

互动回归环应用程序界面之可视呈现

分滑条

交互式分拆滑块

并排而观

目验之环,并排视之

像素差异热图

像素差异热力图可视化

形影相合

交互式视觉匹配模拟及相关代码片段

自行尝试(本地复现/设置)
尔可于秒间,于本地运行此全智能系统及其基准测试套件,用Mock模式(无需API密钥)!

复制此仓库

git clone__JHSNS_URL_0
cd Multimodal-Visual-Regression-Patch-Agent

虚拟境设之

python3 -m venv venv

venv/bin/activate

pip install -r backend/requirements.txt

前端资编之
cd frontend
npm install
npm run build

cd .. __JHSNS_SEG_4bf02771_86__基准套行之

Python3 backend/benchmark.py

启FastAPI之网服务器

Python3 backend/app.py
http://127.0.0.1:5000与高级暗玻璃形态评论仪表盘互动!

汝可于模型设置中点击载入示例,以速启演示并审之。

为测试无API密钥:

于.env文件中设MOCK_MODE=true,以用模拟响应

回声"MOCK_MODE为真">>环境变量文件
Python 后端/app.py

仓库:
https://github.com/kanyingidickson-dev/Multimodal-Visual-Regression-Patch-Agent

目录布局:

├── 后端/
│ ├── app.py # FastAPI服务器&路由处理器
│ ├── benchmark.py # 自动化基准测试套件运行器
│ ├── code_reviewer.py # 多阶段评审编排
│ ├── file_parser.py # 文件摄入&截断工具
│ ├── gemma_client.py # API客户端,用于OpenRouter & Hugging Face
│ ├── patch_utils.py # 安全扫描器,抽象语法树,& git验证器
│ ├── requirements.txt # 后端依赖
│ └── demo.py # 命令行测试入口
├── frontend/ # React 仪表盘代码库
│ ├── src/ # 源代码目录
│ │ ├── App.jsx # 核心仪表盘及视觉验证界面
│ │ ├── App.css # 样式表
│ │ ├── index.css # 色彩设计标记及布局类
│ │ └── api.js # API客户端连接方法
│ ├── dist/ # 构建生产前端包
│ ├── package.json # npm配置
│ └── vite.config.js # Vite设置
├── examples/ # 示例资源
│ ├── benchmark-cases/ # 内置十测试基准目录
│ ├── broken-app/ # 错误应用示例
│ ├── sample-output.json # 标准评审结构文件
│ └── sample-screenshot.png # 基础测试图像
├── prompts/ # 自定义代理指令
│ ├── system_prompt.md # 架构指导之规
│ └── user_prompt.md # 多模态之指令式
├── Dockerfile # 生产之 Docker 图样
├── docker-compose.yml # 容器之协理
├── README.md # 项目之记文
└── LICENSE # MIT License
要旨之目录结构
backend/app.py — FastAPI 之网络服务器,支持动态参数与多部分文件/截图之接纳
backend/benchmark.py — 自动化测试案例生成器与基准测试运行器
backend/code_reviewer.py — 核心协调器,以多模态内容块包裹 OpenRouter/HuggingFace API 之调用
後端/gemma_client.py — 支持密集模型选择及情境化、高保真模拟评审生成器.
後端/patch_utils.py — 封闭回路安全验证器(Git应用检查、抽象语法树解析及文件根基验证).
前端/src/App.jsx — 交互式前后分割滑块、像素差异画布及补丁验证面板之React界面.
吾如何用Gemma 4

  1. 模型之选:Gemma 4 31B Dense(指令型) 吾择Gemma 4 31B Dense于此项目,盖因:

本源多模态:原生像素融合,使图像区域与匹配样式表之间得精妙空间映射。
256K上下文之窗:容纳多元视觉资产与密集代码模块之要需。
精准代码生成:确保统一git diff语法精准无误,编译应用无瑕疵。

  1. 技术实现 多模态提示构建:

于OpenRouter及Hugging Face,图像映射为base64数据负载。吾构提示,先传视觉符,因前置像素可优化本然布局之空间根基,而后方解文本源码。

若图像:
用户之内容 = []
# 前置视觉之符
遍于图像之数据:
用户之内容追加:{
"类型": "图像链接",
"图像链接": {"链接": 图像之数据}
})
# 追加指令与文件
user_content.append({
"type": "text",
"text": user_prompt
})
JSON Output Constraints:
为使研究结果与补丁得程序化提取,系统令Gemma 4以结构化JSON应答。输出自动解析,供diff高亮与安全验证之用:


"要旨":......
"根本之由":......
"补救之策":[......, ......]
"补丁":diff --git a/filename b/filename......
"所据之理":[......, ......]
"信度":高 | 中 | 低
}
安全之层
为护开发者,凡所生成之补丁,必先验而后呈。

阻毁于戕害之壳脚本(如 rm -rf, /dev/null)。
警示若载不固之庠序(如pickle、subprocess于不安全之参数)。
以编译验码之误。
前途之志&行路图
无头视觉回归(持续集成/持续部署):引 Playwright 自动化任务于暂存容器中施补丁,启应用,摄屏幕图,于云端自完视觉循环.
双向 IDE 同步:许开发者于浏览器插件中点视元素,即跃至 VS Code 或 Cursor 内相应代码行。
支持 Figma 文件:直接集成 Figma 设计文件,自动比对像素完美实现.
专为 Gemma 4 挑战而建:展示开放、多模态模型如何赋予开发者智能、视觉感知的编码工具。

人工智能 #gemma4 #多模态 #视觉回归 #补丁生成 #代码审查 #前端 #后端 #react #fastapi #gemma-4 #openrouter #huggingface #git #差异比较 #补丁 #安全验证 #测试验证 #基准测试 #测试套件 #模拟模式 #docker #docker-compose #vite #npm #python #异步编程 #json #base64 #视觉 #多模态提示 #结构化输出 #代码生成 #视觉感知编码 #开发者工具 #人工智能代理 #编码助手 #视觉回归补丁代理

最佳评论(1)

订阅
图像
增入论列

塔霍辛肖像
S M Tahosin

五月廿四日

自"此乃失效之差"至"此乃修补界面之补丁",乃工作流程之巨变也!观Gemma 4于此生产级多模态之用,令人惊叹。汝等觉模型于细微像素之移(如字样抗锯齿)是否困顿,抑或自信区分之与实际布局之破?项目精妙!

1

欲应

行为准则 • 举报不法
个人资料
明亮数据

推广

明亮数据及n8n挑战SOC-CERT:运用n8n之自动化威胁智识系统&__JHSNS_SEG_4bf02771_214__人工智能