惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Y
Y Combinator Blog
博客园 - 司徒正美
TaoSecurity Blog
TaoSecurity Blog
Martin Fowler
Martin Fowler
T
Threat Research - Cisco Blogs
Blog — PlanetScale
Blog — PlanetScale
S
Secure Thoughts
博客园 - 三生石上(FineUI控件)
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
K
Kaspersky official blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Cisco Talos Blog
Cisco Talos Blog
H
Help Net Security
博客园 - 叶小钗
爱范儿
爱范儿
GbyAI
GbyAI
I
Intezer
M
MIT News - Artificial intelligence
Latest news
Latest news
Schneier on Security
Schneier on Security
T
Tor Project blog
Simon Willison's Weblog
Simon Willison's Weblog
I
InfoQ
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
CXSECURITY Database RSS Feed - CXSecurity.com
罗磊的独立博客
N
News and Events Feed by Topic
T
The Blog of Author Tim Ferriss
V2EX - 技术
V2EX - 技术
B
Blog
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Security Latest
Security Latest
V
V2EX
F
Fortinet All Blogs
Forbes - Security
Forbes - Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
The Hacker News
The Hacker News
Scott Helme
Scott Helme
P
Privacy International News Feed
P
Palo Alto Networks Blog
H
Heimdal Security Blog
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
博客园 - Franky
酷 壳 – CoolShell
酷 壳 – CoolShell
G
Google Developers Blog
W
WeLiveSecurity
L
LINUX DO - 最新话题

博客园_首页

Linux实操--组管理、权限管理和定时任务 Java + EasyExcel 实现单个接口导出多个Excel Mem0 源码解析系列(二):提示词工程的深度剖析 Openclaw TaskFlow究竟是什么?和普通Skill技能有什么区别 博文阅读密码验证 - 博客园 嘉立创开源:应该是全网MicroPython教程最多的开发板 Hermes Agent 集成实践:从协议到生产 2026年AI编程工具横评:Cursor、Codex、Claude Code、Zed、Windsurf Java程序员必看的RAG入门教程 2026 AI效率神器:Superpowers + Claude Code 保姆级教程 本地大模型部署全攻略:从 0 到 1 玩转 Ollama 【从0到1构建一个ClaudeAgent】内存管理-上下文压缩 .NET 高级开发 | 设计、实现一个事件总线框架 电子小白入门之NE555 3. WorkBuddy:隐藏玩法,一键召唤专家,让 AI 以"专家身份"给你干活 和AI一起搞事情#3:Claude Teammate 游戏开发翻车实录 【OpenClaw】通过 Nanobot 源码学习架构---(7)Memory C# .NET 周刊|2026年3月3期 我在 Debian 11 上把 K8s 单机搭起来了,过程没你想的那么顺(/opt 目录版) 深度学习进阶(七)Data-efficient Image Transformer CLI+Skill搭建浏览器AI自动化框架,告别一切重复枯燥任务 告别Token账单无底洞:OpenClaw本地部署,重塑企业数据主权的唯一解 FastAPI+Vue:文件分片上传+秒传+断点续传,这坑我帮你踩平了! SBTI 爆火后,我做了个程序员版的 CBTI。。已开源 + 附开发过程 多模态检索开始进入工程期:用 Sentence Transformers 搭建可落地的 Multimodal RAG 100多行代码实现一个最简单的Agent(用ReAct) Claude Code 通关手册(八):推荐 5 个 Hooks,代码质量提升 3 倍 老板:“有人截图了!”。安全部门:“收到,马上查暗水印!” - why技术 技术之外,皆是人间 C#/.NET/.NET Core技术前沿周刊 | 第 69 期(2026年4.01-4.12) Snack JSONPath 项目架构分析 Claude Code Buddy 小析:一个非核心功能,如何体现产品的细节完成度 AI新时代下的图床管理方案-Cloudflare图床+MCP+Skills方案指南 化繁为简:顺丰速运App如何通过 HarmonyOS SDK实现专业级空间测量 从零实现富文本编辑器#13-React非编辑节点的内容渲染 AI开发-python-langchain框架(3-23-OpenAI Functions风格Tool Calling智能助手) .NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块 【从0到1构建一个ClaudeAgent】规划与协调-技能 上周热点回顾(4.6-4.12) 电子小白的工具三件套:面包板、杜邦线、万能板 单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy:从“我是谁”到“帮我干活” C# 如何减少代码运行时间:7 个实战技巧 基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微 从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控?换个起点,让AI事半功倍 从开始配置漏洞环境到漏洞复现流程 - 難しい 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊|2026年3月2期 - InCerry 我帮你测过了,测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut PbootCMS 网站内容数量多导致访问慢?这些实用优化方案帮你提速! - 家兴网络技术工作室 上下文工程是什么?过时了么?一文讲明白! - 一枫说码 网站漏洞怎么发现并修复?一篇实用指南(附完整流程) - 家兴网络技术工作室 开了 TUN 模式还是直连?90% 的人都踩过这个坑 Github日报|2026年04月12日 - AI一族 AScript扩展多种脚本语言 - rockey627 AI 学习笔记:Agent 的记忆机制 你能被装进一个文件里吗?——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册(七):给 AI 装上技能包——Skills 完全指南 - 暮色之狐 在浏览器中快速编辑代码:VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill?基于 Deepseek 的蒸馏器,丐版蒸馏方式,简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope,哪个更好? - 苏三说技术 Etsy 把 1000 个 MySQL 分片迁进 Vitess:425TB 数据背后的真正问题不是性能,而是运维规模 MicroPython LVGL基础知识和概念:底层渲染与性能优化 - FreakStudio 数据库草图算法 Python 潮流周刊#146:CPython 引入 Rust 的进展 - 豌豆花下猫 最小生成树 - mofei1116 红日靶场七:从外网入口、容器逃逸到 AD 接管的完整利用链复盘 - YouDiscovered1t 分享四款开源且实用的 Kafka 管理工具 - 追逐时光者 vLLM 权重加载机制全解析:从挑战到理想架构 LCT 学习笔记 - ACehomoxue Avalonia UI 12.0.0 正式发布:架构演进和性能飞跃 - 张善友 当 AI Agent 把调用链拉长,延迟开始成为一门生意 conhost.exe 无法显示 U+2717 - 145a 太秀了,我把自己蒸馏成了 Skill!已开源 - 程序员鱼皮 ASP.NET Core 内存缓存实战:一篇搞懂该怎么配、怎么避坑 基于 Ghostty 带有分割标签页和为 Claude 编程设计的通知终端 - BugShare AI 焊死入口:教育的“操作系统级”重塑 - 郝hai 初级Java开发工程师使用sql脚本编写代码的过程是简单而且不糊涂 - CoderOilStation Claude Code通关手册(六):MCP协议完全指南 - 暮色之狐 边框灯光环绕动画特效实现指南 - Newbe36524 开源:子木蒸馏版的 SEO 审计工具 seo-audit-skill v1.0 我所理解的Python元模型 【从0到1构建一个ClaudeAgent】规划与协调-TodoWrite - 程序员Seven Claude 和 Codex 在审计 Skill 上性能差异探究 - ACai_sec AScript如何实现中文脚本引擎 - rockey627 【渗透测试】HTB Season10 Garfield 全过程wp - dynasty_chenzi Android 开发者为什么必须掌握 AI 能力?端侧视角下的技术变革 树状数组正确性证明 - AC-wyr 你的 AI 焦虑,可能比 AI 本身更危险——ATM 机没有消灭银行柜员,但恐慌消灭了你的判断力 - 我没有三颗心脏 一个拉胯的分库分表方案有多绝望?整个部门都在救火! - 冰河团队 动态规划入门必学之走方格问题 - Ofnoname PostgREST 与 PostgreSQL 角色权限配置全解析(生产级实践) - SheepDog1998 使用 UEFI 图形输出协议 GOP 在屏幕上显示图像的方法 - 阿源- Claude Code通关手册(五):组建你的AI专家团队,子代理系统 - 暮色之狐 一个程序员到架构师的催婚路之感悟(整整10年后的催婚相亲感悟) - MisterLip 用 Agent Skill 自动生成工作周报 - 赵康
达梦DBA必备:12个纯SQL巡检脚本,零侵入、开箱即用(附执行指南)
刘子毅 · 2026-06-16 · via 博客园_首页

做DBA这些年,我养成了一个习惯:每天早上到公司第一件事,就是巡检数据库。

说实话,这活儿不复杂,但特别磨人。实例状态、表空间、会话、锁、备份……挨个查一遍,切换终端、复制粘贴SQL,再整理结果,半小时就没了。要是遇上紧急故障,还得临时翻文档找命令。

之前用Oracle的时候,我整理过一套PL/SQL巡检脚本,一键跑完所有检查。后来公司搞信创,数据库从Oracle迁移到达梦DM8,我心说这套路应该差不多吧?直接把脚本搬过去用。

结果,啪啪打脸。

踩了三天坑,我决定重新写

第一天,我把Oracle那套存储过程改吧改吧,塞进disql里执行。disql报错:"输入过长"。

行,拆成两个文件。能跑了,但维护起来太麻烦,改一个地方得改两个文件。

第二天,我对着达梦的官方文档,一个一个视图去对列名。这才发现,达梦的系统视图跟Oracle差异巨大——V$INSTANCE里没有STATUS列,人家叫STATUS$;没有SV_VERSION,叫SVR_VERSIONV$SQL_HISTORY里找不到EXEC_TIME,得用TIME_USED,单位还是微秒。折腾了一整天,改了五六轮,终于能跑通了。

第三天,我在脚本里加了几行提示信息,写的是PROMPT [备份] Transaction Info。结果disql弹出一个输入提示,要我输入"Transaction"的值。我这才知道,disql会把PROMPT后面的英文单词当成变量名来解析。

三天下来,我悟了:别整花活,老老实实用纯SQL。

于是有了下面这套脚本——12个独立SQL文件,每个10到38行,不建任何存储过程、函数、视图,对生产库零侵入。直接在disql里执行就行,跑完就出结果。


01. 实例基本信息 — 01_instance.sql

-- 实例基本信息 (使用 V$INSTANCE 真实列名)
SELECT
    INSTANCE_NAME,
    HOST_NAME,
    SVR_VERSION    AS VERSION,
    DB_VERSION,
    TO_CHAR(START_TIME, 'YYYY-MM-DD HH24:MI:SS') AS START_TIME,
    STATUS$        AS STATUS,
    MODE$          AS MODE_TYPE,
    DSC_ROLE       AS DSC_ROLE
FROM V$INSTANCE;

看什么:实例名、主机名、版本、启动时间、运行状态。

常见问题STATUS$ 为空或者不是预期值,说明实例可能有问题。DSC_ROLE在单机环境通常是NULL,集群环境才会显示节点角色。

注意:DM8的列名带$后缀,跟Oracle不一样,别搞混。


02. 内存参数 — 02_memory.sql

SELECT
    NAME AS PARAM_NAME,
    ROUND(VALUE/1024/1024, 2) AS VALUE_MB,
    CASE TYPE
        WHEN 1 THEN 'static'
        WHEN 2 THEN 'dynamic'
        ELSE 'other'
    END AS TYPE_DESC
FROM V$PARAMETER
WHERE NAME IN ('MAX_MEMORY','MEMORY_POOL','BUFFER',
               'MAX_BUFFER_SIZE','BUFFER_POOLS')
ORDER BY NAME;

看什么:最大内存上限、内存池大小、缓冲区大小。

常见问题MAX_MEMORY设得太小会导致数据库OOM;BUFFER显示为0.01MB通常意味着启用了动态缓冲区管理,这是正常现象;MEMORY_POOL过小会影响排序和哈希操作的性能。


03. 表空间使用率(⭐核心告警)— 03_tablespace.sql

SELECT A.TABLESPACE_NAME,
       ROUND(A.TOTAL_SIZE*8192/1024/1024, 2) AS TOTAL_MB,
       ROUND(B.FREE_SIZE*8192/1024/1024, 2) AS FREE_MB,
       ROUND((A.TOTAL_SIZE-B.FREE_SIZE)*8192/1024/1024, 2) AS USED_MB,
       ROUND((A.TOTAL_SIZE-B.FREE_SIZE)*100.0/NULLIF(A.TOTAL_SIZE,0), 2) AS USED_PCT,
       C.STATUS,
       CASE WHEN (A.TOTAL_SIZE-B.FREE_SIZE)*100.0/NULLIF(A.TOTAL_SIZE,0) >= 85
            THEN '!! WARN' ELSE 'OK' END AS FLAG
FROM (
    SELECT TABLESPACE_NAME, SUM(BYTES) TOTAL_SIZE
    FROM DBA_DATA_FILES GROUP BY TABLESPACE_NAME
) A,
(
    SELECT TABLESPACE_NAME, SUM(BYTES) FREE_SIZE
    FROM DBA_FREE_SPACE GROUP BY TABLESPACE_NAME
) B,
(
    SELECT DISTINCT TABLESPACE_NAME, STATUS
    FROM DBA_DATA_FILES
) C
WHERE A.TABLESPACE_NAME=B.TABLESPACE_NAME(+)
  AND A.TABLESPACE_NAME=C.TABLESPACE_NAME(+)
ORDER BY USED_MB DESC;

看什么:每个表空间的总大小、已用大小、使用率百分比,超过85%会标记!! WARN

常见问题:MAIN表空间使用率接近100%时,数据库就无法写入新数据了,这是生产环境最高优先级的告警。达梦页大小默认8KB,所以计算时用*8192转成MB——如果你建库时指定了不同的页大小,这个值要相应调整。


04. 数据文件Top15 — 04_datafile.sql

SELECT FILE_ID,
       TABLESPACE_NAME,
       FILE_NAME,
       ROUND(BYTES/1024/1024, 2) AS SIZE_MB,
       AUTOEXTENSIBLE,
       ROUND(MAXBYTES/1024/1024, 2) AS MAXSIZE_MB,
       STATUS
FROM DBA_DATA_FILES
ORDER BY BYTES DESC
LIMIT 15;

看什么:最大的15个数据文件,以及它们是否开启了自动扩展。

常见问题AUTOEXTENSIBLE=NOSIZE_MB快要到MAXSIZE_MB的文件,是最先可能出问题的。另外留意一下数据文件是不是分布在系统盘,生产环境应该放在专用数据盘上。


05. 会话统计与活跃会话 — 05_session.sql

-- 会话汇总
SELECT COUNT(*) AS TOTAL_SESSIONS,
       COUNT(CASE WHEN STATE='ACTIVE' THEN 1 END) AS ACTIVE_SESSIONS,
       COUNT(CASE WHEN STATE!='ACTIVE' THEN 1 END) AS INACTIVE_SESSIONS,
       CASE WHEN COUNT(*) > 200
            THEN '!! EXCEEDS THRESHOLD' ELSE 'OK' END AS FLAG
FROM V$SESSIONS;

-- Active Sessions TOP15
SELECT SESSID,
       USER_NAME,
       CLNT_IP AS CLIENT_IP,
       STATE,
       APPNAME,
       LEFT(SQL_TEXT,60) AS SQL_TEXT,
       LAST_RECV_TIME,
       ROUND((SYSDATE-LAST_RECV_TIME)*86400, 0) AS IDLE_SEC
FROM V$SESSIONS
WHERE STATE='ACTIVE'
ORDER BY IDLE_SEC ASC
LIMIT 15;

看什么:会话总数(超过200会告警)、活跃/非活跃会话数量、当前正在执行的SQL。

常见问题:活跃会话突然飙升,通常意味着有锁等待或大量慢查询堆积。非活跃会话大量积压,说明应用连接池没有正确释放连接。CLNT_IP字段如果是IPv6格式(如::ffff:172.x.x.x),需要手动转换一下看真实IP。


06. 锁等待与长事务 — 06_lock.sql

-- 6.1 锁等待数量
SELECT COUNT(*) AS LOCK_WAIT_COUNT FROM V$TRXWAIT;

-- 6.2 锁等待详情 (V$TRXWAIT: ID=等待事务ID, WAIT_FOR_ID=阻塞事务ID)
SELECT ID AS WAIT_TRX_ID, WAIT_FOR_ID AS HOLD_TRX_ID
FROM V$TRXWAIT
WHERE ROWNUM <= 20;

-- 6.3 当前活跃事务 (V$TRX 真实列)
SELECT ID AS TRX_ID,
       SESS_ID,
       STATUS AS TRX_STATUS,
       ISOLATION,
       READ_ONLY
FROM V$TRX
WHERE STATUS <> 'COMMIT'
ORDER BY ID
LIMIT 20;

看什么:锁等待数量、谁在等谁、当前未提交的事务。

常见问题LOCK_WAIT_COUNT > 0说明存在事务阻塞,需要立即排查。死锁信息不在视图里,得去dmserver.logDEADLOCK关键字。

注意V$TRX的列名是ID(不是TRX_ID)、SESS_ID(不是SESSION_ID),这里跟Oracle完全不同。我特意把三个查询拆开写,不做JOIN,因为disql对复杂JOIN的解析容易出问题。


07. 备份与归档配置 — 07_backup.sql

-- 先查备份目录配置
SELECT 'BAK_PATH' AS CHECK_ITEM,
       PARA_VALUE AS CURRENT_VALUE,
       'dmrman 备份目录' AS NOTE
FROM V$DM_INI
WHERE PARA_NAME = 'BAK_PATH';

-- 归档配置(这个可以直接查)
SELECT ARCH_TYPE,
       ARCH_DEST,
       'Archive Config' AS NOTE
FROM V$DM_ARCH_INI;

PROMPT 备份检查提示:
PROMPT   第一步: 从上面查出的 BAK_PATH 确认备份目录
PROMPT   第二步: 在操作系统执行 dmrman 命令
PROMPT   第三步: dmrman> SHOW BACKUPSETS WITH BACKUPDIR '目录路径'
PROMPT   (注意: SHOW 命令只能在 dmrman 工具里执行,不能放在 disql 里)

看什么:备份目录配置、归档日志配置。

特别注意:达梦没有类似Oracle的V$BACKUP_SET视图,备份信息必须用dmrman命令行工具查。命令格式是SHOW BACKUPSETS WITH BACKUPDIR '/path';——注意是BACKUPSETS一个词,不是BACKUP SETS。归档配置直接看V$DM_ARCH_INI,确认归档路径有足够空间,归档日志在正常生成。


08. 数据库对象统计 — 08_object_count.sql

SELECT 'TABLES' AS OBJ_TYPE, COUNT(*) AS CNT FROM DBA_TABLES     WHERE OWNER NOT IN ('SYSDBA','SYS','CTISYS','SYSBO')
UNION ALL
SELECT 'INDEXES',   COUNT(*) FROM DBA_INDEXES     WHERE OWNER NOT IN ('SYSDBA','SYS','CTISYS','SYSBO')
UNION ALL
SELECT 'VIEWS',     COUNT(*) FROM DBA_VIEWS       WHERE OWNER NOT IN ('SYSDBA','SYS','CTISYS','SYSBO')
UNION ALL
SELECT 'PROCS',     COUNT(*) FROM DBA_PROCEDURES
UNION ALL
SELECT 'TRIGGERS',  COUNT(*) FROM DBA_TRIGGERS
UNION ALL
SELECT 'SEQUENCES', COUNT(*) FROM DBA_SEQUENCES
UNION ALL
SELECT 'USERS',     COUNT(*) FROM DBA_USERS        WHERE ACCOUNT_STATUS='OPEN';

看什么:业务对象的数量统计——表、索引、视图、存储过程、触发器、序列、用户。

常见问题:索引数/表数的比值过大,说明可能存在冗余索引,会增加写入开销。定期对比历史数据,对象数量突增通常意味着应用发版了,或者有异常创建对象的操作。


09. 无效对象检查 — 09_invalid.sql

SELECT OBJECT_TYPE,
       OWNER,
       OBJECT_NAME,
       STATUS
FROM DBA_OBJECTS
WHERE STATUS != 'VALID'
  AND OWNER NOT IN ('SYSDBA','SYS','CTISYS','SYSBO')
ORDER BY OBJECT_TYPE, OWNER;

看什么:所有状态不是VALID的业务对象。

常见问题:无效对象通常是因为依赖的表或视图被修改了,导致引用它的函数、过程、视图失效。处理方式是对这些对象执行ALTER ... COMPILE重新编译。系统用户的对象已经过滤掉了,只关注业务用户。


10. 定时作业状态 — 10_job.sql

-- DM8 作业信息:先探测列名,再按需调整
-- DBA_JOBS 常见列:JOB, WHAT, NEXT_DATE, LAST_DATE, FAILURES, BROKEN
-- 若报错请手动 DESC DBA_JOBS; 并把结果发回
SELECT * FROM DBA_JOBS WHERE ROWNUM <= 20;

看什么:定时作业的配置和执行状态。

常见问题BROKEN='Y'表示作业已中断不再调度,需要人工介入修复;FAILURES大于0说明作业执行失败过多次。不同DM版本的DBA_JOBS列名有差异,所以我用了SELECT *探测式写法,如果报错就先用DESC DBA_JOBS确认列名。


11. 性能指标与慢SQL — 11_performance.sql

-- 11.1 缓冲区信息 (让输出自己显示真实列名)
SELECT * FROM V$BUFFERPOOL WHERE ROWNUM = 1;

-- 11.2 字典缓存 (若视图不存在会报错,属正常)
SELECT * FROM V$DICT_CACHE WHERE ROWNUM = 1;

-- 11.3 SQL 缓存条目数
SELECT 'SQL Cache Items' AS METRIC, COUNT(*) AS CNT FROM V$CACHEITEM;

-- 11.4 慢SQL (V$SQL_HISTORY 真实列名)
-- TIME_USED 单位: 微秒(us)
SELECT
    SESS_ID,
    TRX_ID,
    TOP_SQL_TEXT   AS SQL_TEXT,
    TIME_USED      AS TIME_USED_US,
    AFFECTED_ROWS  AS AFFECTED_ROWS,
    N_LOGIC_READ   AS LOGIC_READS,
    N_PHY_READ     AS PHY_READS,
    TO_CHAR(START_TIME, 'YYYY-MM-DD HH24:MI:SS') AS START_TIME,
    IS_OVER
FROM V$SQL_HISTORY
ORDER BY TIME_USED DESC
LIMIT 20;

看什么:缓冲区命中情况、SQL缓存条目数、最耗时的20条SQL。

常见问题TIME_USED单位是微秒,用来排序找出最耗时的SQL。注意V$SQL_HISTORY和Oracle的V$SQL差异非常大——没有EXEC_TIME,用TIME_USED代替;没有ROWS(这是DM8保留字),用AFFECTED_ROWS;多了N_LOGIC_READN_PHY_READ用于分析读写情况。IS_OVER='Y'表示SQL已执行完,大量IS_OVER='N'说明有SQL长期运行。

缓冲区视图我用了SELECT *,因为不同版本的列名差异较大,让输出自己显示真实列名最稳妥。使用V$SQL_HISTORY的前提是开启了SQL监控(ENABLE_MONITOR=1),这个参数默认是开启的。


12. 告警日志检查指引 — 12_alert.sql

-- Linux 环境: 
-- tail -500 $DM_HOME/log/dmserver.log | grep -iE "error|fatal|deadlock"

-- Windows 环境:
-- 直接打开 dmserver.log 文件,搜索 ERROR / FATAL / DEADLOCK

-- 建议配合 Prometheus + Grafana 做自动化日志监控告警

看什么:数据库运行日志中的错误、致命异常、死锁记录。

说明:达梦没有类似OracleV$DIAG_ALERT_EXT的统一告警视图,所以只能手动查看日志文件。生产环境建议接入监控系统做自动化告警,而不是依赖人工去翻日志。


脚本怎么用

前置条件很简单:装了达梦客户端(disql能用),把脚本上传到服务器,有SYSDBA权限就行。

调试阶段推荐一个个执行:

disql SYSDBA/SYSDBA@172.16.12.13:5236
SQL> START sql/01_instance.sql;
SQL> START sql/02_memory.sql;
# ... 依次执行

日常巡检可以用Shell循环一次性跑完,输出到带时间戳的报告文件:

for f in sql/*.sql; do
    echo "=== $(basename $f) ==="
    disql SYSDBA/password@192.168.1.100:5236 < "$f"
done > report_$(date +%Y%m%d_%H%M%S).txt

给后来者提个醒

写这套脚本踩过的坑,总结一下:

  1. 列名差异:达梦系统视图的列名跟Oracle差异很大,千万别凭经验去猜。比如V$TRX里是SESS_ID不是SESSION_ID,是ID不是TRX_ID。执行前先用DESC 视图名确认一下真实列名。

  2. PROMPT陷阱:disql里PROMPT后面如果跟英文单词,会被当成变量名弹输入框。所以提示信息要么用中文,要么别用PROMPT加英文。

  3. 备份视图缺失:达梦没有V$BACKUP_SET,备份信息必须用dmrman查,别在disql里浪费时间。

  4. 版本差异:不同小版本的系统视图可能有差异,如果某个视图报错不存在,先确认版本再查对应文档。


写在最后

三天踩坑换来的这套脚本,在我负责的达梦环境上跑了快半年了,每天早上一键执行,省了不少事。国产数据库正在从"可用"走向"好用",但这个过程中,运维工具和经验的积累还需要我们DBA一起添砖加瓦。

脚本源文件我整理好了,需要的朋友评论区留个言或者私信我,直接发你。


声明:脚本基于DM8编写,不同小版本系统视图列名可能有差异,执行前建议用DESC确认。仅供学习参考,生产环境使用请自行测试验证。