设备异常自动预警
1. 这个数字员工做什么
每天早上 8 点,悟帆自动从简道云拉取全部设备信息、最近 7 天的运行记录和巡检记录,按照一套预警规则逐台设备做"体检"——运行温度是否偏高、振动是否异常、是否超期未巡检、设备老化叠加高故障率……综合研判后,把有问题的设备自动写入简道云的"设备异常预警"流程表单,通知设备负责人和管理部门主管,在简道云内完成从预警→检修→验收的完整闭环。
以前是"设备管理员每天翻三张表 → 逐台比对数据 → 凭经验判断哪台可能出问题 → 手动发起维修工单 → 电话通知负责人"。现在是"每天早上悟帆自动跑一遍 → 有问题的设备自动进流程 → 相关人员直接收到待办"。中间全部跳过。
2. 适用角色
设备管理员、设备管理部门主管、生产主管、现场巡检员、维修工程师。
3. 效果预览

4. 简道云侧准备
本方案需要 4 张表单:3 张数据表 + 1 张流程表单。
4.1 设备信息表(普通表单)
设备主数据,记录每台设备的基本信息和状态。
字段 | 类型 | 说明 |
设备编号 | 流水号 | 格式:EQ-YYYY-NNN,自动生成 |
设备名称 | 单行文本 | 如"CNC-003 数控车床" |
设备类型 | 下拉框 | 选项:数控机床/注塑机/冲压机/焊接设备/输送设备/检测设备/其他 |
设备型号 | 单行文本 | 厂家型号,如"DMG MORI NLX 2500" |
购入日期 | 日期 | 用于计算设备使用年限 |
安装位置 | 单行文本 | 如"A车间-3号产线-B工位" |
设备负责人 | 成员单选 | 该设备的日常负责人 |
设备状态 | 下拉框 | 选项:正常运行/停机维修/报废/闲置,默认"正常运行" |
额定温度上限 | 数字 | 单位℃,该设备正常运行时的温度上限,如 80 |
额定振动上限 | 数字 | 单位 mm/s,该设备正常运行时的振动值上限,如 4.5 |
巡检周期(天) | 数字 | 该设备要求的巡检间隔天数,如 3 表示每3天至少巡检一次 |
备注 | 多行文本 | 其他补充信息 |
4.2 设备巡检记录(普通表单)
每次巡检时填写,记录巡检结果。
字段 | 类型 | 说明 |
巡检单号 | 流水号 | 格式:XJ-YYYYMMDD-NNN,自动生成 |
关联设备 | 关联数据 | 关联"设备信息表",选择本次巡检的设备 |
设备编号 | 关联查询 | 自动带出关联设备的编号 |
巡检人 | 成员单选 | 执行巡检的人员 |
巡检时间 | 日期时间 | 实际巡检时间,默认当前时间 |
巡检结果 | 下拉框 | 选项:正常/异常 |
异常描述 | 多行文本 | 巡检结果为"异常"时必填,描述发现的问题 |
现场照片 | 图片 | 巡检现场拍照,异常时建议必传 |
4.3 设备运行记录(普通表单)
定期(如每日/每班次)记录设备的运行参数。
字段 | 类型 | 说明 |
记录单号 | 流水号 | 格式:YX-YYYYMMDD-NNN,自动生成 |
关联设备 | 关联数据 | 关联"设备信息表",选择本次记录的设备 |
设备编号 | 关联查询 | 自动带出关联设备的编号 |
记录时间 | 日期时间 | 运行数据的采集时间 |
运行温度 | 数字 | 单位℃,当前运行温度 |
振动值 | 数字 | 单位 mm/s,当前振动值 |
运行时长 | 数字 | 单位:小时,本次运行累计时长 |
运行状态 | 下拉框 | 选项:正常运行/带病运行/停机/故障停机 |
故障描述 | 多行文本 | 运行状态为"故障停机"时必填 |
记录人 | 成员单选 | 填写记录的人员 |
4.4 设备异常预警(流程表单)
悟帆自动写入预警数据并发起审批流程,完成检修闭环。
字段 | 类型 | 说明 |
预警单号 | 流水号 | 格式:YJ-YYYYMMDD-NNN,自动生成 |
关联设备 | 关联数据 | 关联"设备信息表" |
设备编号 | 关联查询 | 自动带出关联设备的编号 |
设备名称 | 关联查询 | 自动带出关联设备的名称 |
预警等级 | 下拉框 | 选项:高/中/低,由悟帆根据规则判定 |
预警原因 | 多行文本 | 悟帆自动生成,列出触发的具体规则和数值 |
建议措施 | 多行文本 | 悟帆根据预警原因给出的检修建议 |
预警时间 | 日期时间 | 悟帆写入时的时间戳 |
设备负责人 | 成员单选 | 自动带出设备信息表中的负责人 |
检修结果 | 多行文本 | 维修工程师在流程节点填写 |
检修完成时间 | 日期时间 | 维修工程师在流程节点填写 |
验收意见 | 多行文本 | 主管在验收节点填写 |
预警状态 | 下拉框 | 选项:待处理/处理中/已完成/已关闭,默认"待处理" |
流程设计建议(4 个节点):
[发起] 悟帆自动写入数据并发起
↓
[填写节点] 维修工程师接单 → 填写"检修结果"和"检修完成时间"
↓
[审批节点] 设备管理部门主管验收 → 填写"验收意见"
↓
[结束] 流程归档,"预警状态"自动更新为"已完成"
5. 悟帆侧准备
5.1 预警规则手册
这是整个方案的核心。你需要准备一份"设备异常预警规则手册",作为悟帆的知识库/技能文档。这份文档不放在简道云的知识库里也行——悟帆自己能保存和引用。重点是写清楚判定逻辑,不要笼统。
好的写法(具体、可执行):
规则1 - 运行温度超标
条件:近7天运行记录中,平均运行温度 > 设备信息表中的"额定温度上限"
等级:超出10%以内 → 低;超出10%-20% → 中;超出20%以上 → 高
建议:检查冷却系统、散热风扇、环境温度
规则2 - 振动值异常
条件:近7天运行记录中,平均振动值 > 设备信息表中的"额定振动上限"
等级:超出15%以内 → 低;超出15%-30% → 中;超出30%以上 → 高
建议:检查轴承、紧固件、设备基座水平度
规则3 - 超期未巡检
条件:最近一次巡检记录距今 > 设备信息表中的"巡检周期(天)"
等级:超期1-3天 → 低;超期4-7天 → 中;超期7天以上 → 高
建议:立即安排巡检,排查设备状态
规则4 - 设备老化 + 高故障率
条件:设备使用年限 > 5年 且 近30天内运行记录中出现"故障停机"≥ 2次
等级:固定为"高"
建议:安排全面检修,评估是否需要更换关键部件
规则5 - 持续带病运行
条件:近3天运行记录中,运行状态为"带病运行"的记录 ≥ 2条
等级:固定为"中"
建议:尽快安排停机检修,避免故障扩大
坏的写法(模糊、不可执行):
"如果设备运行不正常就报警" ← 什么叫不正常?看哪个字段?阈值多少?
"设备有问题就通知" ← 什么问题?通知谁?什么等级?
5.2 规则手册的维护
把这份规则手册保存为悟帆的技能文档或知识库文件。后续如果要调整规则(比如修改阈值、新增规则),直接改这份文档就行,悟帆下次执行时会自动使用最新版本。
6. 悟帆侧配置
6.1 创建自动化管道
在悟帆中创建一个自动化管道(Automation Pipeline),配置如下:
- 名称:设备健康巡检
- 触发方式:定时触发(Cron)
- Cron 表达式:0 8 * * *(每天早上 8:00,时区 Asia/Shanghai)
- 超时时间:15 分钟(设备数量多时需要更长的处理时间)
6.2 任务指令
以下是完整的任务指令,可直接复制到悟帆的自动化管道"任务设计"中:
# 设备健康巡检任务
你是一个设备管理专家。你的任务是每天自动检查所有设备的运行状态,根据预警规则识别可能出问题的设备,并自动在简道云中发起预警流程。
## 执行步骤
### 第一步:拉取设备基础数据
从简道云"设备信息表"查询所有"设备状态"为"正常运行"的设备,获取每台设备的:
- 设备编号、设备名称、设备类型
- 额定温度上限、额定振动上限
- 巡检周期(天)
- 设备负责人
- 购入日期(用于计算使用年限)
### 第二步:拉取近7天运行记录
从简道云"设备运行记录"查询最近7天的所有记录,按设备编号分组,计算每台设备的:
- 平均运行温度
- 平均振动值
- "故障停机"出现次数
- "带病运行"出现次数(近3天)
### 第三步:拉取近7天巡检记录
从简道云"设备巡检记录"查询最近7天的所有记录,按设备编号分组,找到每台设备最近一次巡检时间。
### 第四步:逐台设备应用预警规则
对每台设备,依次检查以下5条规则,记录触发了哪些规则:
**规则1 - 运行温度超标**
- 条件:近7天平均运行温度 > 该设备的"额定温度上限"
- 等级判定:超出10%以内→低,10%-20%→中,20%以上→高
- 建议:检查冷却系统、散热风扇、环境温度
**规则2 - 振动值异常**
- 条件:近7天平均振动值 > 该设备的"额定振动上限"
- 等级判定:超出15%以内→低,15%-30%→中,30%以上→高
- 建议:检查轴承、紧固件、设备基座水平度
**规则3 - 超期未巡检**
- 条件:最近一次巡检距今 > 该设备的"巡检周期(天)"
- 等级判定:超期1-3天→低,4-7天→中,7天以上→高
- 建议:立即安排巡检,排查设备状态
**规则4 - 设备老化+高故障率**
- 条件:设备使用年限 > 5年 且 近30天"故障停机"次数 ≥ 2
- 等级:固定为"高"
- 建议:安排全面检修,评估是否需要更换关键部件
**规则5 - 持续带病运行**
- 条件:近3天"带病运行"记录 ≥ 2条
- 等级:固定为"中"
- 建议:尽快安排停机检修,避免故障扩大
### 第五步:综合判定预警等级
如果一台设备触发了多条规则,取最高等级作为最终预警等级。
- 只要有一条"高"→ 最终为"高"
- 最高为"中"→ 最终为"中"
- 全部为"低"→ 最终为"低"
### 第六步:写入简道云并发起流程
对每台触发预警的设备(至少触发1条规则),在简道云"设备异常预警"流程表单中新建一条数据,字段填写:
- 关联设备:该设备的记录ID
- 预警等级:综合判定后的等级(高/中/低)
- 预警原因:逐条列出触发的规则,包含具体数值。格式示例:
"① 运行温度超标:近7天平均温度87℃,额定上限80℃,超出8.75%(等级:低)
② 设备老化+高故障率:设备使用5.2年,近30天故障停机2次(等级:高)"
- 建议措施:合并所有触发规则的建议
- 预警时间:当前时间
- 设备负责人:从设备信息表带出
- 预警状态:待处理
- 同时设置 is_start_workflow=true 发起流程
### 第七步:输出巡检报告
最后输出一份简要的巡检报告,格式:
- 今日巡检设备总数:XX 台
- 正常设备:XX 台
- 预警设备:XX 台(高 X 台 / 中 X 台 / 低 X 台)
- 逐台列出预警设备的编号、名称、预警等级和主要原因
## 注意事项
- 如果某台设备在运行记录或巡检记录中完全没有数据(近7天无记录),不要视为异常,在报告中标注"数据缺失"即可
- 预警原因中的数值要精确到小数点后1位,让维修人员能直观判断严重程度
- 如果所有设备都正常,不需要写入任何数据,只输出"今日全部正常"的报告即可
- 写入简道云时使用 is_start_workflow=true 参数,确保流程自动发起
6.3 简道云连接配置
悟帆已内置简道云 API 工具包,只需确保:
- 在悟帆的连接中心(Connection Center)中配置好简道云的 API Key
- 在任务指令中提到的表单名称("设备信息表""设备运行记录""设备巡检记录""设备异常预警")必须与简道云中实际的表单名称完全一致
- 如果表单名称不同,修改任务指令中的表单名称即可,不需要改其他逻辑
7. 联调测试
测试用例 | 预期结果 |
设备 CNC-003 近7天平均温度 87℃(额定上限 80℃),且设备使用超5年、近30天故障2次 | 悟帆识别触发规则1(低)和规则4(高),综合等级为"高",自动在简道云发起预警流程,预警原因包含两条规则的具体数值 |
设备 INJ-001 注塑机一切参数正常,巡检也按时完成 | 悟帆不生成预警记录,巡检报告中该设备标记为"正常" |
设备 WELD-005 焊接设备近7天没有任何运行记录和巡检记录 | 悟帆不视为异常,在报告中标注"数据缺失",不发起预警 |
设备 PRESS-002 冲压机近3天有2条"带病运行"记录,其他参数正常 | 悟帆识别触发规则5(中),综合等级为"中",自动发起预警,建议"尽快安排停机检修" |
所有50台设备全部正常 | 悟帆不写入任何数据,输出"今日全部正常,共巡检50台设备"的报告 |
设备 CNC-007 巡检周期为3天,但最近一次巡检是10天前 | 悟帆识别触发规则3(高,超期7天以上),自动发起预警,建议"立即安排巡检" |
8. 踩坑提醒
Q1:悟帆跑完了但简道云里没有生成预警数据,怎么排查?
先看悟帆自动化管道的执行历史(在悟帆的自动化面板中查看)。常见原因有三个:
- 表单名称不匹配:任务指令里写的"设备信息表"和简道云里实际的表单名称差了一个字都不行。去简道云确认表单名称,然后改任务指令。
- API Key 权限不足:简道云的 API Key 需要对这4张表单都有读写权限。去简道云后台检查 API Key 的应用权限配置。
- 字段名称不匹配:悟帆写入数据时用的是字段名(如"预警等级"),如果简道云表单里的字段名改了(比如叫"告警等级"),写入会失败。确保两边一致。
Q2:预警等级判定不准确,该报高的报了低,怎么办?
问题通常出在预警规则手册上。悟帆是严格按照你给的规则执行的,如果规则描述有歧义,判定就会偏。排查思路:
- 看悟帆输出的巡检报告,找到那台设备的预警原因,看它引用的数值对不对
- 如果数值对但等级判错了,说明规则描述不够清晰——把"超出10%以内"改成"超出幅度 ≤ 10%"这种数学表达式,消除歧义
- 如果数值本身就算错了(比如平均温度算错了),检查是不是运行记录中有空值或异常值干扰了计算,在任务指令中加一条"计算平均值时跳过空值"
Q3:设备数量多了以后(比如200+台),悟帆跑得特别慢甚至超时,怎么优化?
几个方向:
- 分批处理:在任务指令中加一句"每处理50台设备后,先写入已完成的预警数据,再继续处理下一批",避免一次性处理太多导致超时
- 缩小范围:如果不需要每天全量检查,可以按设备类型或车间分批,比如周一检查A车间、周二检查B车间
- 增加超时时间:在自动化管道的执行配置中把 timeout_minutes 从15调到30
- 精简数据:在查询运行记录和巡检记录时,只查必要字段(用 fields 参数),减少数据传输量
Q4:流程发起后,设备负责人没有收到通知怎么办?
这通常是简道云流程配置的问题,不是悟帆的问题。检查:
- 流程表单的"设备负责人"字段是否正确填入了成员(username),而不是文本
- 流程设计器中,填写节点的负责人是否设置为"设备负责人"字段(动态指定),而不是固定某个人
- 简道云的消息通知设置是否开启(钉钉/企微/飞书的消息推送)
9. 扩展建议
当基础方案跑通后,可以考虑以下增强方向:
- 趋势分析:让悟帆不仅看"当前是否超标",还分析"温度是否在持续上升"——如果一台设备温度连续5天呈上升趋势,即使还没超标也提前预警
- 检修知识库沉淀:每次检修完成后,让悟帆自动总结检修经验,沉淀为知识库,下次遇到类似问题时给出更精准的建议
- 周报/月报自动生成:在悟帆中再建一个自动化管道,每周五自动汇总本周的设备预警和检修情况,生成设备健康周报

400-111-0890
在线咨询