悉尼科技大学等团队 | 用于裂缝检测的高性能视觉特征提取自监督模型DinoV2

结构健康监测领域中，桥梁等结构表面裂缝的自动检测对保障结构完整性至关重要。传统有监督深度学习模型虽可预测裂缝尺寸与位置，但高度依赖海量精准标注数据，这一过程不仅耗时费力，在特定场景下也不具备可行性。更为关键的是，此类模型在面对全新或复杂数据集时，泛化能力与鲁棒性均较为有限。来自悉尼科技大学、西悉尼大学等机构的研究者们重点探究自监督模型DinoV2在裂缝检测应用中的潜力，尤其聚焦其作为高性能视觉特征提取器的能力。通过利用DinoV2提取图像中裂缝形态的纹理、形状、上下文等关键视觉特征，验证了该模型在无标注数据支撑的情况下，仍可高效实现裂缝检测。研究搭配线性分类头，评估了DinoV2在多种复杂背景下识别裂缝的效果，并与多款主流有监督学习模型展开对比。实验结果表明，DinoV2不仅提升了裂缝检测性能（尤其在处理无标注图像时），在高噪声、不同材质纹理等复杂场景中更展现出显著优势。本研究凸显了自监督模型在解决实际工程问题中的应用价值，为未来结构健康监测技术的发展提供了全新思路。相关成果已发表于《机器智能研究（英文）》2026年第1期中，全文开放获取。

图片来自Springer

全文下载：

Autonomous Detection of Concrete Cracks Using Self-supervised DinoV2

Taoyuan Zhu, Ali Braytee, Karthick Thiyagarajan, Xing Zi, Samir Mustapha, Xian Tao & Mukesh Prasad

https://link.springer.com/article/10.1007/s11633-025-1553-5

全文导读

裂缝检测对于延长设施使用寿命、保障公共安全具有至关重要的作用。随着人工智能技术的发展，神经网络与深度学习方法被引入裂缝检测领域，众多有监督学习算法在该任务上取得了优异效果。传统上，人工检测是结构裂缝检测的主要手段。然而，该方式不仅成本高昂，还耗时费力、劳动强度大，且容易出现人为误差。人工检测效率低下可能引发严重后果，I-35W公路大桥坍塌事故便是典型例证，不充分的检测工作可能是导致事故的诱因之一。此外，在部分环境中开展人工检测存在安全风险，会危及检测人员的生命安全。人工检测的上述局限不仅会造成经济负担，还带来了突出的安全隐患，这也凸显出研发更高效、更可靠检测方法的迫切需求。

为推动该领域技术发展，结构健康监测（SHM）已成为重要研究方向，甚至被纳入国际项目竞赛的研究课题。人工智能技术的融合应用有望克服人工检测效率低下的问题，提供更快速、更精准、更安全的替代方案。但此类技术在应用过程中也带来了一系列新挑战，尤其体现在数据需求与模型泛化能力方面。随着深度学习技术的出现与持续发展，研究者们逐步采用该技术实现更高效、更精准的裂缝检测。然而，对于有监督模型而言，这也引发了一系列突出难题。首先，数据依赖性与泛化能力问题尤为显著。现有多数裂缝检测技术高度依赖标注数据，这已成为一大主要局限。裂缝可出现在各类材料表面，甚至可能隐匿于不同环境中，例如水下污渍区域或沥青内部。数据的这种多样性要求模型能够自动适配各数据集的专属特征，但现有模型通常需要人工调整参数以优化性能。这种针对不同数据集单独调优模型的方式，会使其在面对全新未知数据集时，泛化能力与鲁棒性有所下降。具体而言，裂缝形态的多样性要求训练数据具备广泛的代表性，而多数模型需针对特定数据集手动优化参数，限制了其通用性。因此，经单独调优的模型往往难以适配未见过的新数据集，进而影响实际应用效果。其次，数据不平衡问题同样是严峻挑战。在实际裂缝检测任务中，无裂缝区域的数量通常远多于裂缝区域，由此引发严重的数据不平衡问题。对于有监督学习模型，这种不平衡会导致模型倾向于预测占比更高的类别，即无裂缝区域，从而降低对真实裂缝的检测灵敏度。这不仅会造成类别预测偏差，还会削弱实际裂缝的检测能力，增加漏检风险。此外，这种数据失衡还会导致传统评价指标无法准确反映模型在少数类（裂缝）上的真实性能。

针对上述难题，本研究不仅分析了多种有监督分类模型在裂缝分类任务中的性能，还评估了将自监督模型DinoV2与线性分类头相结合应用于裂缝分类任务的有效性。本研究的主要创新点如下：

1）采用自监督DinoV2框架进行特征提取，并结合线性分类头实现裂缝分类。该方法将先进的自监督学习技术应用于结构完整性评估领域，验证了其在优化裂缝检测方法方面的实用性。本文核心贡献在于证实了DinoV2在裂缝特征提取上具备优异性能。

2）在初步探索基础上，本研究进一步开展了一系列系统性实验，旨在评估有监督与自监督学习方法在不同数据集上对裂缝图像进行分类的效果与泛化能力。我们在四个不同数据集上进行了交叉测试，以验证DinoV2的泛化性能。

3）对注意力机制进行了可视化分析，对比了有监督模型与DinoV2在注意力分布上的差异，直观展示了DinoV2如何聚焦裂缝的关键特征。

结论

本研究验证了自监督模型DinoV2在多数据集裂缝分类任务中的优越性能。实验发现，尽管DinoV2能够精准识别裂缝，但其注意力机制更倾向于覆盖整张图像，而非仅聚焦于裂缝区域。这种较广的注意力范围有时会对模型输出产生干扰。与CNN等传统有监督模型在不同数据集上表现不稳定的情况相比，DinoV2凭借稳定的鲁棒性与检测精度脱颖而出。

该模型的一大显著优势在于，无需大量标注数据即可充分利用数据的内在信息，有效提升泛化能力与检测效率。基于上述研究结果，我们对DinoV2在裂缝分类领域的引领潜力持乐观态度，可为裂缝检测及更广泛领域的应用拓展奠定基础。针对该模型存在的不足，未来研究将着重优化DinoV2的特征提取机制，减少无关干扰，进一步提升检测精度。

全文下载：

Autonomous Detection of Concrete Cracks Using Self-supervised DinoV2

Taoyuan Zhu, Ali Braytee, Karthick Thiyagarajan, Xing Zi, Samir Mustapha, Xian Tao & Mukesh Prasad

https://link.springer.com/article/10.1007/s11633-025-1553-5

BibTex:

@Article{MIR-2024-07-289,

author={Taoyuan Zhu, Ali Braytee, Karthick Thiyagarajan, Xing Zi, Samir Mustapha, Xian Tao, Mukesh Prasad },

journal={Machine Intelligence Research},

title={Autonomous Detection of Concrete Cracks Using Self-supervised DinoV2},

year={2026},

volume={23},

issue={1},

pages={168-184},

doi={10.1007/s11633-025-1553-5}}

特别感谢本文第一作者、悉尼科技大学朱陶源对以上内容的审阅和修改！

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://lcn76mgd97vz.feishu.cn/share/base/form/shrcnsQ6cmRjqoxPF5WDowSBFVr

▼

往期目录

▼

2026年第1期 | 自我中心视觉、基于图的推荐系统、智能结肠镜检查、多模态大语言模型......

2025年第6期 | 大语言模型、自动驾驶、医学图像分割……

2025年第5期 | 生成式模型、疾病诊断、步态识别、行人再识别......

2025年第4期 | 特约专题: 具身智能

2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......

2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...

2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...

2024年第6期 | 图神经网络，卷积神经网络，生物识别技术...

2024年第5期 | 大语言模型，无人系统，统一分类与拒识...

2024年第4期 | 特约专题: 多模态表征学习

2024年第3期 | 分布式深度强化学习，知识图谱，推荐系统，3D视觉，联邦学习...

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

▼

好文推荐

▼

电子科大李宏亮团队 | 第一视角视觉：挑战与发展趋势综述

南开大学范登平团队 | 智驱结肠镜：技术变革与前沿洞察

上海交通大学夏泽洋教授团队 | 基于半监督学习的心脏磁共振影像动态特征分类

精选好文 | 基于多模态学习的非酒精性脂肪肝病预测

南京大学Kai Ming Ting团队 | 综述：基于孤立机制的异常检测研究

南洋理工大学肖佳平等 | 基于深度强化学习的异构机器人系统目标搜索与导航

南开大学程明明团队 | MCANet：基于多尺度交叉轴注意力的医学图像分割

自动化所吴书等 | GraphFM: 用于特征交互建模的图因子分解机

香港理工大学周立培团队等 | 综述: 面向以物体为中心的机器人操作的具身学习

清华大学朱军团队 | DPM-Solver++：用于扩散概率模型引导采样的快速求解器

南航张道强团队 | 综述：基于脑电信号与机器学习的注意力检测研究

可信图神经网络的全面综述：隐私性、鲁棒性、公平性和可解释性

哈工大江俊君团队 | SCNet：利用全1X1卷积实现轻量图像超分辨率

自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架

上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究

专题好文 | 再思考人群计数中的全局上下文

专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer

浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI

澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开

前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查

精选好文 | 推荐系统的波纹知识图谱卷积网络

复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型

自动化所黄凯奇团队 | 分布式深度强化学习：综述与多玩家多智能体学习工具箱

约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法

专题综述 | 大语言模型中的知识生命周期

精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战

欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用

金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测

专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑

▼

MIR资讯

▼

对话优博 · 第2期 | 读博那些事儿

对话优博·第1期 | 如何从保研小白成长为CCF优博？

MIR高下载Top文章集锦（2024-2025年）

MIR高被引Top10文章集锦 (2024-2025年)

2026年 AI 领域国际学术会议参考列表 (含8大方向，附PDF)

合作办会@CVPR｜第2届 Subtle Visual Computing（SVC）国际研讨会与挑战赛正式启动！

合作办会@CVPR | Call for Participation / Papers: AIMS 2026

合作办会@ICME | Call for Papers: AIART 2026

专题征稿 | Theory and Applications of Datatic Learning

MIR优秀编委 & 优秀审稿人 (2025年度)

MIR致谢审稿人 (2025年度)

进阶前5%！MIR登榜”中国最具国际影响力学术期刊”

影响因子全球第6名！MIR稳步进军世界一流期刊行列

喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区

喜报！MIR入选中国科技期刊卓越行动计划二期项目

特别提醒！请认准MIR官方渠道，谨防受骗

前进20名！MIR再度跻身国际影响力TOP期刊榜单

喜报 | MIR入选图像图形领域 T2级 “知名期刊”！

喜报 | MIR被 ESCI 收录！

喜报 | MIR 被 EI 与 Scopus 数据库收录

内容中包含的图片若涉及版权问题，请及时与我们联系删除

悉尼科技大学等团队 | 用于裂缝检测的高性能视觉特征提取自监督模型DinoV2

评论列表

评论