每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
Badri Narayana Patro,
Vijay Srinivas Agneeswaran
2024年04月24日
序列建模是各个领域中至关重要的一个领域,包括自然语言处理(NLP)、语音识别、时间序列预测、音乐生成和生物信息学等。循环神经网络(RNN)和长短期记忆网络(LSTM)在机器翻译、命名实体识别(NER)等序列建模任务中一直处于主导地位。然而,transformers的出现导致了这种范式的转变,因为它们具有更好的性能。然而,transformers存在$O(N^2)$的注意力复杂度和处理归纳偏差的挑战。已经提出了几种变体来解决这些问题,它们使用谱网络或卷积,在各种任务上表现良好。然而,它们仍然难以处理长序列。状态空间模型(SSM)已经成为这种情况下序列建模范式的有希望的替代方法,特别是随着S4及其变体(如S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba等)的出现。在本调查中,我们根据三种范例,即门控架构、结构架构和循环架构,对基础SSM进行分类。本调查还强调了SSM在各个领域的多样化应用,包括视觉、视频、音频、语音、语言(特别是长序列建模)、医学(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析,包括表格数据。此外,我们还总结了SSM在基准数据集(如Long Range Arena(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2以及视频数据集,如Breakfast、COIN、LVU和各种时间序列数据集)上的性能。Mamba-360工作的项目页面可在此网页上找到:\url{https://github.com/badripatro/mamba360}。
17
热度
ML
AI
CV
PDF
解读
The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images
Nicholas Konz,
Maciej A. Mazurowski
2024年01月16日
本文研究了神经网络从不同成像领域学习时的差异,这在将计算机视觉技术从自然图像领域应用于其他专业领域(如医学图像)时经常被忽视。最近的研究发现,训练网络的泛化误差通常随其训练集的内在维数($d_{data}$)增加而增加。然而,这种关系的陡峭程度在医学(放射学)和自然成像领域之间存在显著差异,目前没有理论解释。我们通过建立和经验证一个关于$d_{data}$的泛化缩放定律来填补这一空白,并提出医学成像数据集的内在“标签锐度”($K_F$)可能部分地解释了这两个考虑的领域之间的显著缩放差异,我们提出了这个度量标准。接下来,我们展示了衡量训练集的标签锐度的另一个好处:它与训练模型的对抗鲁棒性呈负相关,这显然导致医学图像模型对对抗性攻击的易受攻击性明显更高。最后,我们将$d_{data}$的形式化推广到学习表示的内在维数($d_{repr}$)的相关度量上,推导出一个关于$d_{repr}$的泛化缩放定律,并显示$d_{data}$作为$d_{repr}$的上限。我们的理论结果得到了六个模型和十一个自然和医学成像数据集的全面实验支持,这些实验涵盖了不同的训练集大小。我们的发现提供了关于内在数据集属性对深度神经网络的泛化、表示学习和鲁棒性的影响的洞见。
CV
ML
ImgVideo
PDF
解读
Evaluation of QCNN-LSTM for Disability Forecasting in Multiple Sclerosis Using Sequential Multisequence MRI
John D. Mayfield,
Issam El Naqa
2024年01月22日
本研究探讨了量子卷积神经网络(QCNN)-长短期记忆(LSTM)模型,为多发性硬化(MS)患者的MRI每个时间点提供顺序关系。在本次试验中,我们将三个QCNN-LSTM模型与经典神经网络架构进行了二元分类的比较。我们的假设是,量子模型将提供有竞争力的性能。方法采用矩阵积状态(MPS)、反向多状态纠缠重整化Ansatz(MERA)和树张量网络(TTN)电路与LSTM层配对,处理被诊断为MS的患者近年MRI数据。这些模型与视觉几何组(VGG)-LSTM和视频视觉变换器(ViViT)进行了基准测试。使用二元交叉熵损失函数,将预测的对数与每个患者的扩展残疾严重程度评分(EDSS)的真实标签进行比较。使用5倍交叉验证将训练/验证/保留测试进行分区,总分为60:20:20。利文检验用于测量统计差异,学生t检验用于配对模型平均值的差异。结果MPS-LSTM,反向MERA-LSTM和TTN-LSTM的保留测试ROC-AUC分别为0.70、0.77和0.81,(p值为0.915)。VGG16-LSTM和ViViT的ROC-AUC相似,分别为0.73和0.77,(p值为0.631)。总体方差和平均值没有统计学显著性(p值为0.713),但是,QCNN-LSTM的训练时间显著缩短(每个折叠39.4秒,相比于224和218,p值小于0.001)。结论QCNN-LSTM模型在训练时间上更加高效,与经典模型具有相当的性能,临床上可以通过医学成像的时间依赖性深度学习预测疾病进展,提高效率。
ML
AI
cs.ET
PDF
解读