About 107,000 results
Open links in new tab
  1. 挑战 Transformer:全新架构 Mamba 详解

    Sep 23, 2025 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性 …

  2. 为什么我还是无法理解transformer? - 知乎

    Transformer的训练方式跟你理解的神经网络一模一样,就是反向传播,就是调整权重参数,没有任何新东西。 你之所以困惑,是因为99%的教程犯了一个致命错误:它们花大量篇幅讲注意力机制的前向 …

  3. Transformer模型怎么用于regression的问题? - 知乎

    回归问题概述 Transformer模型基础 回归问题中的Transformer架构调整 应用案例 优化与技巧 挑战与改进 1. 回归问题概述 回归问题是监督学习中的一种任务,目标是预测一个连续值。这类问题通常涉及对数 …

  4. 为什么Transformer适合做多模态任务? - 知乎

    这个问题其实应该从两个方面回答: 第一个是任务方面,之前的多模态任务是怎么做的,为什么现在大家会转向Transformer做多模态任务? 在Transformer,特别是 Vision Transformer 出来打破CV和NLP …

  5. 为什么 2024 年以后 MMDiT 模块成为了大规模文生视频或者文生图片 …

    而且对于纯transformer架构,文本tokens和图像tokens拼接在一起也是很自然且容易的事情(UNet的图像是2D特征,而文本是1D特征)。 而且,SD3的技术报告中其实也对不同的架构设计做了对比,这里 …

  6. Transformer两大变种:GPT和BERT的差别(易懂版)-2更

    Dec 16, 2025 · Transformer是GPT和BERT的前身。谷歌和OpenAI在自然语言处理技术上的优化,都是基于这个模型。 更多关于的Transformer可以看文章: ChatGPT与Transformer(无公式版) 而在目 …

  7. CNN,Transformer,MLP 三大架构的特点是什么? - 知乎

    CNN擅长处理图像数据,具有强大的特征提取能力;Transformer通过自注意力机制实现了高效的并行计算,适用于处理序列数据;而MLP则以其强大的表达能力和泛化能力,在多种类型的机器学习任务中 …

  8. 深度学习中“Transformer”怎么翻译为中文? - 知乎

    Transformer 个人觉得不翻译为好。 Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及,它已经成为一类以 自注意力 为主要部件的特定模型,其原本在机器翻译中的 …

  9. 你对下一代Transformer架构的预测是什么? - 知乎

    2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法 …

  10. 当今改进cnn,transformer还有出路吗? - 知乎

    Point transformer v3: Simpler faster stronger 方法: 论文提出Point Transformer V3,通过改进Transformer架构,采用点云序列化和高效的Patch Attention机制,避免了KNN查询和复杂的位置编 …