没有代币的时间来了吗?曼巴(Mamba) - 曼巴(
时间:2025-07-16 10:18 作者:BET356官网在线登录

令牌化始终是实现真正端到端语言模型的最后障碍。我们终于删除了令牌化吗?答案是:可能性是无限的。最近,曼巴(Mamba)的阿尔伯特·古(Albert Gu)发表了一项新的研究。他参与了一篇论文,“端到端层次建模顺序的动态块”提出了一个H-NET层次结构网络,该网络用模型中的动态切块过程代替了令牌化,因此自动发现并操作了重要的数据单元。 “这项研究表明,令牌者正在离开农场,而明智的字节块也在途中。也许没有令牌培训的时间确实来了 - 可能性是无限的。” X.的著名博客作者罗汉·保罗(Rohan Paul)在此阶段说,令牌化仍然是语言模型和其他连续数据的组成部分,因为它可以压缩和缩短序列。但是,令牌化具有许多缺点,例如可解释性差和降解性处理复杂语言(例如中文,代码,DNA依从性)时。到目前为止,在计算预算匹配时,尚无端到端的无标记模型超过了基于令牌的语言模型的性能。最近,一些研究开始努力打破自回归模型中的令牌化限制。在这种背景下,Cartesia AI等机构的研究人员提出了一系列新技术,以通过也可以通过障碍机制来实现适应内容上下文的方法,这可以在模型的其他组件中一起学习。将此机制纳入显式层次网络(H-NET)之后,可以用完全端到端的单个模型代替原始的隐式层次结构“ tokenization-lm-dyakenization”过程。在平等计算源和数据量的条件下,仅使用单层层次H-NET模型级别,该级别比基于强的变压器语言模型更好地执行在BPE令牌上。通过多级层次迭代建模对不同的抽象级别进行建模,模型性能得到进一步改进 - 不仅显示出更好的数据量表效应,而且还可以将基于令牌的变压器模型进行比较。在英语预培训中,H-NET显示出熟练性的提高了性格级别的稳定性,并且可以有效地学习,这些技术依靠数据在整个过程中没有启发式或明确管理规则的情况下依靠数据。最后,在启发式令牌化(例如中文,代码或DNASA序列)中有效的语言和模式中,H-NET在令牌化过程中的好处进一步扩大(数据效率几乎是基线的4倍),显示了实际端到端模型的潜力,可以从郊区数据获得更好的研究和伸缩性。纸质地址:https://arxiv.org/pdf/2507.07955v1无令牌化的端对结构序列,本文提出了端到端分层网络(H-NET)通过递归,数据防御动态块(DC,动态块)过程来压缩原始数据(见图1)。在保持与令牌化过程相同的效率的同时,H-NET通过通过从数据中学到的内容和上下文依赖性上下文来改变启发式手动意识来显着提高建模功能。层次处理H-NET采用了层次结构,其工作流程分为三个步骤:良好处理:首先使用小型编码器网络处理原始数据(例如字节/字符);压缩抽象:在压缩和崩溃的数据后,它被传递到主要网络(可以理解为大脑的核心)进行处理;返回输出:最终步枪,并由解码器恢复到原始精度。该设计产生了自然的认知分层 - PEXIT层获得细粒度模式,而抽象的内部过程pts。关键是主网络包含大多数参数,并且可以适应任何标准体系结构,例如变压器或状态空间模型(SSM)。在动态块的中间,H-NET是位于主网络和编码器/解码器网络之间的动态块(DC)的机制(DC),以学习如何在使用标准的不同优化方法的同时分割数据。 DC由两种互补的新技术组成:(i)路由模块,通过标记的均匀性来预测相邻元素之间的边界; (ii)使用路由器输出的平滑模块通过减少非特定比序的影响来显着提高学习能力。通过将这些技术相结合到辅助失去辅助的新功能并抓住现代梯度的离散学习技术,DC允许H-NET学习如何以完全端到端的方式压缩数据。信号传播本文还引入了许多架构和TR在端到端过程中提高稳定性和可扩展性的方法。这些方法包括:(i)仔细组织的投影层和归一化层,以平衡交互式子网之间的信号传播; (ii)根据每一层的尺寸和批处理的有效尺寸来排列其优化参数。通常,H-NET学习了一种在脊柱网络中优化的分割方法,基于上下文信息将输入向量的动态压缩到重要的数据块。 H-NET代表了第一个无令牌的实际端到端模型:通过动态块阶段,H-NET级别实现了具有超过10亿个参数的强BPE令牌化。 Sformer具有巨大的混乱和流动的性能。从经验上讲,动态块模块自然地将数据挤压为类似于BPE令牌的分辨率(每块4.5-5个字节),并且没有外部的有明显的界限Al监督或启发式。在实验和结果中,本文使用的语言模型的基本体系结构如下,因为Mambabyte是使用纯Mambo-2层的各向同性模型。训练曲线。图3给出了BPB S Metricsa的验证,用于大型和XL模型的全面培训。图3显示了在整个训练过程中,BPB指标对大型和XL量表模型的验证。在更大范围内,本文指出,所有各向同性模型都小于分层性能模型。在这些模型中,山babyte明显优于乳甲比特。 SpaceByte明显不如SpaceByte ++,此结果证实了使用MABA在外部网络上使用MABA的有效性。 SpaceByte ++也比H-NET(Space)还差,这表明本文提出的改进信号传播技术的有效性。 H-NET(空间)是一个非常强大的模型,可实现与BPE Tran相当的性能sformer,确认数据阻断技术的效果,并精心设计的层次结构。表2显示了流量的许多基准上不同模型的零样本精度。 SpaceByTe ++,H-NET(空间)和H-NET(1阶段)的性能与BPE变压器的性能相似,在XL尺度上略微超过BPE变压器。表3检查了Hellaswag中模型的稳定性。与所有基准模型相比,H-NET(2级)可显着提高稳定性。图4提供了通过H-NET(1阶段)和H-NET(2阶段)动态绘制的边界的纪念。这些可视化提供了许多关于模型如何确定边界的重要观点。尽管使用Llama3令牌剂,但本文发现,在中国加工和代码中,H-NET(2阶段)的可伸缩性比BPE变压器和H-NET(空间)更好(图5),并且在衰减阶段后达到了较高的压缩率(表4)。先前的研究表明SSM不仅仅是DNANA性能建模的TR,AnsFormer的性能也很棒。还通过实验证明了这一点(表5):尽管Mamba-2已被替换为主要网络,但SSM的优势仍然存在。实际上,通过直接比较稳定训练阶段的混乱曲线(图6),本文发现,H-NET模型可以实现与仅数据量仅为3.6倍的各向同性模型相似的性能。此搜索适用于选择两个基本网络体系结构。最后,艾伯特(Albert)还写了一篇很棒的博客文章,介绍了后部故事和有关H-NET的令人兴奋的看法。有兴趣的读者可以去阅读。 adblog连衣裙:https://goombalaba.github.io/blog/2025/hnet-past/有关更多信息,请参阅原始论文。