曼巴的建议再次挑战变形金刚创建第一个单词分
- 编辑:admin -曼巴的建议再次挑战变形金刚创建第一个单词分
曼巴(Mamba)的建议创建了第一个单词分割语言模型,H-RED语言模型,或者再次挑战了变压器作为一般基本模型的中心体系结构
资料来源:美国卡内基·梅隆大学(Albert Gu)助理教授,美国Cartecia创业公司的共同创始人,被选为新序列建模架构Mamba的时间100 AI,并被选为Google 2025年的Google 2025 Research Scholars计划。 https://memento.epfl.ch/event/ai-center-x-laire-laire-fundamentals-seminar-prof-al/)最近,他和她的韩国学生Huang Xijun和Kaltecia技术团队的中国成员提出了一个历史网络(等级网络,等级网络)。 https://sukjunhwang.github.io/)值得注意的是,该相关文件的合伙人布兰登·王(Brandon Wang)毕业于加利福尼亚州加利福尼亚州的萨拉托加高中。 uu。后来,他在国际数学Oly获得了ATO金牌MPIAD于2019年。2024年,他毕业于美国马萨诸塞州理工学院,并加入了上面在Albert Gu中提到的首发公司。首先,通过递归和数据依赖性的动态碎片过程(DC,动态片段化)来压缩原始数据,该过程代表免费的 - 端单词分割语言的模型。该模型在一个阶段中动态充电。如果字节级H -NET参数上下文相关的分割机制可显着提高建模功能。 H-NET采用了先前研究的层次结构。这是原始的,自动网络U网络:首先。数据由一个小的编码网络处理。接下来,它显示登录到在压缩块中执行的主要网络。最后,将其传输到以其原始分辨率执行的解码器网络。这种模块化设计创建了自然处理的层次结构ER阶段捕获细谷物图案,而内部阶段则基于类似于传统分词的厚谷物表示进行操作。尽管主要网络包含大多数参数,但研究人员发现,由于SSM具有压缩诱导的偏置,编码器和解码器网络可以通过使用状态空间模型(SSM,状态空间模型)可显着改善。如报道,H-NET核在于采用新的动态片段化机制(DC,动态片段化),该机制允许主网络连接到编码器/解码器网络。您可以在使用标准可区分优化算法的同时学习如何细分数据。动态阻止技术由两种新的补充技术组成。首先,通过相似性分数预测相邻元素之间限制的路由模块。其次,使用路由模块的输出来插入表示形式以降低的效果,该模块使用路由模块的输出不确定的限制并大大改善了学习。研究团队还结合了以下创新技术:首先,我们结合了一种新的辅助损耗功能,旨在向下采样率。其次,它结合了现代学习技术,以进行离散决策的决策。基于此,动态图允许H-NET学习以完全端到端的方式压缩数据。研究人员还引入了几种培训架构和技术,以提高末端至端优化过程的稳定性和可扩展性。这些测量值包括:一方面,仔细建立投影和归一化层,以平衡交互式子网之间信号的传播。同时,根据每一层的尺寸和有效批的大小优化参数,并在层次结构的不同阶段进行更改。如报道,H-NET在截短的网络中学习了优化的分割策略Y根据上下文信息,基于上下文信息在重要块中压缩输入向量。从经验上讲,动态锁模块自然会构成隔离),它可以在整个过程中进行定性学习,而无需外部或启发式监督。 ARXIV)以前的末端 - 端方法具有训练的不稳定性。可以理解的是,深度学习的一般目标是学习未经处理的数据的重要模式,自动提取功能,并从最终到极端构建抽象概念。但是,通过固定的词汇分词在预定义的块中压缩原始文本的过程,即在预定义的块中,例如BPE等算法,是现代语言模型中常见的手动预处理步骤。单词的分割具有许多完善的缺陷:对弱水平的理解,缺乏意义和解释,复杂语言的退化和模态性能。使用SIngle end -to -end模型。模式替换单词的分词和延迟单词deword-de-word单词的过程也符合深度学习的本质。理想情况下,随着数据和参数的增加,扩展了扩展。但是,单词分割可以被压缩并缩短序列,因此仍然是语言模型和其他序列数据的组成部分。到目前为止,借助可比的计算机资源,单词分割模型而没有端到头分段的单词分割模型尚未达到基于单词分割的语言模型的性能水平。一系列最近的研究已经开始努力克服自我代表性序列模型中单词分割的问题,这需要解决一系列复杂的技术挑战。联合培训的极限预测因素是理想的解决方案,但需要开放式差异选择动作而无需监督。这是一个根本上具有挑战性的问题。因此,现有的目的 - 末端方法具有训练不稳定性,这意味着该模型不能大规模爬升,并且多层层次结构不能为嵌套。从本质上讲,没有单词分割创建的ARCI需要将数据碎片过程直接集成到模型中,从而克服了效率,学习和稳定性的挑战,在大规模的场景中。据此,研究小组进行了这项研究。预计该研究团队将成为文档中提到的一般基本模型的中心体系结构,它表明,除了解决单词分割问题外,H-NET还改善了各种场景中的一般序列建模。封锁是从低级别数据中的Concenehigh -Level抽象咳嗽的施工过程,语言模型补贴的分词是特殊的锁定案例,也是智能的核心组成部分。更重要的是,由于H-NET是申诉从极端到极端,它可以是递归的,主要网络本身也可以成为H-NET。直观地,更多的阻塞阶段代表高阶含义。单词也可以在子句,句子甚至更复杂的单元中组合在一起,以便角色可以用文字相遇。因此,层次结构的重复允许更有效地利用计算机资源和参数,从而可以更有效地推断压缩表示形式。研究团队确定,H-NET不仅超过了单词分割的问题,而且代表了一种新的基本模型体系结构,该模型架构发现和Procesa摘要特征从未经处理的数据中学到,因此创建了一个具有较少预处理的高质量模型。当第一个H-Pent阶段到第二级阶段时,其性能会提高,比所有参考模型都要好得多。训练曲线不仅陡峭,而且非常适合扩展数据。两个阶段的H-NET该字节超过了仅300亿个字节的强大分词差异的混乱,并且在整个训练过程中,该差距继续扩大。同时,其下游任务的结果与参与的trancos相当,是大小的两倍。此外,由于双重目标和计算机要求,H-NET编码器和解码器网络面临独特的设计限制。每个编码器同时执行两个点。首先,通过残差的连接包含Repitionfine谷物的交配,以发送到相应的解码器。其次,入口被压缩在具有更丰富表示形式的块中,以用于主网络。同时,解码器必须有效地将主网络的粗粒表示与编码器废物的细节细节结合在一起。编码器和解码器对未压缩序列作用也很重要。这为计算效率和影响而产生了关键的设计限制是研究团队的建筑选择。最近的研究表明,SSM在细晶粒数据处理中运行良好,包括音频,DNA测序和机器人控制标志。根据这些想法,研究人员将MAMBA-2层作为编码器和解码器网络的重要组成部分。此选择提供了两个重要的好处。一种是能够有效处理细粒度输入的能力,而另一个是处理较长和未压缩序列的处理可显着提高效率。消融实验表明,基于SSM的编码器/解码器明显优于变压器层,不仅在字节级别,而且在较厚的输入中。该设计体现了两个重要原则。首先,在压缩序列时,每个块可以分配更多参数和计算机资源。其次,高水平的抽象受益于改善处理能力。主要网络充当标准语言模型,可以使用任何混合序列CE建筑。研究人员使用变压器层的预定是有两个原因:首先,压缩表示与跨性别富含semanti rich tokensistividual cos的优势非常一致。其次,可以在实验中与传统的BPE传输基线进行更可控制的比较。但是,这种模块化设计允许直接交换其他体系结构。与标准各向同性模型相比,H-NET结构引入了新的架构参数的几个维度,以平衡每个网络的参数/计算机分配。最后,H网络获得以下好处:首先,它非常健壮。训练前的H网络明显优于基于单词的单词,而无需特殊的数据混合物。其次,它具有出色的解释性。在对学习限制进行定性视觉分析时,研究人员发现H网络可以自动识别语义COH没有明确监督的eRent单位。这确认结束 - 到末端学习可以成功地检测通过分割人造单词施加的结构模式。第三,其他语言具有优势。 H-NET提出的改进在语言中(包括中国和代码)更为重要。在Xwinograd-ZH数据集中,与基于Word分词相比,与TRANE相比,先前的H-NET分数从59.9增加到66.3。 DNA语言建模也可以这样说。这是各向同性模型的3.6倍。通常,H-NET显着改善单词分割的单词,并在类似于语言的多种语言和方式中表现出强烈的表现。研究人员希望它成为典型基本模型的中心体系结构,并认为这些模型将允许使用更少的处理效率学习。目前,研究团队正在开放原产地模型和先前训练的控制点。 sEE:https://time.com/7012853/albert-gu/https://cartesia.ai/https://sukjunhwang.gith.gith.io/https:/https://wwwwwww.linkedin.com/link-linkedin.com/in/in/in/in/in/in/brwa/https:/b-./b-./b./b./b../b-././b-1./b-1./b. https:/ rwa.github.io/#tphtps://www.linkedin.com/in/albert-gu-8ab677139/https://goombalab.github.io/https://arxiv.org/arxiv.org/arxiv.org/pdf/pdf/2507.079555v1类型