RAG不存在了？世界首个1亿token神级上下文模型诞生前OpenAI大佬加盟获465亿融资

　　而且，LTM-2-mini采用了序列维度算法，这种计算效率要比Llama 3◆■.1 405B的注意力机制高出约1000倍。

　　为了消除这些隐性和显性语义提示，Magic设计了一种全新的方法——HashHop■★■■■。

　　目前Magic正在Google Cloud上构建两台超级计算机■◆★，计划于明年上线★■★■■：

　　正是这些微妙的缺陷◆★■◆■，削弱了当前长上下文评估的有效性◆■◆★，使传统的递归神经网络（RNN）和状态空间模型（SSM）能够取得好成绩，尽管它们从根本上限制了O(1)大小的状态向量。

　　而Magic，就致力于让这个目标成线人团队，还有一个更大的目标：共同设计长上下文、推理时间的计算能力和端到端强化学习，实现编码和研究的全自动化。

　　Llama 3.1的每个用户，都需要638个H100来存储1亿token的KV缓存■■■，而LTM只需要其中的一小部分。

　　这种能力，极大地扩展了模型在实际应用中的适用范围。在软件开发中★■◆◆★，模型可以利用整个代码库、相关文档和库，来生成更高质量的代码了◆■■◆■★！

　　GitHub最新的调查显示，大部分开发者都已以某种形式采用了AI工具★◆■■★★。同时，微软也在4月份报告称■■★★，Copilot已经拥有超过130万付费用户和超过50,000家企业客户。

　　哈希是随机的，也是不可压缩的◆■★■★■。因此，这将要求模型能够随时从给定上下文大小的最大可能信息内容中，进行存储和检索。

　　尽管如此，一个比当今SOTA模型小几个数量级的模型，仍然能够在无人协助的情况下编辑复杂的代码库。

　　网友感慨★★◆★■■：所以，团队是同时构建了SSM、RNN或Transformer■◆◆■★？

　　接下来就让我们看看Magic提出的第一个拥有1亿token上下文的模型——LTM-2-mini★■◆◆★★。

　　此外，团队还提出了一种更具挑战性的版本■■★★★，其中模型跳过步骤■◆■■，例如直接从哈希1跳到哈希6★■◆■★◆：

　　它的上下文窗口，包含1亿个token◆■■◆，相当于1000万行代码◆■，或750部小说。

　　通过学习识别这种「针」的不寻常性质，模型可以忽略「海」中其他本来相关的信息，从而将所需的存储容量减少到低于处理真实任务时的水平。

　　根据Polaris Research的估计，这个市场到2032年可能将价值271★■◆◆■■.7亿美元，而投资者对此也十分看好。

　　由于上下文相对较短◆◆■★★，训练一直占据主导地位。但超长上下文，可能会改变这一点。

　　就如上文所说，对于每个解码的token★◆★，LTM-2-mini的序列维度算法在1亿token上下文窗口中比Llama 3.1 405B的注意力机制便宜大约1000倍。

　　在训练中，它们使用了一个特殊的token，来明确标记针的开始，使评估的存储和检索难度降低到O(1)。

　　此前流行的「大海捞针」，存在很多弱点，SSM、RNN和RAG都是利用了它们。

　　并且，模型只需要关注上下文中一个微小且语义上可识别的部分即可。于是★★★◆，像RAG这样的方法也能获得成功。

　　比如，为什么专挑Llama 3.1 405B做对比呢？如果模型比405B小100倍，那比它便宜1000倍■◆★★★，也是有可能的◆◆。

　　而LTM（长期记忆）模型并不依赖模糊记忆◆■，而是在推理时被训练处理多达1亿token的上下文。

　　只要花费100美元，你就可以在10分钟内完成一个任务，还能获得一个可靠的具有完整功能的pull request。

　　Magic所采用的LTM（长期记忆）机制所需的计算和内存，比Llama 3.1 405B的注意力机制少了1000多倍◆■，这个对比太鲜明了★■■。

　　它比SOTA模型小了几个数量级■■◆，因此代码合成能力还不够好，但偶尔也会产生合理的输出：

　　因此，这次团队为了规避「大海捞针」的弱点，专门创建了全新的评估方法HashHop——

　　这里★★★，LTM模型成功地使用自定义的上下文GUI框架创建了一个计算器，展示了实时学习的能力■◆。

　　流行的「大海捞针」评估是在长上下文窗口（「海」）放置一个随机事实（「针」），并让模型检索该事实。

　　就如上文所说■■★■，如果模型能够在上下文中包含所有代码■◆◆、文档和库，包括那些不在公共互联网上的代码，代码合成的表现，提升将是惊人的◆■★。

　　对于这个问题的描述，实际上要在比现实场景中更加具体，并且这项功能在许多web应用程序中很常见。

　　相比之下，LTM的每个用户在相同上下文中◆★◆■，只需要使用单个H100的HBM的一小部分。

　　虽然对于使用 React 等知名框架的先进模型来说，生成计算器是一项简单的任务■■■，但使用自定义的上下文框架更具挑战性■■。

　　其中，模型的提示只有代码库和聊天记录（没有打开的文件■★、编辑历史或其他指示）★★■■■。

　　哈希是随机的★■◆◆★★，因此是不可压缩的，这就要求模型能够在任何时候，存储和检索给定上下文大小的最大可能信息内容。

　　另一位联创De Ro★■◆，来自德国业务流程管理公司FireStart。在那里■◆★◆■，他的职位一路晋升至CTO。

　　据称◆◆★■，后者能够随着时间的推移扩展到数万台Blackwell GPU◆■★■◆，并且这些集群将能够实现160 exaflops（每秒一百亿亿次操作）◆★◆。

　　可以看到，LTM模型能够在没有人工干预的情况下，为开源仓库Documenso实现一个密码强度计。

　　在这个过程中，团队还设计了一个新的评估上下文长度和可靠性的体系HashHop◆★◆◆，取代了「大海捞针」■◆■◆★◆。

　　为此，Magic聘请了前OpenAI超级计算团队负责人Ben Chess★◆◆◆◆，并计划扩展其网络安全、工程■■■、研究和系统工程团队。

　　【新智元导读】RAG不存在了？20多人初创公司Magic开发的代码语言模型LTM-2-mini■■■◆，上下文窗口已经达到了1亿token，相当于一千万行代码。AI模型的运作方式，从此可能从根本上改变！如今■★◆★★，团队已获4.65亿美元融资。

产品中心