廿六年五月廿四日发 | 版本一
预印本 公开
描述
大语言模型(LLMs)于自然语言之研习,已得斐然之进
與代碼生成,然其本質上仍受兩大相關限制所束縛:輸出令牌上限(通常為8k–32k令牌)及二次方注意複雜性
,此二者使長距推理之經濟性大為困難。既有之解法——分塊處理、
檢索增強生成、及長文脈變換器——皆僅能應對其中一部分。
之难,复引新弊,若信息散失于块界
之间,检索质损,或记忆之费不可持继.
吾辈创MAXTOKEN,乃筑AI之全法,极尽令用户得文,而存其贯,具其宜,且济其用。
迟滞。此框架含七层相扣:一曰混合SSM-Transformer
之构,兼融Mamba-3线性时序之处理与稀疏之关注;
二曰Infini-Attention,以压缩之忆为无界输入之用;三曰生成之态。
引擎(GSE)具层级之忆,可无界输出;四曰自适应之推测解码;五曰层级KV缓存管理;六曰三目标训练之规。
为远期一致;且(7)应用层会话协议。
吾等推此至MAXTOKEN-Code,引入逻辑状态引擎(LSE),
句法加权无限注意力(SWIA),及逻辑一致性验证(LCV)
之模块。吾等为诸要义提供缜密之数学证明,每定理
皆精确对应其所述之假设。
文件
MAXTOKEN_v4_Corrected.pdf
附加详情
- 瓦桑维,阿,沙泽尔,纳,帕尔玛,纳,乌斯库雷特,杰,琼斯,勒,戈麦斯,阿,奈,凯撒,拉,波洛苏金,伊。(二零一七)。注意力即所需。神经信息处理系统进展(神经信息处理系统),三十。












