当前位置: 首页 > 科技资讯 > 微软Q-Sparse模型革新成效:8B参数效率比肩7B模型,训练与微调更加高效

微软Q-Sparse模型革新成效:8B参数效率比肩7B模型,训练与微调更加高效

发布时间:2024-07-28 20:03:39 作者:电子资源网 阅读:1次

近期,Q-Sparse方法作为近期研究的亮点,通过引入量化和稀疏化技术,有效缓解了这一挑战,旨在提升模型效率的同时保持其性能表现,这为LLMs的实际应用开辟了新的可能性,是迈向更广泛、成本效益更高的人工智能解决方案的重要一步。

微软Q-Sparse模型革新成效:8B参数效率比肩7B模型,训练与微调更加高效

Q-Sparse是一种简单但有效的方法,它通过在激活中应用top-K稀疏化和训练中的直通估计器,实现了LLMs的完全稀疏激活。这意味着在推理时可以显著提高效率。关键的研究成果包括:

Q-Sparse在保持与基线LLMs相当的结果的同时,推理效率更高。

提出了一种适用于稀疏激活LLMs的推理最优扩展法则。

Q-Sparse在不同设置中均有效,包括从头开始训练、现成LLMs的继续训练和微调。

Q-Sparse适用于全精度和1位LLMs(例如BitNet b1.58)。

稀疏激活的优势

稀疏性通过两种方式提高LLMs的效率:首先,稀疏性可以减少矩阵乘法的计算量,因为零元素不会被计算;其次,稀疏性可以减少输入/输出(I/O)的传输量,这是LLMs推理阶段的主要瓶颈。

Q-Sparse通过在每个线性投影中应用top-K稀疏化函数来实现激活的全稀疏性。对于反向传播,使用直通估计器计算激活的梯度。此外,还引入了平方ReLU函数来进一步提高激活的稀疏性。

实验验证

研究人员通过一系列扩展实验研究了稀疏激活LLMs的扩展法则,并得出了一些有趣的发现:

稀疏激活模型的性能随着模型大小和稀疏比率的增加而提高。

给定固定的稀疏比率S,稀疏激活模型的性能与模型大小N呈幂律扩展法则。给定固定的参数N,稀疏激活模型的性能与稀疏比率S呈指数律扩展法则。

Q-Sparse不仅可以用于从头开始训练,还可以用于现成LLMs的继续训练和微调。在继续训练和微调设置中,研究人员使用与从头开始训练相同的架构和训练过程,唯一的区别是使用预训练权重初始化模型,并启用稀疏函数继续训练。

研究人员正在探索将Q-Sparse与1位LLMs(如BitNet b1.58)和混合专家(MoE)结合使用,以进一步提高LLMs的效率。此外,他们还在努力使Q-Sparse与批量模式兼容,这将为LLMs的训练和推理提供更多的灵活性。

微软正式发布使用Rust语言重写的开发工具,安装体积缩小1/100

在之前的消息中,微软在 2017 年发布了 Azure Quantum 开发工具(QDK),主要用于 Azure 量子开发。到了 2023 年微软宣布使用 Rust 语言重写相关工具,目前官方发布新闻稿,声称已经完成相关重写工作。

微软正式发布使用Rust语言重写的开发工具,安装体积缩小1/100

据悉,官方宣称使用 Rust 重写的 Azure Quantum 开发工具 1.0 版本“速度提升超过 100 倍、安装体积缩小 1/100”,整体安装和开发流程更简便,甚至相关工具在浏览器中都可以适用。

旧版开发工具基于 .NET,开发者使用该工具时,需要先学习 .NET,这增加了额外的学习成本,除此之外,旧版开发工具不完全兼容 Apple Silicon 和 ARM64 版 Windows,因此安装使用成本较为复杂。

因此微软决定通过重新设计开发工具降低开发门槛,主要简化“安装、学习、开发、维护”等任务,并尽可能利用 Rust 语言重写整个项目,这是因为“Rust 语言相对更普适化,并允许相关应用可以在浏览器中工作”。

新版开发工具改进成果相当显著,号称“体积缩小超过 100 倍”,微软同时提到,“原本的开发工具会在本地产生超过 180 MB 的占用,现在新的 VS Code 扩充套件的 VSIX 只有约为 700KB,其中包含开发所需要的所有内容,而安装也仅需要几秒钟”。

在效率方面,新版开发工具也有大幅提升,微软宣称,过去编译需要以分钟计时,而现在编译只要“毫秒时间”,甚至“在浏览器中也能获得这样的高效体验”。

微软SharePoint曝出高危漏洞,存在远程执行任意指令风险

1 月 13 日消息,CISA近日发布警告,现有证据表明有黑客利用微软 SharePoint 中的提权漏洞,配合另一个“关键”级别漏洞,能远程执行任意命令。

该漏洞追踪编号为 CVE-2023-29357,远程攻击者可利用欺骗的 JWT 验证令牌规避身份验证,从而在未打补丁的服务器上获得管理权限。

微软SharePoint曝出高危漏洞,存在远程执行任意指令风险

微软解释说:“获得欺骗性 JWT 身份验证令牌的攻击者可以利用这些令牌执行网络攻击,从而绕过身份验证,获得已通过身份验证用户的权限。成功利用此漏洞的攻击者可获得管理员权限。”

攻击者再配合追踪编号为 CVE-2023-24955 SharePoint Server 远程代码执行漏洞,可以在 SharePoint 服务器上注入命令,执行任意代码。

STAR 实验室研究员 Jang(Nguyễn Tiến Giang)于去年 3 月在温哥华举行的 Pwn2Own 竞赛中成功演示了这个 Microsoft SharePoint Server 漏洞链,并赢得了 10 万美元(备注:当前约 71.7 万元人民币)的奖励。

研究人员于 9 月 25 日发表了一份技术分析报告,详细描述了开采过程。仅一天后,一名安全研究人员也在 GitHub 上发布了 CVE-2023-29357 概念验证漏洞。

微软确认于2026年终止对Windows Mixed Reality的支持,后续不再为其提供更新

近日消息,微软上个月宣布弃用 Windows Mixed Reality,虽然用户仍然可以主动下载安装,但微软后续不再为其提供更新,也不会再将其预装到 Windows 11 及后续版本中。

微软确认于2026年终止对Windows Mixed Reality的支持,后续不再为其提供更新

微软现确认,该公司将在 2026 年 11 月 1 日正式终止对 Windows Mixed Reality 消费者版本(家庭版和专业版)的支持,而企业版则是 2027 年 11 月 1 日,结束支持后微软不再向其发布任何功能更新、Bug 修复程序和安全补丁。

微软表示,支持结束并不意味着微软会直接禁用这些设备,即便在 2026 年 11 月 / 2027 年 11 月之后,用户仍然可以继续使用现有 Windows Mixed Reality 头显设备,用户届时仍然可以运行兼容的软件和游戏(前提是不更新,升级到不包含 WMR 的新版本将导致这些 VR 设备无法兼容 Steam)。

系统之家提醒,已经购买 Windows Mixed Reality 沉浸式头显设备的用户需要尽早下载安装 Windows Mixed Reality 并将自己的设备更新到仍支持 WMR 的最新 Windows 版本,以免之后忘记,导致在微软下架后无法下载和更新固件。

渝ICP备20008086号-14 违法和不良信息举报/未成年人举报:dzjswcom@163.com

CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved