当前位置：首页 > 科技资讯 > 微软Q-Sparse模型革新成效：8B参数效率比肩7B模型，训练与微调更加高效

微软Q-Sparse模型革新成效：8B参数效率比肩7B模型，训练与微调更加高效

发布时间：2024-07-28 20:03:39 作者：电子资源网阅读：3次

近期，Q-Sparse方法作为近期研究的亮点，通过引入量化和稀疏化技术，有效缓解了这一挑战，旨在提升模型效率的同时保持其性能表现，这为LLMs的实际应用开辟了新的可能性，是迈向更广泛、成本效益更高的人工智能解决方案的重要一步。

Q-Sparse是一种简单但有效的方法，它通过在激活中应用top-K稀疏化和训练中的直通估计器，实现了LLMs的完全稀疏激活。这意味着在推理时可以显著提高效率。关键的研究成果包括:

Q-Sparse在保持与基线LLMs相当的结果的同时，推理效率更高。

提出了一种适用于稀疏激活LLMs的推理最优扩展法则。

Q-Sparse在不同设置中均有效，包括从头开始训练、现成LLMs的继续训练和微调。

Q-Sparse适用于全精度和1位LLMs（例如BitNet b1.58）。

稀疏激活的优势

稀疏性通过两种方式提高LLMs的效率:首先，稀疏性可以减少矩阵乘法的计算量，因为零元素不会被计算;其次，稀疏性可以减少输入/输出（I/O）的传输量，这是LLMs推理阶段的主要瓶颈。

Q-Sparse通过在每个线性投影中应用top-K稀疏化函数来实现激活的全稀疏性。对于反向传播，使用直通估计器计算激活的梯度。此外，还引入了平方ReLU函数来进一步提高激活的稀疏性。

实验验证

研究人员通过一系列扩展实验研究了稀疏激活LLMs的扩展法则，并得出了一些有趣的发现:

稀疏激活模型的性能随着模型大小和稀疏比率的增加而提高。

给定固定的稀疏比率S，稀疏激活模型的性能与模型大小N呈幂律扩展法则。给定固定的参数N，稀疏激活模型的性能与稀疏比率S呈指数律扩展法则。

Q-Sparse不仅可以用于从头开始训练，还可以用于现成LLMs的继续训练和微调。在继续训练和微调设置中，研究人员使用与从头开始训练相同的架构和训练过程，唯一的区别是使用预训练权重初始化模型，并启用稀疏函数继续训练。

研究人员正在探索将Q-Sparse与1位LLMs（如BitNet b1.58）和混合专家(MoE)结合使用，以进一步提高LLMs的效率。此外，他们还在努力使Q-Sparse与批量模式兼容，这将为LLMs的训练和推理提供更多的灵活性。

微软正式发布使用Rust语言重写的开发工具，安装体积缩小1/100

在之前的消息中，微软在 2017 年发布了 Azure Quantum 开发工具（QDK），主要用于 Azure 量子开发。到了 2023 年微软宣布使用 Rust 语言重写相关工具，目前官方发布新闻稿，声称已经完成相关重写工作。

微软正式发布使用Rust语言重写的开发工具，安装体积缩小1/100

据悉，官方宣称使用 Rust 重写的 Azure Quantum 开发工具 1.0 版本“速度提升超过 100 倍、安装体积缩小 1/100”，整体安装和开发流程更简便，甚至相关工具在浏览器中都可以适用。

旧版开发工具基于 .NET，开发者使用该工具时，需要先学习 .NET，这增加了额外的学习成本，除此之外，旧版开发工具不完全兼容 Apple Silicon 和 ARM64 版 Windows，因此安装使用成本较为复杂。

因此微软决定通过重新设计开发工具降低开发门槛，主要简化“安装、学习、开发、维护”等任务，并尽可能利用 Rust 语言重写整个项目，这是因为“Rust 语言相对更普适化，并允许相关应用可以在浏览器中工作”。

新版开发工具改进成果相当显著，号称“体积缩小超过 100 倍”，微软同时提到，“原本的开发工具会在本地产生超过 180 MB 的占用，现在新的 VS Code 扩充套件的 VSIX 只有约为 700KB，其中包含开发所需要的所有内容，而安装也仅需要几秒钟”。

在效率方面，新版开发工具也有大幅提升，微软宣称，过去编译需要以分钟计时，而现在编译只要“毫秒时间”，甚至“在浏览器中也能获得这样的高效体验”。

微软SharePoint曝出高危漏洞，存在远程执行任意指令风险

1 月 13 日消息，CISA近日发布警告，现有证据表明有黑客利用微软 SharePoint 中的提权漏洞，配合另一个“关键”级别漏洞，能远程执行任意命令。

该漏洞追踪编号为 CVE-2023-29357，远程攻击者可利用欺骗的 JWT 验证令牌规避身份验证，从而在未打补丁的服务器上获得管理权限。

微软SharePoint曝出高危漏洞，存在远程执行任意指令风险

微软解释说：“获得欺骗性 JWT 身份验证令牌的攻击者可以利用这些令牌执行网络攻击，从而绕过身份验证，获得已通过身份验证用户的权限。成功利用此漏洞的攻击者可获得管理员权限。”

攻击者再配合追踪编号为 CVE-2023-24955 SharePoint Server 远程代码执行漏洞，可以在 SharePoint 服务器上注入命令，执行任意代码。

STAR 实验室研究员 Jang（Nguyễn Tiến Giang）于去年 3 月在温哥华举行的 Pwn2Own 竞赛中成功演示了这个 Microsoft SharePoint Server 漏洞链，并赢得了 10 万美元（备注：当前约 71.7 万元人民币）的奖励。

研究人员于 9 月 25 日发表了一份技术分析报告，详细描述了开采过程。仅一天后，一名安全研究人员也在 GitHub 上发布了 CVE-2023-29357 概念验证漏洞。

微软确认于2026年终止对Windows Mixed Reality的支持，后续不再为其提供更新

近日消息，微软上个月宣布弃用 Windows Mixed Reality，虽然用户仍然可以主动下载安装，但微软后续不再为其提供更新，也不会再将其预装到 Windows 11 及后续版本中。

微软确认于2026年终止对Windows Mixed Reality的支持，后续不再为其提供更新

微软现确认，该公司将在 2026 年 11 月 1 日正式终止对 Windows Mixed Reality 消费者版本（家庭版和专业版）的支持，而企业版则是 2027 年 11 月 1 日，结束支持后微软不再向其发布任何功能更新、Bug 修复程序和安全补丁。

微软表示，支持结束并不意味着微软会直接禁用这些设备，即便在 2026 年 11 月 / 2027 年 11 月之后，用户仍然可以继续使用现有 Windows Mixed Reality 头显设备，用户届时仍然可以运行兼容的软件和游戏（前提是不更新，升级到不包含 WMR 的新版本将导致这些 VR 设备无法兼容 Steam）。

系统之家提醒，已经购买 Windows Mixed Reality 沉浸式头显设备的用户需要尽早下载安装 Windows Mixed Reality 并将自己的设备更新到仍支持 WMR 的最新 Windows 版本，以免之后忘记，导致在微软下架后无法下载和更新固件。