当前位置：首页 > 科技资讯 > 智源BGE新模型登场，刷新纪录：三大创新，成就向量检索巅峰表现

智源BGE新模型登场，刷新纪录：三大创新，成就向量检索巅峰表现

发布时间：2024-07-30 22:07:47 作者：电子资源网阅读：2次

近日消息，智源研究院新近宣布了三项先进的向量模型研究成果，这些模型在向量检索领域取得了显著成效，成功超越了多项行业评估标准，树立了新的性能标杆，为人工智能领域的信息检索与处理技术进步做出了重要贡献。

这三款模型分别是：

BGE-EN-ICL：一个英文向量模型，通过引入任务相关的查询-文档示例作为少量示例，增强了模型的语义表达能力。

BGE-Multilingual-Gemma2：一个多语言向量模型，表现出色，尤其是在中英文能力提升方面。

BGE-Reranker-v2.5-Gemma2-Lightweight：一个多语言重排序模型，通过优化设计，支持逐层提前输出和token压缩，节省了计算资源。

这些模型基于大语言模型进行训练，具备卓越的领域适应能力和广泛的泛化性能。它们还采用了情境学习能力和蒸馏技术，提升了模型的整体性能和检索任务中的能力。BGE-Reranker-v2.5-Gemma2-Lightweight模型特别注重轻量化设计，使其在保持卓越性能的同时更加高效。

在实验结果中，这些模型在MTEB、BEIR、AIR-Bench等多个评测基准中表现出色。BGE-Multilingual-Gemma2在多语言能力方面表现突出，尤其是在中英文能力提升方面。

BGE-EN-ICL在few-shot表现上尤为突出。BGE-Reranker-v2.5-Gemma2-Lightweight在重排任务中也达到了更好的结果，并在节省计算资源的情况下保证了优越的效果。

智源研究院公布Tele-FLM-1T：全球首个人工智能万亿级密集模型开源

近日消息，北京智源人工智能研究院与中国电信人工智能研究院（TeleAI）合作升级了Tele-FLM系列大模型，最新发布包含52B指令模型FLM-2-52B-Instruct，以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布，相关技术文档与模型checkpoint均已开源，为全球AI研究社区贡献了宝贵资源。

智源研究院公布Tele-FLM-1T：全球首个人工智能万亿级密集模型开源

FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型，专注于提升中文对话能力。通过监督微调，使用100万条开源指令数据进行训练，最终基于3万条数据的子集获得了最优结果。

这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置，并在AlignBench评测平台上进行了评测。结果显示，FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。

Tele-FLM-1T是全球首个开源的万亿参数稠密模型，采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进，包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长，使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。

智源研究院联合清华共同推出生成模型GeoDream，解决3D结构不一致性的问题

智源研究院是人工智能领域的新型研发机构，在近日，智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream，能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。

智源研究院联合清华共同推出生成模型GeoDream，解决3D结构不一致性的问题

与传统的方法不同，GeoDream 通过解耦的方式利用2D 和3D 先验，解决了3D 结构不一致性的问题，并支持导出高保真的 texture meshes 和高分辨率的渲染图片。

该模型还提供了 Uni3D metric，用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源，并已集成到 threestudio 等开源库中。

该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验，并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。

此外，GeoDream 还提供了新的量化指标和评价方法，以更好地度量和比较生成的3D 模型的质量。最后，GeoDream 展示了对复杂输入的生成结果，支持导出 meshes 和高分辨率 UV maps，方便后续的3D 创作和应用。

智源研究院推出1bit轻量化预训练模型BiPFT，平均性能超过了15.4%

近日消息，智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比，BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。

智源研究院推出1bit轻量化预训练模型BiPFT，平均性能超过了15.4%

与以往的1bit 量化方法不同，BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练，而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。

另外，智源团队还创新地采用了一种数据驱动的1bit 量化方法，通过对自注意力操作中的1bit 量化误差进行参数化，减少了量化损失。

实验结果表明，BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时，该模型在不同超参数设定下都能取得更好的效果，具有较好的独立学习能力和超参数鲁棒性。