近日消息,智源研究院新近宣布了三项先进的向量模型研究成果,这些模型在向量检索领域取得了显著成效,成功超越了多项行业评估标准,树立了新的性能标杆,为人工智能领域的信息检索与处理技术进步做出了重要贡献。
这三款模型分别是:
BGE-EN-ICL:一个英文向量模型,通过引入任务相关的查询-文档示例作为少量示例,增强了模型的语义表达能力。
BGE-Multilingual-Gemma2:一个多语言向量模型,表现出色,尤其是在中英文能力提升方面。
BGE-Reranker-v2.5-Gemma2-Lightweight:一个多语言重排序模型,通过优化设计,支持逐层提前输出和token压缩,节省了计算资源。
这些模型基于大语言模型进行训练,具备卓越的领域适应能力和广泛的泛化性能。它们还采用了情境学习能力和蒸馏技术,提升了模型的整体性能和检索任务中的能力。BGE-Reranker-v2.5-Gemma2-Lightweight模型特别注重轻量化设计,使其在保持卓越性能的同时更加高效。
在实验结果中,这些模型在MTEB、BEIR、AIR-Bench等多个评测基准中表现出色。BGE-Multilingual-Gemma2在多语言能力方面表现突出,尤其是在中英文能力提升方面。
BGE-EN-ICL在few-shot表现上尤为突出。BGE-Reranker-v2.5-Gemma2-Lightweight在重排任务中也达到了更好的结果,并在节省计算资源的情况下保证了优越的效果。
近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。
FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。
这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。
Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
近日消息,智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
影音播放
43.65MB
61.71MB
生活休闲
29.35MB
摄影图像
22.20MB
实用工具
6.70MB
学教育婴
0KB
社交通讯
40.14MB
新闻阅读
48.13MB
17.29MB
战争策略
453.99MB
113.55MB
休闲益智
7.29MB
推理解谜
158.11MB
17.09MB
动作冒险
99.46MB
角色扮演
1.22GB
41.41MB
45.43MB
渝ICP备20008086号-14 违法和不良信息举报/未成年人举报:dzjswcom@163.com
CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved
智源BGE新模型登场,刷新纪录:三大创新,成就向量检索巅峰表现
近日消息,智源研究院新近宣布了三项先进的向量模型研究成果,这些模型在向量检索领域取得了显著成效,成功超越了多项行业评估标准,树立了新的性能标杆,为人工智能领域的信息检索与处理技术进步做出了重要贡献。
这三款模型分别是:
BGE-EN-ICL:一个英文向量模型,通过引入任务相关的查询-文档示例作为少量示例,增强了模型的语义表达能力。
BGE-Multilingual-Gemma2:一个多语言向量模型,表现出色,尤其是在中英文能力提升方面。
BGE-Reranker-v2.5-Gemma2-Lightweight:一个多语言重排序模型,通过优化设计,支持逐层提前输出和token压缩,节省了计算资源。
这些模型基于大语言模型进行训练,具备卓越的领域适应能力和广泛的泛化性能。它们还采用了情境学习能力和蒸馏技术,提升了模型的整体性能和检索任务中的能力。BGE-Reranker-v2.5-Gemma2-Lightweight模型特别注重轻量化设计,使其在保持卓越性能的同时更加高效。
在实验结果中,这些模型在MTEB、BEIR、AIR-Bench等多个评测基准中表现出色。BGE-Multilingual-Gemma2在多语言能力方面表现突出,尤其是在中英文能力提升方面。
BGE-EN-ICL在few-shot表现上尤为突出。BGE-Reranker-v2.5-Gemma2-Lightweight在重排任务中也达到了更好的结果,并在节省计算资源的情况下保证了优越的效果。
智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源
近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。
FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。
这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。
Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。
智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
智源研究院推出1bit轻量化预训练模型BiPFT,平均性能超过了15.4%
近日消息,智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
影音播放
43.65MB
影音播放
61.71MB
生活休闲
29.35MB
摄影图像
22.20MB
实用工具
6.70MB
学教育婴
0KB
社交通讯
40.14MB
新闻阅读
48.13MB
学教育婴
17.29MB
战争策略
453.99MB
战争策略
113.55MB
休闲益智
7.29MB
推理解谜
158.11MB
休闲益智
17.09MB
动作冒险
99.46MB
角色扮演
1.22GB
休闲益智
41.41MB
动作冒险
45.43MB