当前位置：首页 > 科技资讯 > 商汤科技震撼发布Vimi：革新可控人物视频生成技术

商汤科技震撼发布Vimi：革新可控人物视频生成技术

发布时间：2024-08-02 01:09:23 作者：电子资源网阅读：2次

近日消息，全球领先的人工智能企业商汤科技在2024世界人工智能大会上，隆重推出了其最新研发成果——Vimi，一款革命性的可控人物视频生成算法模型。

Vimi的亮相不仅标志着商汤科技在AI视频生成领域的又一里程碑，更因其卓越的性能和创新性，被评选为本届大会的“镇馆之宝”。

Vimi作为商汤科技基于其强大的日日新大模型能力研发的产物，实现了前所未有的视频生成灵活性。它能够灵活接收来自动作视频、精美动画、丰富声音素材乃至文字描述的多元化输入，作为驱动元素，精准地操控并转化人物类图片，最终生成与目标动作完美匹配的人物视频。这一过程不仅展现了AI技术对于复杂场景的高度适应性，也体现了商汤在视频生成技术上的深厚积累。

尤为值得一提的是，Vimi在可控性上的卓越表现。它超越了传统图片表情控制技术的局限，不仅能够细腻地调整人物的表情变化，更实现了对肢体动作的精准操控。这一突破性的能力使得Vimi能够生成出既符合逻辑又生动自然的视频内容，同时，在头发、服饰、背景等细节处理上也达到了前所未有的精细度，支持光影的自然变化，为观众带来沉浸式的视觉体验。

在视频生成的稳定性与时长上，Vimi同样展现出了非凡的实力。它能够稳定地生成长达1分钟的单镜头人物视频，这一成就突破了现有大模型AI视频生成在时长上的限制。更重要的是，随着视频时长的增加，Vimi生成的视频画面质量始终保持如一，不会出现劣化或失真的情况，确保了视频内容的连贯性和高质量。

商汤科技携手中国国家篮球队，共创AI驱动的篮球智慧训练平台

近日消息，商汤科技与中国国家篮球队携手，宣布了一项具有里程碑意义的战略合作。双方将充分利用商汤科技的“日日新SenseNova5.5”大模型技术，共同研发一系列AI篮球产品，旨在促进人工智能技术与篮球乃至整个体育产业的深度融合。

商汤科技携手中国国家篮球队，共创AI驱动的篮球智慧训练平台

商汤科技将成为中国国家篮球队的人工智能战略合作伙伴，共同打造运动表现分析平台，通过AI技术提升运动员的训练效率和竞技水平。

商汤AI大模型篮球产品通过三维模型构建和3D动作捕捉算法，实时分析球员运动状态和篮球轨迹，为教练团队提供数据支持，辅助优化训练策略。该技术已在中国三人篮球国家队的日常训练中得到应用，助力运动员提升竞技水平，增强中国篮球在国际舞台上的竞争力。

商汤AI大模型篮球产品不仅在竞技体育中发挥作用，也在青训体育与大众体育领域有广泛应用前景。商汤科技将继续探索AI技术在篮球及体育产业的创新应用，为建设体育强国贡献力量。此次合作标志着智能技术与篮球运动的全面深度融合，预示着智能技术将成为提升运动员表现的强大动力。

商汤科技携手DTGO集团，革新推出“东风”多语种大模型：开创泰、中、英三语无缝交流新时代

近日消息，商汤科技联合泰国DTGO集团及其子公司Quinnnova共同推出了一个名为“东风”（DTLM）的泰语大模型。这个大模型具有跨语言工作的能力，能够在泰文、中文、英文三种语言环境中高效运行，这在全球范围内尚属首次。

商汤科技携手DTGO集团，革新推出“东风”多语种大模型：开创泰、中、英三语无缝交流新时代

“东风”号称全球首个能在泰文、中文、英文三种语言环境下高效工作的 AI 大语言模型，将商汤的基模型和算力优势与 DTGO 的泰国语言文化优势相结合，提供本地化的生成式 AI 体验。其能够实现自然、流畅的实时对话、文本阅读理解等功能。

官方表示，“东风”来自在中泰两国都深受欢迎的中国古典名著《三国演义》，寓意两国自古以来的文化交流，借生成式 AI 时代的东风进一步发扬光大。

“东风”大模型初期将专注于为企业用户提供服务。官方表示，将助力当地用户业务降本增效。

据此前报道，商汤科技 9 日宣布，旗下 Sensechat 手机 App 及网页版向香港用户免费开放。该服务此前已在中国大陆推出。

商汤“书生・浦语”2.0大语言模型正式开源：可提供免费商用授权

商汤科技是一家行业领先的人工智能软件公司，在近日，商汤科技与上海 AI 实验室联合香港中文大学和复旦大学今日发布了新一代大语言模型书生・浦语 2.0（InternLM2）。

商汤“书生・浦语”2.0大语言模型正式开源：可提供免费商用授权

据介绍，InternLM2 是在 2.6 万亿 token 的语料上训练得到的。沿袭第一代书生・浦语（InternLM）设定，InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本，继续开源，提供免费商用授权。

目前，浦语背后的数据清洗过滤技术已经历三轮迭代升级，号称仅使用约 60% 的训练数据即可达到使用第二代数据训练 1T tokens 的性能表现。

与第一代 InternLM 相比，InternLM2 在大规模高质量的验证语料上的 Loss 分布整体左移，表明其语言建模能力增强。

通过拓展训练窗口大小和位置编码改进，InternLM2 支持 20 万 tokens 的上下文，能够一次性接受并处理约 30 万汉字（约五六百页的文档）的输入内容。

下面表格对比了 InternLM2 各版本与 ChatGPT（GPT-3.5）以及 GPT-4 在典型评测集上的表现。可以看到，InternLM2 在 20B 参数的中等规模上，整体表现接近 ChatGPT。

商汤“书生・浦语”2.0大语言模型正式开源：可提供免费商用授权