当前位置: 首页 > 科技资讯 > 智谱AI解锁视频智慧之门:开源新型时间感知模型CogVLM2-Video

智谱AI解锁视频智慧之门:开源新型时间感知模型CogVLM2-Video

发布时间:2024-07-30 01:08:01 作者:电子资源网 阅读:3次

近日消息,智谱AI最近宣布了其在视频理解领域的重大突破,通过开源升级了CogVLM2-Video模型。这一升级标志着在处理复杂视频数据方面的重要进展,特别是针对时间信息的精准捕捉和理解。

智谱AI解锁视频智慧之门:开源新型时间感知模型CogVLM2-Video

模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。

CogVLM2-Video通过从输入视频中提取帧并注释时间戳信息,使语言模型能准确知道每一帧的对应时间,从而实现时间定位和相关问答。

为了大规模训练,开发了自动化的视频问答数据生成流程,通过图像理解模型和大型语言模型的结合使用,减少了标注成本并提高了数据质量。最终构造的Temporal Grounding Question and Answer (TQA)数据集包含3万条记录,为模型训练提供了丰富的时间定位数据。

在多个公开评测集上,CogVLM2-Video展现了卓越的性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。

智谱AI引领开源创新:CodeGeeX4-ALL-9B代码生成大模型震撼发布

近日消息,由智谱 AI 开发的 CodeGeeX 第四代模型,现已正式发布且开源。该模型属于 10B 参数以下性能最为出色、功能最为全面的代码生成大模型。自 2014 年发布第一代起,每半年便会进行一次更新,一直致力于增强代码生成的能力。

智谱AI引领开源创新:CodeGeeX4-ALL-9B代码生成大模型震撼发布

CodeGeeX提供代码补全、注释、修复、翻译等基础功能,以及联网问答、代码解释器、检索增强等高级功能,对个人用户完全免费,并在各种主流IDE中可用。个人用户数已超100万,企业版本也广泛应用于多个行业,并在中国信通院的评估中获得高评级。

CodeGeeX4系列模型的开源版本CodeGeeX4-ALL-9B,集多种编程开发功能于一体,覆盖了编程的多个场景,并在多个代码评测集上表现优异,展现了强大的代码生成能力。模型支持128K上下文,处理长代码文件,并在代码检索任务中实现100%准确度。此外,CodeGeeX4-ALL-9B是唯一实现Function Call的代码大模型,在函数调用测试中成功率超过90%。

CodeGeeX插件v2.12.0版本已全面接入第四代模型,带来更快的代码生成速度和多项功能创新,如自动生成项目README文件、长文本上下文记忆、跨文件分析和问答、本地模式支持,以及NL2SQL能力提升。这些功能增强了代码查找、理解和维护的效率,提升了开发体验。

用户可以通过升级IDE中的CodeGeeX插件或在插件市场搜索下载来体验最新技术。同时,智谱AI还发布了企业级CodeGeeX4代软硬一体机产品,提供代码仓库级补写、问答和检索增强,支持信创方案,适用于更多企业级应用场景。

智谱AI张鹏展望文生视频未来:辅助影视制作已成现实,电影革新尚需时日

近日消息,智谱CEO张鹏在最近的采访中探讨了生成式AI文生视频技术对影视产业的潜在影响,特别提及OpenAI的Sora技术问世后,该领域的话题热度持续攀升。他指出,这一技术革命在国外已引发显著反响,甚至促成好莱坞相关的行业行动,显示出技术进步对传统影视制作流程的深刻挑战与变革。

智谱AI张鹏展望文生视频未来:辅助影视制作已成现实,电影革新尚需时日

张鹏透露,自己有一次在北京电影学院与教师一同讨论此事,众人得出了一致的看法:从技术发展角度来看,大家都认为 AI 的发展“是很好的事情”,也是“很重要的方向”,对影视行业的变化有积极意义。

张鹏表示,从目前来看,“至少也觉得如果把这项技术用在直接面向最终观众的生产过程当中,可能还是不太够。”因此,(文生视频)可用来做一些辅助的工作,甚至一些小规模的创作,比如有些专业玩家玩出来的短片。但真要达到改变电影的制作等级这样的更高要求,可能还需一段路来走。

据早些时候报道,智谱宣布升级视频生成模型,并正式推出新一代产品 ——CogVideoX。CogVideoX 模型目前已在智谱清言的 PC 端、移动应用端以及小程序端正式上线。所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」(Ying),免费体验 AI 文本生成视频和图像生成视频的服务。

智谱AI宣布两大旗舰模型——GLM-4-9B与CodeGeeX4-ALL-9B,现已兼容Ollama框架

近日消息,智谱人工智能研究团队对外宣布,其核心产品GLM-4-9B与CodeGeeX4-ALL-9B模型已成功适配Ollama部署平台,标志着在语言理解和代码生成领域的重要模型应用将得到更广泛的普及与便捷化实施。

智谱AI宣布两大旗舰模型——GLM-4-9B与CodeGeeX4-ALL-9B,现已兼容Ollama框架

GLM-4-9B是智谱AI推出的开源预训练模型,属于GLM-4系列,它在语义、数学、推理、代码和知识等多方面展现出卓越的能力。CodeGeeX4-ALL-9B是在GLM-4-9B基础上训练的多语言代码生成模型,进一步提升了代码生成能力。

Ollama是一个工具,专为本地环境中运行和定制大型语言模型设计,它提供了简单高效的接口和丰富的预构建模型库,支持macOS、Windows、Linux和Docker等多种操作系统。用户可以通过Ollama方便地部署和运行GLM-4-9B等开源大语言模型,并通过网页、桌面应用和终端界面与模型互动。

目前Ollama0.2或更高版本支持语言模型的部署,但多模态模型还不支持。

渝ICP备20008086号-14 违法和不良信息举报/未成年人举报:dzjswcom@163.com

CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved