近日消息,在OpenAI实施的“防备框架”评估体系内,其新推出的o1 AI模型被评定为“中等风险”级别,此举反映出公司在管理高级人工智能模型潜在影响方面的审慎态度和风险管理措施。
防备框架简介
曾于 2023 年 12 月报道,OpenAI 成立了新的“防备”(Preparedness)团队,并提出“防备框架”指导方针。
防备团队将反复评估 OpenAI 最先进、尚未发布的 AI 模型,根据不同类型的感知风险评为四个等级,从低到高依次是“低”、“中”、“高”和“严重”。根据新的指导方针,OpenAI 将只推出评级为“低”和“中”的模型。
OpenAI o1 模型
OpenAI 公司在官方新闻稿中表示,最终确定 o1 模型归类为“中等风险”主要有以下两个原因:
类人推理能力
o1 模型展现出类似人类的推理能力,并能在类似主题上产生与人类撰写同样令人信服的论点。
这种说服力并非 o1 独有,先前的 AI 模型也已展示出此能力,有时甚至超越人类表现。
可辅助制作生物武器
评估显示,o1 模型能辅助专家复制已知生物武器威胁。
OpenAI 宣称,o1 模型显著提升数学和科学领域的能力。
例如,在全美奥林匹克数学队()USA Mathematical Olympiad,简称 USAMO)的预选赛中,新模型的表现能跻身美国前 500 名学生之列,并且在物理、生物和化学问题的基准测试中,准确度超过了人类博士水平。
OpenAI 首次将其模型在化学、生物、放射性和核武器(CBRN)风险方面的评级定为“中性”。这些模型的发布伴随着对其潜在危险的多次警告。
8月15日消息,OpenAI在此前发布的新闻稿中揭晓了SWE-bench Verified,这是一项创新的代码生成评估标准,针对性地改进了过往评估方法的局限性,旨在为人工智能模型在软件开发任务上的性能提供更为精准的衡量尺度。此基准的推出预示着AI辅助编程领域迈向了一个新的精准度时代。
SWE-bench
注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。
它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 issue 描述的问题。
该基准使用两种类型的测试:
FAIL_TO_PASS 测试用于检查问题是否已得到解决
PASS_TO_PASS 测试用于确保代码更改不会破坏现有功能。
SWE-bench 的问题
OpenAI 指出了 SWE-bench 的三个主要问题:
单元测试过于严格:用于评估解决方案正确性的单元测试往往过于具体,有时甚至与问题无关,这可能导致拒绝正确的解决方案。
问题描述不明确:许多样本的问题描述不够具体,导致问题是什么以及应如何解决含糊不清。
开发环境难以设置:有时很难可靠地为代理设置 SWE-bench 开发环境,从而无意中导致单元测试失败。
SWE-bench Verified
SWE-bench Verified 的主要改进之一是使用容器化 Docker 环境开发了新的评估工具包。
这一改进旨在使评估过程更加一致和可靠,降低与开发环境设置相关的问题发生的可能性。
例如,GPT-4o 解决了 33.2% 的样本,而表现最佳的开源代理框架 Agentless 的得分翻了一番,达到 16%。
性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在软件工程任务中的真正能力。
近日消息,OpenAI最近公开表态,对加利福尼亚州一项聚焦AI安全监管的法案持反对意见。该法案在今年5月顺利通过州参议院的一致投票,旨在强制AI企业实施严格的预防措施,以遏制其技术被滥用于制造重大危害,例如协助开发能酿成人道灾难的生化武器,或是促成超过5亿美元(折合人民币约35.66亿元)的经济损失。此举凸显出在促进技术进步的同时,对AI伦理与安全监管的辩论日益激烈。
OpenAI 周三致函加州参议员斯科特·维纳办公室,称该法案将损害 AI 行业的创新,并认为其安全问题的监管应该由联邦政府而不是州政府来制定。
根据该法案,AI 公司需要确保其人工智能系统可以关闭,采取“合理措施”确保 AI 模型不会造成灾难,并向加州司法部长披露合规声明。如果不遵守这些要求,企业可能会被起诉并面临民事处罚。
该法案受到了许多主要科技公司、初创企业和风险投资家的强烈反对,他们表示,对于仍处于起步阶段的 AI 技术来说,这是过度干涉,可能会扼杀该州的技术创新。
OpenAI 表示,如果该法案通过,可能会对美国在人工智能和国家安全方面的竞争力产生“广泛和重大的”影响。
OpenAI 首席战略官杰森·权写道:“人工智能革命才刚刚开始,加州作为全球人工智能领导者的独特地位正在推动该州的经济增长。”“SB 1047(法案)将威胁到这种增长,减缓创新的步伐,并导致加州世界级的工程师和企业家离开该州,从而到其他地方寻找机会。”
由于对加州监管环境的不确定性,OpenAI 已暂停有关扩大其旧金山办公室的计划。
对于 OpenAI 的观点,维纳表示关于 AI 人才离开该州的论点“毫无意义”,因为该法律将适用于在加州开展业务的任何公司,无论办公室在哪里。
生活休闲
0KB
便携购物
129.93MB
18.74MB
实用工具
11.46MB
社交通讯
18.45MB
76.08MB
新闻阅读
208.39MB
角色扮演
157.08MB
休闲益智
战争策略
73MB
1.04GB
推理解谜
476.10MB
7.93MB
43.40MB
226.43MB
194.57MB
渝ICP备20008086号-14 违法和不良信息举报/未成年人举报:dzjswcom@163.com
CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved
OpenAI o1 AI模型被评定为中等级风险:涉及类人推理与潜在生物武器辅助设计
近日消息,在OpenAI实施的“防备框架”评估体系内,其新推出的o1 AI模型被评定为“中等风险”级别,此举反映出公司在管理高级人工智能模型潜在影响方面的审慎态度和风险管理措施。
防备框架简介
曾于 2023 年 12 月报道,OpenAI 成立了新的“防备”(Preparedness)团队,并提出“防备框架”指导方针。
防备团队将反复评估 OpenAI 最先进、尚未发布的 AI 模型,根据不同类型的感知风险评为四个等级,从低到高依次是“低”、“中”、“高”和“严重”。根据新的指导方针,OpenAI 将只推出评级为“低”和“中”的模型。
OpenAI o1 模型
OpenAI 公司在官方新闻稿中表示,最终确定 o1 模型归类为“中等风险”主要有以下两个原因:
类人推理能力
o1 模型展现出类似人类的推理能力,并能在类似主题上产生与人类撰写同样令人信服的论点。
这种说服力并非 o1 独有,先前的 AI 模型也已展示出此能力,有时甚至超越人类表现。
可辅助制作生物武器
评估显示,o1 模型能辅助专家复制已知生物武器威胁。
OpenAI 宣称,o1 模型显著提升数学和科学领域的能力。
例如,在全美奥林匹克数学队()USA Mathematical Olympiad,简称 USAMO)的预选赛中,新模型的表现能跻身美国前 500 名学生之列,并且在物理、生物和化学问题的基准测试中,准确度超过了人类博士水平。
OpenAI 首次将其模型在化学、生物、放射性和核武器(CBRN)风险方面的评级定为“中性”。这些模型的发布伴随着对其潜在危险的多次警告。
OpenAI发布SWE-bench Verified标准,精准衡量AI代码生成效能
8月15日消息,OpenAI在此前发布的新闻稿中揭晓了SWE-bench Verified,这是一项创新的代码生成评估标准,针对性地改进了过往评估方法的局限性,旨在为人工智能模型在软件开发任务上的性能提供更为精准的衡量尺度。此基准的推出预示着AI辅助编程领域迈向了一个新的精准度时代。
SWE-bench
注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。
它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 issue 描述的问题。
该基准使用两种类型的测试:
FAIL_TO_PASS 测试用于检查问题是否已得到解决
PASS_TO_PASS 测试用于确保代码更改不会破坏现有功能。
SWE-bench 的问题
OpenAI 指出了 SWE-bench 的三个主要问题:
单元测试过于严格:用于评估解决方案正确性的单元测试往往过于具体,有时甚至与问题无关,这可能导致拒绝正确的解决方案。
问题描述不明确:许多样本的问题描述不够具体,导致问题是什么以及应如何解决含糊不清。
开发环境难以设置:有时很难可靠地为代理设置 SWE-bench 开发环境,从而无意中导致单元测试失败。
SWE-bench Verified
SWE-bench Verified 的主要改进之一是使用容器化 Docker 环境开发了新的评估工具包。
这一改进旨在使评估过程更加一致和可靠,降低与开发环境设置相关的问题发生的可能性。
例如,GPT-4o 解决了 33.2% 的样本,而表现最佳的开源代理框架 Agentless 的得分翻了一番,达到 16%。
性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在软件工程任务中的真正能力。
OpenAI挺身而出:加州AI安全法案遭遇公开异议
近日消息,OpenAI最近公开表态,对加利福尼亚州一项聚焦AI安全监管的法案持反对意见。该法案在今年5月顺利通过州参议院的一致投票,旨在强制AI企业实施严格的预防措施,以遏制其技术被滥用于制造重大危害,例如协助开发能酿成人道灾难的生化武器,或是促成超过5亿美元(折合人民币约35.66亿元)的经济损失。此举凸显出在促进技术进步的同时,对AI伦理与安全监管的辩论日益激烈。
OpenAI 周三致函加州参议员斯科特·维纳办公室,称该法案将损害 AI 行业的创新,并认为其安全问题的监管应该由联邦政府而不是州政府来制定。
根据该法案,AI 公司需要确保其人工智能系统可以关闭,采取“合理措施”确保 AI 模型不会造成灾难,并向加州司法部长披露合规声明。如果不遵守这些要求,企业可能会被起诉并面临民事处罚。
该法案受到了许多主要科技公司、初创企业和风险投资家的强烈反对,他们表示,对于仍处于起步阶段的 AI 技术来说,这是过度干涉,可能会扼杀该州的技术创新。
OpenAI 表示,如果该法案通过,可能会对美国在人工智能和国家安全方面的竞争力产生“广泛和重大的”影响。
OpenAI 首席战略官杰森·权写道:“人工智能革命才刚刚开始,加州作为全球人工智能领导者的独特地位正在推动该州的经济增长。”“SB 1047(法案)将威胁到这种增长,减缓创新的步伐,并导致加州世界级的工程师和企业家离开该州,从而到其他地方寻找机会。”
由于对加州监管环境的不确定性,OpenAI 已暂停有关扩大其旧金山办公室的计划。
对于 OpenAI 的观点,维纳表示关于 AI 人才离开该州的论点“毫无意义”,因为该法律将适用于在加州开展业务的任何公司,无论办公室在哪里。
生活休闲
0KB
便携购物
129.93MB
生活休闲
18.74MB
生活休闲
0KB
生活休闲
18.74MB
实用工具
11.46MB
社交通讯
18.45MB
实用工具
76.08MB
新闻阅读
208.39MB
角色扮演
157.08MB
休闲益智
0KB
战争策略
73MB
角色扮演
1.04GB
推理解谜
476.10MB
休闲益智
7.93MB
角色扮演
43.40MB
角色扮演
226.43MB
角色扮演
194.57MB