Meta 的爆炸性戏剧、OpenAI 令人震惊的透明度以及让我们距离 AGI 仅几个月之遥的发展。那么——本周是关于人工智能的。
如果您错过了本周的人工智能新闻,我们只告诉您一件事: 薄荷 她再次跪下,克劳德成为办公室主任, 开放人工智能 终于拥抱了开源,谷歌正在开发其愿景:一个可以比你更好地编辑视频的人工智能超级助手。这不是开玩笑。这是本周的人工智能第 15 期。
#15本周人工智能:
Meta 和 Llama 4 灾难
Llama 4 本应是 Meta 人工智能开发的巅峰之作,但最终结果却令人失望。向公众展示的模型并不是参加基准测试并给人留下深刻印象的模型。这一现象首先被 Ethan Mollick 教授注意到,他证实 LLM-arena 上发表的模型结果与公开版本的结果不符。 (来源:x.com/ethanmollick)
随后,Reddit 上出现了一些前 Meta 员工(现就职于 OpenAI)的帖子,公开与 Llama 4 划清界限。其中一人在个人资料中写道:“Llama 2、Llama 3、Llama 4?我跟这些项目一点关系都没有。” (来源:reddit.com)
此外,有消息称,由于 Meta 的 AI 部门在基准测试中被一款不知名的低成本中国模型 DeepSeek V3 超越,该部门内部发生了改组。对于一家投资数十亿美元开发人工智能的公司来说,这绝非易事。
克劳德·马克斯和关于克劳德 4 的预测
Anthropic 本周推出一项令人惊喜的新服务 克劳德·马克斯 – 针对要求苛刻的用户的订阅计划,提供五到二十倍的互动配额,优先使用最新模型和功能。 (来源:anthropic.com)
与此同时,Anthropic 首席科学家 Jared Kaplan 宣布,我们将在未来六个月内看到 Claude 4。他表示,人工智能模型的发展速度比硬件的发展速度更快,这主要得益于后期训练的加速和强化学习的改进。这是本周人工智能领域中微妙但重要的新闻之一。
OpenAI 终于宣布开源模型
多年来,OpenAI 因缺乏透明度和背离初衷而受到批评,萨姆·奥特曼 (Sam Altman) 宣布,OpenAI 将很快发布一个超越所有现有替代方案的开源模型。 (来源:openai.com)
此外,ChatGPT 现在具有长期记忆功能,可以使用过去的交互来个性化体验,并允许用户让 AI 主动跟踪他们的目标并指导他们克服思维模式中的不兼容性。
但并非一切都如此美好:OpenAI 缩短了安全测试
金融时报 透露,OpenAI 已大幅减少测试其模型安全性的时间和范围。他们的时间不再是几周,而是只有几天,这引发了人们对模型可能被公开发布但尚未发现漏洞的担忧。一位前测试工程师告诉英国《金融时报》,GPT-4 的危险性是在发布两个月后才被发现的。 (来源:ft.com)
原因据说很简单——竞争压力。为了不落后,各公司都在争相推出新车型。尽管这些都是我们这个时代最有力的工具,但安全却被推到了边缘。
DeepCode 14B:OpenAI 的开源竞争对手
DeepSeek 和 Aentica 联合呈现 深层代码 14B,一种生成软件代码的开源模型。仅用140亿个参数,就取得了与商业GPT-3.5模型相当的效果。他们用超过 24,000 个独特的任务对模型进行训练,并使用了 GRPO+ 方法,该方法仅对完美的解决方案进行奖励。 (来源:github.com/aentica)
BrowseComp:人工智能代理的新联盟
OpenAI 推出了 浏览Comp,这是能够高效浏览网页和搜索复杂信息的人工智能代理的基准。它旨在用于测试必须浏览数十页才能获得相关信息的模型。 (来源:github.com/openai/simple-evals)
谷歌引领行业
谷歌公布合并计划 双子座 和 维奥 模型——文本、图像和音频理解以及视频生成。他们的目标是创建一个像我们一样理解世界的多模式超级助手。 (来源:googlecloudnext.com)
此外,谷歌推出了新一代AI芯片 TPU铁木,其性能比 2018 年的第一代产品强大 3600 倍。这使得他们能够训练更大的模型并更快地运行它们,而无需依赖 Nvidia。
Microsoft Copilot 正在成为一个强劲的竞争对手
微软的 副驾驶 它具有重新设计的界面、公寓搜索功能、写信帮助,甚至图像编辑功能。它充当实时个人助理,可以访问屏幕和上下文。 (来源:microsoft.com)
微软人工智能负责人穆斯塔法·苏莱曼 (Mustafa Suleyman) 认为,通用人工智能 (AGI) 可能在五年内实现,尽管他承认幻觉和指令执行不力等基本问题尚未得到解决。
Midjourney v7:令人惊叹的图像,但仍然没有文字
Midjourney 发布了第七代成像模型,其超现实主义风格令人印象深刻。然而,文本生成仍然远远落后,正如他们自己承认的那样——用户几乎不使用它,所以它不是优先事项。 (来源:midjourney.com)
现场工作的 Neo 机器人
机器人平台 1X Neo 已经证明她可以独立完成现场任务。这不仅仅是另一个公关噱头;机器人无需脚本即可移动、清洁和操作。它的设计包括人造肌肉和移动能力,使其能够与人类安全共存。 (来源:1x.tech)
人工智能科学家撰写首篇专业文章
Sakana AI Labs 宣布他们的模型撰写出了第一篇在研讨会上通过同行评审的科学论文。人工智能制定假设、分析数据并得出结论——无需人工协助。 (来源:sakana.ai)
结论
短短一周内,我们看到了 Meta 愿景的崩塌、开源模型的加速、安全测试的危险趋势以及新一代多模式代理的出现。人工智能世界不仅在快速发展——它正朝着一年前还看似科幻小说的方向发展。
下周将会有更多惊喜。如果您错过任何事情,我们都会在这里。每周一。