site:www.51cto.com - 搜索 News

资讯

20 小时

大模型“天梯赛”来了，让Agent在Kaggle真实任务中进化｜佐治亚理工 ...

当前最强大的大语言模型（LLM）虽然代码能力飞速发展，但在解决真实、复杂的机器学习工程（MLE）任务时，仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码，却无法模拟人类工程师那样，在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

20 小时

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改 ...

创建一个令人惊叹的神经网络或类脑图结构的交互式动画——使用艺术性的色彩、平滑的过渡和精美的视觉效果。整个页面应充满活力、沉浸感和震撼力，不使用任何按钮，仅通过滚动或持续的动画进行交互。让其令人叹为观止。

20 小时

ACL 2025｜驱动LLM强大的过程级奖励模型（PRMs）正遭遇「信任危机」？

近年来，大型语言模型（LLMs）在复杂推理任务中展现出惊人的能力，这在很大程度上得益于过程级奖励模型（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」，负责评估推理过程的每一步，以引导模型的学习方向。

20 小时

你的AI管家可能正在「拆家」？最新研究揭秘家⽤具⾝智能体的安全漏洞

为此，上海人工智能实验室（Shanghai AI Lab）与北京航空航天大学联手，重磅推出首个专注于具身智能体与家用环境交互过程中安全性的评测基准——IS-Bench！该测试基准创新性地设计了 150+ ...

20 小时

马斯克擎天柱解决不了无「手」难题？跑酷炫技竟不会遛狗，机器人 ...

「一支星舰舰队将登陆火星，每艘星舰都会伸出着陆坡道，Optimus机器人走下来，那将是一个极其成功的品牌营销时刻。」特斯拉的投资者、Atreides Management的Gavin Baker在4月的私募资本会议上表示。

20 小时

谁是Adam？NeurIPS 2025审稿爆年度最大笑话！Hinton也曾被拒稿

纽约大学助理教授Ravid Shwartz Ziv嘲讽道，「NeurIPS真正的创新之处：领域主席们（AC）在不知不觉中运营着史上最大规模的LLM基准评测」。

20 小时

80万人排队求码后，Lovart功能升级放开用！果然是顶流设计Agent，第一 ...

量子位此前得到其团队答复，Lovart是Liblib海外子公司独立运作的新产品，其主要负责人为王浩帆与Takumi。王浩帆是资深算法工程师、InstantID的核心开发者。该项目还曾经被深度学习三巨头之一Yann LeCun点赞。

22 小时

研究人员发现奇怪现象：思考时间越长，大模型越笨

这项由Anthropic公司AI安全研究员Aryo Pradipta ...

12 小时

硬核「吵」了30分钟：这场大模型圆桌，把AI行业的分歧说透了

一开场，林达华表示：「大模型技术发展到今天，可以说是在繁花似锦的背后，我们也进入到了一个十字路口。过去大半年的时间里，大模型的技术格局经历了一个重要的范式转变。从最初以预训练为主、监督学习为辅的模式 —— 这一范式由 OpenAI 所开创 —— 逐渐向注重推理能力提升的强化学习范式过渡。这个转变标志着 AI 领域在技术上的进一步演化。」 ...

22 小时

MCP爆火背后的十大安全风险解析

然而在MCP应用爆火的背后，现实远比设想的要复杂。由于MCP在设计之初并未定义统一的安全认证机制，各MCP服务器在威胁防护方面参差不齐，组织只要接入了MCP，就可能在数据安全、调用逻辑、用户预期以及性能表现等方面出现各种安全隐患。在本文中，收集整理了已被真实验证的MCP应用10大安全风险隐患，并给出了相应的安全防护建议。

22 小时

CISO有效利用威胁情报面临的五大挑战

根据网络安全软件制造商Trellix发布的2025年报告《CISO的思维：缩小反应与准备之间的差距》，95%的受访CISO认同，加入威胁情报共享社区或网络能提升他们应对威胁的准备能力，然而，有更高比例 (98%)的CISO表示，其所在企业在运用威胁情报时面临障碍。

20 小时

CEO卷走24亿，二号员工血亏99%！30亿Windsurf梦碎内幕曝光

本月初，OpenAI计划30亿美元收购Windsurf，但谈判破裂。之后，谷歌DeepMind迅速挖走其CEO等高管团队，随后竞争对手Cognition收购了该公司其他部分。在社交媒体，Nair表达了对新东家的期待：「对热爱软件工程的人而言，Cognition就像家的感觉。这里让我重温Windsurf初创时的激情——我们疯狂编写代码，也收获极致快乐。」 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果