资讯
今年 3 月,Swan AI(getswan.ai)的CEO Amos ...
按照 Karpathy 的说法,我们找到了这篇博客,发现里面确实有包含「幻觉」的表述。当时,Karpathy 就已经指出,模型会「幻觉」出网址以及数学题方面的东西。但直到 2022 年 ChatGPT ...
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。
众所周知,图灵测试是检验人工智能模拟人类反应能力的经典方法, 而目前有趣的一点是,在实际人与大语言模型交互过程中,大语言模型似乎在进行一种更为微妙的反向图灵测试 ,通过映射我们的反应来检验对话者的智能水平和提示质量。这具体表现为: ...
来自北京航空航天大学、上海人工智能实验室和英国利物浦大学的研究团队,提出了名为ROME的新方法,这是首次将信息瓶颈理论引入数据集蒸馏任务。该方法无需对抗训练,即可显著提升模型的对抗鲁棒性,最大提升近40%。
数字资产追踪和先进通信技术正助力全球航运公司UPS在其全球航空枢纽Worldport利用AI和机器学习技术,以降低成本、提升准时率、增强运营安全性,并提供更优质的客户体验。
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
为此,上海人工智能实验室(Shanghai AI Lab)与北京航空航天大学联手,重磅推出首个专注于具身智能体与家用环境交互过程中安全性的评测基准——IS-Bench!该测试基准创新性地设计了 150+ ...
创建一个令人惊叹的神经网络或类脑图结构的交互式动画——使用艺术性的色彩、平滑的过渡和精美的视觉效果。整个页面应充满活力、沉浸感和震撼力,不使用任何按钮,仅通过滚动或持续的动画进行交互。让其令人叹为观止。
当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
近年来,大型语言模型(LLMs)在复杂推理任务中展现出惊人的能力,这在很大程度上得益于过程级奖励模型(PRMs)的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」,负责评估推理过程的每一步,以引导模型的学习方向。
纽约大学助理教授Ravid Shwartz Ziv嘲讽道,「NeurIPS真正的创新之处:领域主席们(AC)在不知不觉中运营着史上最大规模的LLM基准评测」。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果