资讯
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
今年 3 月,Swan AI(getswan.ai)的CEO Amos ...
来自北京航空航天大学、上海人工智能实验室和英国利物浦大学的研究团队,提出了名为ROME的新方法,这是首次将信息瓶颈理论引入数据集蒸馏任务。该方法无需对抗训练,即可显著提升模型的对抗鲁棒性,最大提升近40%。
按照 Karpathy 的说法,我们找到了这篇博客,发现里面确实有包含「幻觉」的表述。当时,Karpathy 就已经指出,模型会「幻觉」出网址以及数学题方面的东西。但直到 2022 年 ChatGPT ...
众所周知,图灵测试是检验人工智能模拟人类反应能力的经典方法, 而目前有趣的一点是,在实际人与大语言模型交互过程中,大语言模型似乎在进行一种更为微妙的反向图灵测试 ,通过映射我们的反应来检验对话者的智能水平和提示质量。这具体表现为: ...
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。
数字资产追踪和先进通信技术正助力全球航运公司UPS在其全球航空枢纽Worldport利用AI和机器学习技术,以降低成本、提升准时率、增强运营安全性,并提供更优质的客户体验。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果