这一差距揭示了一个关键事实:当任务复杂度提升至企业级水平时,现有LLM智能体的能力存在显著局限。在Open Library任务上,GPT-5和Claude Opus ...