资讯

上周日,亚历克西斯·奥哈尼安(Alexis ...
OpenAI最新研究发现,AI模型内部存在一些隐藏特征,这些特征对应着模型表现出的不同“人格”,包括有害或不合规的行为。研究人员通过分析模型的内部表示,找到了一种能调控模型反常行为的特征,这意味着可以通过调整该特征来降低模型生成虚假信息或不负责任建议 ...