Spotify,一家做音乐流媒体服务的公司,其研究人员最近开发了一种新的机器学习模型,首次捕捉到了反事实分析背后的复杂的数学。这种精确技术可以用来识别过去事件的原因和预测未来的影响。
2023 年早些时候,他们在 Nature Machine Intelligence杂志上描述了该模型,称其可以提高自动决策的准确性特别是个性化推荐,应用范围涵盖金融和医疗保健等领域。
(来源:STEPHANIE ARNETT/MITTR | ENVATO)
(资料图片仅供参考)
反事实分析背后的核心思想是提问和假设,即如果某些情况有所不同,那会发生什么。几乎所有人都说过类似的话:“如果当时…,就会(不会)…”。这其实就是反事实推理(分析)。
这就像在一场游戏里,我们可以重新调整世界,改变一些关键细节,然后看看游戏里会出现哪些改变。通过调整正确的细节,就有可能从相关性和巧合中剥离出真正的因果关系。
“理解因果关系对决策非常重要,”因果推理研究实验室的负责人(Ciaran Gilligan-Lee)表示,他共同开发了这个模型。“你想了解你现在的选择会对未来产生什么影响。”
在 Spotify 的例子中,这可能意味着要它会给你推送哪些歌曲,或者歌手什么时候应该推出新专辑。他说,Spotify 还没有使用反事实分析,“但它可以帮助回答我们每天都要处理的问题。”反事实分析是符合人类直觉的,人们经常会想象如果某件事情发生了,这个世界会变成什么样。但在数学上,它是一个很棘手的问题。“反事实是一个看起来非常奇怪的统计对象,”他说,“他们是奇怪的事情。你问的是一些事情并没有发生的前提下,它们发生的可能性。”
和他的合著者在《麻省理工科技评论》的一篇故事中发现了彼此的成果后开始合作。他们的模型是基于一个被称为孪生网络(twin network)的反事实理论框架。孪生网络是由计算机科学家安德鲁·巴尔克(Andrew Balke)和朱迪亚·珀尔()在 20 世纪 90 年代发明的。2011 年,因其在因果推理和人工智能方面的工作获得了图灵奖——计算机科学界的诺贝尔奖。他说,和巴尔克利用孪生网络解决了一些简单的问题。但是,将数学框架应用于更大、更复杂的现实情况是更困难的。
这就是机器学习的作用所在。孪生网络将反事实视为一对概率模型:一个代表现实世界,另一个代表虚构的世界。这些模型以这样一种方式连接:现实世界的模型约束了虚构世界的模型,除了你想要改变的事实外,其他都保持不变。
和同事们使用孪生网络的框架作为神经网络的蓝图,然后训练它来预测事件在虚构世界中的发生方式,结果得到了一个用于进行反事实推理的通用计算机程序。“它可以回答任何你想要的场景的反事实问题,”他说。
Spotify 团队使用几个真实世界的案例研究测试了他们的模型,研究案例包括德国的信贷批准,中风药物的国际临床试验,以及肯尼亚供水的安全性。
2020 年,研究人员调查了在肯尼亚的一个地区安装管道和混凝土容器,以保护泉水免受细菌污染,是否会降低儿童腹泻的水平。他们发现了安装后确实带来了积极的效果。但说:“你需要确定真正的原因是什么。”在将这个方法推广到全国之前,你需要确认疾病发生率的下降实际上是由这种干预造成的,而不是与它相关的其它因素。当研究人员来做研究并在井周围安装混凝土墙时,人们可能更加意识到被污染的水质带来的风险,因此他们开始在家里把水煮沸后使用。在这种情况下,“科普和教育将是扩大干预规模的一种廉价方式,”他说。
他和同事们通过他们的模型研究了这个场景,询问现实世界中因喝到未受保护的水而生病的孩子,是否也会在水受到保护的虚构世界中生病。他们发现,如果只改变孩子喝水的细节喝,而不改变其他条件(比如水是否经过额外处理),那么结果不会有太大影响。这表明儿童腹泻水平的降低不是(直接)由安装管道和混凝土容器导致的。
这验证了一项 2020 年的研究结果,该研究也使用了反事实推理。但这些研究人员手工建立了一个定制的统计模型,只是为了问这一个问题。相比之下,Spotify 团队的机器学习模型泛用性更强,可以用来对许多不同的场景提出多个反事实的问题。
Spotify 并不是唯一一家努力建立能够推理因果关系的机器学习模型的科技公司。在过去的几年里,诸如 Meta、亚马逊、领英和字节跳动等公司都已经在开发这项技术。
“因果推理对机器学习至关重要,”Meta 的软件工程师 Nailong Zhang 说。Meta 正在一个机器学习模型中使用因果推理,该模型管理着 Instagram 应该向用户推送多少和什么类型的通知,才能更好地促使他们继续使用该应用。
美国普渡大学的数据科学家罗米拉·普拉丹()说,她正在利用反事实分析技术来使自动决策更加透明。许多机构现在使用机器学习模型来选择谁能获得信贷、工作、假释,甚至是住房。监管机构已经开始要求这些机构向受影响的人解释这些决定的结果,但是重现一个复杂算法的所有步骤是十分困难的。她认为,反事实推理可以有所帮助。假设一家银行的机器学习模型拒绝了你的贷款申请,而你又想知道为什么,回答这个问题的一种方法是用反事实来回答。考虑到这个申请在现实世界中被拒绝了,那么在一个你的信用记录不同的虚构世界中,它会被拒绝吗?如果你有不同的邮政编码、工作、收入等等呢?她说,在未来的贷款审批计划中建立回答这些问题的能力,将为银行提供一种向客户提供理由的方式,而不仅仅是批准或拒绝。
反事实分析很重要,因为它是人们看待不同结果的方式,说:“它们是提供解释的好方法,还可以帮助公司预测人们的行为。因为反事实可以推断出特定情况下可能发生什么,而不仅仅是平均情况,所以科技平台可以比以往任何时候都更精确地将用户分类。”
同样的逻辑可以解开污水或贷款决策的影响,也可以用来更好地构建 Spotify 播放列表、Instagram 通知和精准广告投放。“如果我们播放这首歌,那个用户会听更长的时间吗?如果我们展示这张照片,那个人会继续滑动吗?公司希望了解如何向特定用户而不是普通用户提供推荐,”说。