我们如何更好地解决虚假信息泛滥问题

当前的挑战是开发一个自动化系统,帮助公众 我们如何更好地 评估 网络内容的可信度。 这里的关键警告是人工智能系统必须提供可解释的结果。 这凸显了混合方法的必要性,这些方法将基于深度学习的方法和符号知识图谱的最佳部分结合起来,以建立大规模的类似人类的语言理解。这在大型平台、事实核查人员和公众——以及其他利益相关者(如政策制定者、记者、网站管理员和影响者)之间建立了必要的信任水平。

应对虚假信息的现有努力

使事实核查过程(部分)自动化的想法相对较新。ClaimBuster 提出了第一个自动化事实核查系统,其架构大部分仍然有效,拥有一个事实核查数据库和用于监控网络来源、发现声明并将其与之前 目标电话号码或电话营销数据 事实核查过的声明进行匹配的组件。其他类似的服务和项目包括 Truly Media、InVID 和 CrowdTangle。这些系统主要供专业事实核查人员或记者使用,他们可以评估检索到的事实核查文章是否与已识别的声明相关。

这些自动化系统很少旨在预测内容的准确性

而是(正确地)将这项工作留给使用该系统的记者或事实核查人员。其中许多系统提供了有价值的 REST API 来访问其服务,但由于它们使用自定义架构,因此很难编写和检查它们,因为它们无法由机器解释或说明。

除了用于辅助事实核查的成熟系统外,还有各种研究侧重于识别错误信息或根据基本可信度信号评估网络内容的准确性或真实性所需的特定计算任务。一些低级 NLP 任务包括检查价 利用人工智能改善保险经济的三种具体方法 值和立场检测,而其他任务则旨在使用文本分类作为检测欺骗性语言的手段。

然而, 这些系统仍然缺少一些元素,我们试图在自己的模型中解决这些问题。这些元素与去中心化(不应由任何单一组织拥有这些信息的独家管理权)和可解释性(如何以机器可读、可互操作且人类专家可理解的方式表示可信度)有关。

我们如何发现虚假信息

我们的解决方案提出了一种基于可信度审查 (CR) 核心概念的架构,可用于构建协作检测错误信息的分布式机器人网络。可信度审查是构成以下图表的基石:

  • 网络内容,
  • 现有的可信度信号,如经过事实核查的声明和网站声誉评论,以及
  • 自动计算的评论。

我们在 Schema.org 的轻量级扩展 学生手机清单 和执行通用 NLP 任务(用于语义相似性和立场检测)的服务之上实现了这种架构。Schema.org 是一个很好的起点,因为它已经为网络上的数据项提供了合适的架构类型,可信度审查会对其有益(如评论和评级),以及用于表达基本出处信息和部分名词(hasPart)的属性。包括我们的扩展(粗体)在内的基于 Schema.org 的整体数据模型如下图所示*:

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部