网络冲突数据:真相与噪声

自动化冲突数据模型:真相被淹没在网络噪声中

近年来,越来越多的自动化和基于人工智能的冲突数据收集模型依赖于社交媒体信息和英语媒体报道进行数据采集。然而,这些系统缺乏有效的审核机制,仅仅依靠“事实自显”的假设来确保数据的可靠性,这已不再可行。

机器无法处理包含多个地点、团体、受害者、时间或意图的信息的冲突报告;它们无法区分真实事件和谣言。线上社区对信息的解读存在显著偏见,而平台也难以将准确信息优先展示于重复传播且夸大的网络“热词”之中。

尽管如此,这些数据源仍被广泛宣传为快速便捷的公众信息替代方案,其结果却并非可靠的冲突叙述,而是充满了模糊不清、方便使用的“事实”。 更令人担忧的是,这些信息完全受制于社交媒体关注机制的运作,这构成了一种严重失衡。

此外,推动向统一化和“开放数据”的趋势也为冲突证据收集带来新的挑战。虽然公开数据有助于提高数据质量,但并非所有信息都适用于这种处理方式。例如,关于恐怖组织活动的信息需要更深入、更复杂的分析,而不能简单地依赖于标准化的处理方法。

许多可靠的信息来源,尽管面临着极度艰险的环境,仍然致力于提供有关冲突发生的真实细节。然而,这些信息的价值常常被网络环境中传播的夸张、叙事性和偏见所掩盖。 2020年,针对美国社会正义运动的研究揭示,93%的活动都是非暴力的,而剩余7%则遭遇了暴力攻击,这与网上流传的有关该运动的暴力的描述截然相反。

类似地,在2024年的美国选举周期中,尽管网络上盛传极端暴力和政治动荡的可能性,但实际上并没有任何证据支持这些说法。

为了应对这一挑战,我们需要将冲突证据收集与社交媒体信息流分离,并建立一个更可靠的数据体系。虽然无法改变人们获取信息的途径,但我们有责任确保所使用的证据是准确、可靠且经过充分验证的。

Back to blog