- 理论支撑:企业财务大数据[2022-06-16]
- 数据治理的时代演变之道[2022-06-15]
- 数据治理的经济分析[2022-06-14]
- 实施数据治理时常犯的10[2022-06-13]
- 数据质量管理办法[2022-06-10]
- 治数VS养数[2022-06-09]
- 华为是怎么做数据治理的[2022-06-09]
- 数据发现对数据治理的重[2022-06-08]
- 工业企业数据治理的八大[2022-06-07]
- 企业数据治理团队的十大[2022-06-06]
人工智能正在造成无法预料的麻烦
正如我们所知,人工智能将会改变世界。但对抗性数据(adversarial data)带来了一系列问题。
近年来,人工智能已经取得了长足的进步,但是,正如许多使用这项技术的人们所证明的那样,人工智能仍然会犯下令人惊讶的错误,而这些错误是人类观察者不会犯的。虽然这些错误有时可能是人工智能所需的学习曲线的结果,但事情正在变得明显的是,一个更严重的问题正在造成越来越大的风险:对抗性数据。
对于外行来讲,对抗性数据描述了这么一种情况,在这种情况下,人类用户故意提供含有破坏信息的算法,破坏的数据会打乱机器学习过程,欺骗算法得出虚假的结论或错误的预测。
本文《If you’re a developer transitioning into data science, here are your best resources 》最初由 Jordan French 发布于 TNW网站,经 TNW 网站授权翻译并分享。
作为一名生物医学工程师,我认为对抗性数据是一个值得公众关注的重要原因。加州大学伯克利分校的 Dawn Song 教授特别欺骗了一辆自动驾驶汽车,让这辆汽车误认为停车标志上写的是限速每小时 45 英里。
这种性质的恶意攻击很容易造成致命事故。同样的,被破坏的算法可能会导致错误的生物医学研究,危机生命或延迟挽救生命的创新。
直到最近,人们才开始认识到对抗性数据的危险性,它不能再像以前那样被忽视了。
对抗性数据是如何产生的?
有意思的是,即使主观上没有恶意,对抗性数据的输出也有可能会发生。这在很大程度上是因为算法能够“看到”我们人类无法识别的数据中的东西。由于这种“可见性”,麻省理工学院最近的一项案例研究 将对抗性样本描述为“特征”,而不是 bug。
在这项研究中,研究人员将人工智能学习过程中的“强健性”和“非强健性”的特征区分开来。强健性的特征是人类通常能感知到的,而非强健性的特征只能由人工智能检测到。尝试使用算法来识别猫咪的图片,结果显示出,系统根据观察到的图像中的真实模式,得出了错误的结论。
之所以出现这种误判,是因为人工智能看到了一组明显无法感知的像素,导致它未能正确地识别照片。这就导致系统无意中被训练成在其识别算法中使用了误导模式。
这些非强健性的特征起到了一种干扰“噪声”的作用,导致算法产生有缺陷的结果。因此,黑客要想干扰人工智能的话,他们通常只需引入一些非强健性的特征,即不容易被人类识别出来的特征,但却能显著改变人工智能的输出。
对抗性数据和暗黑人工智能的潜在后果
正如 Moazzam Khan 在《Security Intelligence》(《安全情报》)中指出的那样,依靠对抗性数据的攻击主要有两种:药饵攻击(poisoning attacks)和逃避攻击(evasion attacks)。在药饵攻击中,“攻击者提供输入样本,使决策边界偏向对攻击者有利的方向”。而在逃避攻击中,“攻击者会导致模型对样本进行错误的分类”。
例如,在我所熟悉的生物医学环境中,这些攻击可能会导致算法错误地将有害或受污染的样本标记为干净和良性的样本。这可能会导致错误的研究结果,或者不正确的医学诊断。
学习算法也可能被用来驱动专门为帮助骇客而设计的恶意人工智能程序。正如《The Malicious Use of Artificial Intelligence》(《恶意人工智能的报告》)所指出的那样,骇客可以利用人工智能来助攻他们他们对各种组织发起的攻击,从而实施更广泛的攻击面。
机器学习在绕过不安全的物联网设备等方面尤为高效,骇客由此可以更轻松地窃取机密数据,错误操纵企业数据库等等。从本质上来说,“暗黑人工智能”工具可以用来感染或操纵其他人工智能程序的对抗性数据。通常中小型企业受到此类攻击的风险更高,因为他们不具备先进的网络安全指标。
保护措施
尽管存在这些问题,但对抗性数据也可以用于好的方面。实际上,许多开发人员已经开始使用对抗性数据来发现自己的系统漏洞,从而使他们能够在骇客利用这些漏洞之前实施安全升级。其他开发人员正在使用机器学习来创建更擅长识别和消除潜在数字威胁的人工智能系统。
正如 Joe Dysart 在《Genetic Engineering & Biotechnology News》(《基因工程与生物技术新闻》)的一篇文章所解释的那样,“许多人工智能工具能够在计算机网络上寻找可疑的活动,在几毫秒内就能够完成可疑活动的分析,并在造成任何损害之前就消除其原因——通常是流氓文件或程序。”
他接着说道,“这种方法不同于传统的 IT 安全方式,传统 IT 安全更侧重于识别已知的具有威胁的特定文件和程序,而不是研究这些文件和程序的行为。”
当然,机器学习算法本身的改进也有助于减少对抗性数据带来的一些风险。然而,最重要的是,这些系统并不是完全独立运行的。依靠人工输入和人工监督来识别强健性特征和非强健性特征之间的差异仍然至关重要,以确保错误的读取不会导致有缺陷的结果。利用真实相关性的额外训练可以进一步降低人工智能的脆弱性。
很显然,在不久的将来,对抗性数据将会继续构成挑战。但在人工智能被用来帮助我们更好地理解人类大脑并解决各种世界问题的时代,解决这种数据驱动型的威胁的重要性不容低估。处理对抗性数据并采取措施对抗暗黑人工智能,应该成为科技世界的首要任务之一。
作者:Jordan French
译者:Sambodhi
来源:InfoQ