【大数据干货】人工智能与大数据开发四大注意要点

发布时间:[2018-08-02] 来源:编辑: 瘦弱的小瑞

点击量:

中国企业数据治理联盟（www.chinaedg.com/）

进入》主数据管理 企业数据治理 信息资源规划 数据安全管理

人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。Pedro Domingos教授的观点概括下来，可以提炼出6个注意点，为行业开发实践提供了重要参考：

注意点1：你的数据未必可靠在实际应用中，有很多各种各样的原因会导致你的数据是不可靠的。因此，当你将数据用于解决问题前，必须经常留心来检查数据是否值得信赖。如果基于糟糕的数据来挖掘，无论多么聪明的人也永远只会获得糟糕的结果。

下面列举了一些常见的可导致数据可靠性问题的因素：

·用于开发的数据，往往和实际情况下的数据分布不同。

例如也许你想把用户按照身高划分为“高”、“中等”、“矮”三档，但如果系统开发时使用的数据集里最低用户的身高是6英尺(184cm)，那么很有可能你开发出来的系统里会把一个“仅有6英尺”的用户称为“矮”用户

·你的数据集中存在很多缺失数据。

事实上，除非是人为构造的数据集合，否则很难避免缺失数据问题的发生，如何处理数据缺失的问题是很有技巧的事情。实践中我们要么是干脆丢弃一部分残缺的数据，要么就是想办法计算一些数值去填补这些缺失值。无论哪种方法都可能导致应用结果的不稳定·你的数据可能随时在变化。

数据库的表结构可能会变，数据定义也可能会变

·你的数据可能没有被归一化。

假设你可能在观察一组用户的体重，为了能够获得有效的结论，首先需要对每个体重的衡量单位进行归一化，是英镑还是公斤，不能混淆着用·你的数据可能并不适用于相应的算法。

数据存在着各种各样的形式和规范，或者叫数据类型(data types)，有些是数值化的数据，有些则不是。有些数据集合能被有序排列，有些则做不到。有些是离散化的数据(例如房间里的人数)，另一些则是连续化的(例如气温或者气压等数据)

注意点2：计算难以瞬间完成完成任何一个人工智能解决方案的计算，都需要一定的时间，方案的响应速度，对商业应用的成功与否起到十分关键的作用。

不能总是盲目假设任何算法在所有数据集上都一定能在规定时间内完成，你需要测试下算法的性能是否在可接受的应用范围内。以搜索引擎为例，用户对结果返回的时长是有忍耐的限度的。如果用户等待的时间超过10秒，50%的用户会流失，如果等待时间超过1分钟，90%以上的用户会流失。在开发智能应用系统时，不能为了达到更好的算法精度而忽略系统运算和等待的时间，否则会导致整个产品的失败。

注意点3： 数据的规模非常重要

当我们考虑智能应用时，数据规模是很重要的因素。

数据规模的影响可以分为两点来考察：

第一点是规模会影响应用系统的响应速度，上一节我们刚提过;

第二点是在很大的数据集上的挖掘出有价值结果的能力会受到考验。例如为100个用户开发的电影或音乐推荐系统可能效果很好，但是同样的算法移植到有着100000个用户的环境里，效果可能就不尽如人意了。

其次，使用更多的数据来训练的简单算法，比受制于维度诅咒(Dimension Curse)的复杂算法往往有好得多的效果。类似Google这样拥有海量数据的大型企业，优秀的应用效果不仅来自于精妙复杂的算法，也来自于其对海量训练数据的大规模分析挖掘。

注意点4：数据并不是万能的

根本上看，机器学习算法并不是魔法，它需要从训练数据开始，逐步延伸到未知数据中去。例如假设你已经对数据的分布规律有所了解，那么通过图模型来表达这些先验的知识会非常有效。

除了数据以外，你还需要仔细的考虑，该领域有哪些先验知识可以应用，这对开发一个更有效的分类器会很有帮助。数据和行业经验结合往往能事半功倍。

编辑: 瘦弱的小瑞

分享到： QQ空间新浪微博微信 QQ好友更多