本文翻译自: 《The Machine Learning Race Is Really a Data Race》, 如有侵权请联系删除, 仅限于学术交流, 请勿商用。 如有谬误, 请联系指出。

那些想让 AI 成为差异化因素的企业需要从可选数据集中抽取——这些数据集可能是他们自己创建的.


如果你愿意这么说的话, 机器学习或人工智能已经成为一种商品。 那些急于定义和实现机器学习的企业惊讶的发现, 实现用于使机器智能的处理数据集或问题的算法是比较容易的部分。 从谷歌的开源机器学习框架 TensorFlow 到微软的 Azure 和亚马逊的 SageMaker, 有一大批强大的即插即用解决方案, 可以轻松地完成繁重的编程工作。

不过, 数据不但没有被商品化, 反而正在成为机器学习竞赛中的关键差异化因素。 这是因为好的数据并不常见。

Rowing crew of business people race through a sea of data in a four person row boat

有用的数据: 有价值并且罕见

数据正在成为一种差异化因素, 因为许多公司并没有他们需要的数据。 尽管几十年来, 企业一直使用公认的会计准则以系统的方式衡量自己, 但这种衡量长期以来一直集中于实物和金融资产——即物品和货币。 2013 年, 诺贝尔奖(Nobel Prize)甚至授予了资本资产定价领域的奖项, 从而加强了这些公认的优先事项。

但今天最有价值的公司大多是在软件和网络上进行交易, 而不仅仅是实物和资本资产。 在过去 40 年中, 资产重点已完全转变, 1975 年有形资产占市场的 83%, 但是到了 2015 年无形资产却占据了市场的 84%。 和过去不同的是, 如今的企业巨头不再制造咖啡壶、 销售洗衣机, 而是提供 app 用以连接用户。 这种转变在我们衡量的东西和真正驱动价值的东西之间造成了严重的不匹配。

有用的数据十分罕见。 市场和账面价值之间的差距越来越大。 由于这种差距, 公司正在竞相将机器学习应用于重要的业务决策, 甚至取代他们的一些昂贵的顾问, 只是意识到他们所需的数据甚至还不存在。 从本质上说, 人工智能这个新生的系统正在被要求应用到传统的企业中。

就像人一样, 机器学习系统在没有学习之前无论怎样都不算聪明。 为了变得智能, 机器需要比人类更多的数据。 不过他们也确实能够更快地读取数据。 因此, 尽管企业在引进机器学习人才和启动人工智能计划方面存在明显的竞争, 但对于新数据和不同数据, 也存在一场幕后竞争。

例如, 在金融领域, 替代数据的超出了传统的证券交易委员会报告和影响投资决策的投资者报告。 社交媒体情绪或专利授予数量等另类数据之所以重要, 有两个重要原因。 首先, 传统数据侧重于传统资产, 而在无形资产时代则不够广泛。 其次, 没有必要花时间使用机器学习来研究市场上其他人正在分析的相同数据集。 所有对此感兴趣的人都已经尝试将行业趋势、 利润率、 增长率、 息税前利润、 资产周转率和资产回报率, 以及 1000 多个其他常见变量与股东回报联系起来。

在所有人都拥有的相同资料之间寻找联系, 无助于企业在竞争中取胜。 相反, 那些希望将人工智能作为差异化因素的企业, 将不得不在新数据集之间寻找关联——它们可能不得不创建自己的数据集, 以衡量无形资产。

仔细考虑: 你想知道什么?

数据创建比简单地聚合销售点或客户信息并将其转储到数据库要复杂得多: 大多数组织错误地认为, 权宜之计包括收集所有可能的数据碎片, 并煞费苦心地梳理所有数据, 以期找到一丝见解——难以捉摸的功能, 可以预测或分类他们关心的事物。

虽然机器学习偶尔会以一种罕见的、 尚未有人发现的闪光点给我们带来惊喜, 但该技术无法提出一致性的见解。 这并不意味着这个工具没用。 而是意味着我们必须正确的使用它。 在我们对替代数据市场的研究中, 我们发现超过一半的新数据提供商仍然专注于衡量实物和金融资产。

许多组织省略的步骤是创建一个关于重要事项的假设。 机器学习真正擅长的地方在于, 它具有人类所拥有的洞察力——一种基于经验法则、 广泛的感知或不太理解的关系——并开发一种更快速、 更易于理解、 更易拓展(不容易出错)的方法来应用那些 insight。

为了以这种方式使用机器学习, 你不需要向系统提供任何相关领域的所有已知数据点。 你给它提供了一套精心准备的知识, 希望它能够学习, 或许就能扩展人们已经拥有的知识。

深刻的机器学习来自不同的数据

所有的这些对于那些希望创建有影响力和有价值的机器学习应用程序的公司都有以下三个具体的含义:

  • **差异化数据是这场 AI 游戏成功的关键。 **使用竞争对手拥有的数据, 你不会发现任何新东西。 深入了解并确定你的组织所知道的独一无二的内容和观点, 并综合这些创建一个独特的数据集。 机器学习的程序确实需要大量的数据点, 但这并不意味着模型必须考虑数据的广泛性。 你需要将数据工作集中在组织已经差异化的地方。
  • **有意义的数据比全面的数据好。 **你可能拥有关于某个主题非常详细的数据, 但这些数据可能并没有什么用。 如果你的公司并没有把这些信息作为基础用来帮助决策, 那么从机器学习的角度来看, 这些数据可能就没有价值。 一个专业的机器学习架构师会问你一些棘手的问题, 比如哪些领域是真正重要的, 以及这些领域对你获得的见解的应用可能有什么影响。 如果这些问题很难回答, 那就说明你还没有深入的去思考如何产生实用价值。
  • **起点应该是你所知道的那些东西。 ** 那些机器学习用的比较好的公司往往都是从一个独到的见解开始的。 对他们来说, 做重要决定最重要的是什么? 这为他们了解要收集哪些数据, 以及使用哪些技术提供了方向。 一个简单的开始是扩展和增长你的团队已经拥有的知识, 这可以为组织创造更多的价值。

很明显, 软件已经吞噬了世界(这是软件企业家 Marc Andreessen 创造的一句话)。 但这仍然不够, 软件需要新数据与新技术相结合, 这样才可以继续增加价值。

如果你不想被这种见解、 机器和替代数据的转变所抛弃。 那就从内部开始寻找, 确定你独特的视角, 以及你能够并且应该生成的有价值的、 可选的数据。 遵循这些步骤, 你将会发现他们之间的关联, 并以此保持组织的竞争力。