机器学习的实现依赖于数据

36大数据 2018-11-19 07:17:55

大数据、分析、物联网、云技术……最近的几年里,没有这些术语你就无法参与到关于科技的讨论和对话中。它们已经成了科技中主要的参与者,影响着商务的方方面面。变化似乎正在以极快的速度发生着,并且没有减速的迹象。 如今,科技中唯一不变的就是变化本身了。不断的变化需要不断的创新,因此就需要引入更多的新技术。进入科技话题的新技术之一是机器学习。加特纳指出机器学习是2016年十大技术趋势之一。毫无疑问这是一个热点话题。


一切旧的又是新的


我发现有趣的是机器学习的基本原理可追溯到70年代和80年代早期的人工智能研究。当时的工作受到计算机性能和数据利用量的限制。 突破这些约束是近年来机器学习取得飞跃性进展的关键。计算周期和数据利用水平在几十年前是无法想象的。


机器学习的目标听起来很简单: 提供系统基于信息上学习的能力。尽管它听起来简单, 这是在挑战经典的软件工程。大多数我们所熟悉的“硬编码”软件开发系统的行为都是基于计划和预期的用户数据交互。标准的“if – then – else”模型。


人工智能/机器学习的算法要求更为复杂。它们需要允许系统形成它自己以输入为依据的分析模式。这些模式根据提供的信息不断变化。以数据和这些模式为依据,行为被决定。正如你从描述中了解到的,这将导致非常不确定的行为。系统将会根据提供的信息分析,理解并做出反应,根据更多的信息调整行为,然后提供反馈。分析和行为不断的改变,随着时间过去被改进。想象一下进行一个适合这个系统的测试!


你正享受着机器学习带来的便利


你有网飞公司的账户吗?亚马逊呢?每次你登录时,网飞和亚马逊都给你提供一个推荐列表。这两个公司都有非常复杂的,专有的算法。通过这些算法,就可以分析蕴含着你和所有其他成员交易的庞大的信息群。基于这些数据,他们建立了你的预期行为模型,并提出了一系列的建议给你。你对这些建议的反应也被反馈到算法中,然后算法会不断调整以适应你的行为模式。


那你的智能手机呢?想一下“先生,今天天气怎么样?”这句简单语句的复杂度。首先,软件为了确定你实际说的话,需要识别你的语音,口音以及你说话的方式。如果这不是很确定,软件要求确认,它从你的确认中学习。每次你使用语音识别的时候,你的手机会更好的理解你说了什么。一旦理解你说的话,它会将自然语言处理成有意义的语言到系统中。这又需要复杂的算法来分析语音信息,创建模型,然后在其翻译结果上执行指令。当解析语音的时候,如果不是很确定,软件会立马提示确认。你说话方式所用的模型以及你使用语言的上下文会给予系统反馈。


这都是数据在起作用


最近TechCrunch上的一篇文章, ‘创业公司如何在人工智能和机器学习领域中与企业竞争’ John Melas-Kyriazi 谈到数据:‘’我们投入资源到训练机器学习模型中,它将创造巨大的网络效应。‘ 我发现一个非常恰当的比喻。复杂的算法和模型是机器学习的引擎,但是如果没有燃料,引擎-数据-不会很好地工作。我的一个同事,John Williams, ( Collaborative Consulting 的首席战略官)多年来一直喜欢说,“这都是数据在起作用。”在机器学习的世界里再真实不过了。


考虑到数据对任何成功的机器学习实现的重要性, 有几个关键因素需要考虑:


  • 数据质量 – 在数据的世界中,这一直是一个重要的考量。 数据清洗在许多组织形式中都已成为了一种标准实践。 它对机器学习的实现已经变得至关重要了。将肮脏不纯的燃料放入到即使最好的引擎中也会导致其停止工作.

  • 数据体量 – 大数据是为机器学习量身定制的。算法和后续的模型使用的信息越多,结果就越好. 这里的关键词是学习。我们作为个人,当被提供给我们越多的信息时就能学习得越多。 这个道理也可直接用于机器学习的世界。

  • 数据时效性 – 除了体量之外,最新的、及时的数据也是一个考量因素。假如机器学习是基于完全过时的大体量数据, 结果模型就没有那么有用了.

  • 数据谱系 – 数据是从哪里来的? 是有效的来源吗? 当使用内部系统的时候数据谱系没有那么重要,因为数据来源是众所周知的, 但是许多机器学习系统会从公共源来获取数据。 或者潜在的从互联网上的许多设备上获取. 来源于人群的数据 (例如Waze, 一个手机GPS 应用) 要求作出额外的努力来确保你可以信任你所使用的的数据。想象一种新型的网络攻击, 给你机器学习系统以错误的数据而影响你的结果。还记得微软的人工聊天机器人 AI Chatbot Tay被引导为一个种族主义者的麻烦事情吗?


没有技术能够否定好的设计和规划的需要


毫无疑问:机器学习技术具有惊人的潜力,无论是在医疗保健诊断阿尔茨海默氏病还是在曾经只出现于科幻小说中的自动驾驶汽车上。 没有技术能够否定好的设计和规划的需要。 机器学习也不例外。 作为技术专家,确保已作出适当的努力尽可能为机器学习的实现提供最好的资源,这是我们的职责。 了解这些系统的质量,体积,时效性和谱系的需要,可以帮助我们进入这个机器学习的新世界, 引领我们走向成功的执行,并最终为企业提供价值。


 End 

阅读排行榜/精华推荐
1
入门学习

如果有人质疑大数据?不妨把这两个视频转给他 

视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都需要知道 关于大数据最常见的10个问题

2
进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3
数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国我们如何收集数据?全球数据收集大教程

4
干货教程

PPT:数据可视化,到底该用什么软件来展示数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?              

六步,让你用Excel做出强大漂亮的数据地图

 数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践


讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群

36大数据

长按识别二维码,关注36大数据


搜索「36大数据」或输入36dsj.com查看更多内容。

投稿/商务/合作:dashuju36@qq.com


点击下方“阅读原文”查看更多

↓↓↓

友情链接