下载APP
家核优居智家核心,最懂你心

AI热门应用的案例集:学会工程化思维

05-29 13:52 暖暖王小王 来源: THU数据派

本文由混沌大学授权转载。混沌大学是一所没有围墙的互联网创新大学,遍邀全球名师,拓展认知边界,奉献最专业、最实用、最顶级的互联网创新课程,陪伴这个时代最有梦想的人,早半步认知这个混沌的世界。

本文约4133字,建议阅读9分钟。

本文是一份关于AI热门应用的案例集,包含了难点、窍门以及最新的研发方向,非常珍贵而又接地气,值得你反复研读和收藏。

机器学习未来的发展路径和前景就是从模块出发,构建一个复杂系统。

——邢波

邢波,师从机器学习泰斗级学术大咖Michael Jordan ,卡耐基梅隆大学机器学习和医疗中心主任,2017年机器学习学术水平排名世界第一。同时,他还是生物化学与计算机科学的双料博士,创立了通用机器学习平台Petuum,并获得软银投资。

授课老师:邢波

卡耐基梅隆大学计算机科学学院教授

通用机器学习平台Petuum 创始人

翻跟头、倒着飞、倒着转圈……想象一下,一个直升飞机驾驶员,他敢这么飞吗?事实上,如今,最好的直升机驾驶员其实是计算机,依靠的就是机器学习。那么,怎样写一个程序,让直升机这么飞?

我很好的朋友,加州伯克利大学的同学吴恩达博士,他的毕业论文就是用增强学习的算法,写出了飞行的程序。

他在模拟机上,不断随机模拟各种各样飞行的可能性、环境的可能性,用一个增强学习的程序,对模拟出来的环境和动作进行适应,然后不断评估、修正,并最终部署在真正的飞机上,实现神奇的特技动作。

其实,这个增强学习的算法,就是一个典型的机器学习的应用:有学习能力,可以根据大量的场景数据,不断修正方程里的参数,最后达到一个稳定的状态。

所以,从本质上讲,机器学习是传统编程的第二曲线,它是一个写动作的程序,而不是描述动作本身的程序。它是在学习一个方程,而这个方程的X和Y是一个函数、变量,并不是一个确定的值。

Tips:回看整个科学史,机器学习变革意义重大

牛顿定律,怎么发现的?靠的是“人肉智能”:开普勒和第谷积攒了很多行星运行的图表、数据,然后伽利略和牛顿分析以后,发现规律;

同样的道理,元素周期表是如何发现的?

16世纪、17世纪的时候,出现了对分子光谱的描述,某几个物理学家根据这些数据分析发现,氢族、氧族、硫族等都会有同样的光谱分布,从而发现了规律。

而现在,机器学习的出现,让数据分析变得非常高效,从而出现了非常多有价值的应用,计算引擎成了无名英雄。比如:

自动驾驶汽车可以实现自我导航;通过遗传信号可以推断人类祖先的长相……

机器学习这么厉害,我在哪里能买到呢?很不幸,机器学习现在更像一套秘籍,买不到。

接下来,我用一些具体的例子,再详细分享一下它的难点、窍门。

案例集一:自然语言处理

人读书,会有两个基本动作,能读懂,还能讲出来,同理,自然语言处理也包含两大类工作:理解自然语言和生成自然语言。

1. 理解自然语言

理解是怎么回事?背诵下来,是不是理解了呢?

因此,需要把理解划分为不同的具体任务,一旦具体以后,机器就可以找到切入点。

由浅入深,包括以下内容:

文本分类

从分好类、有标注的训练数据出发,采用不同算法,训练一个分类器。

举个例子,分析一个文章,假如“白宫”出现多次,就可以判断,文章是讲政治的。防垃圾邮件的软件,用的就是这个原理。

文本检索

这是Google等搜索引擎里的常用功能:通过关键字输入,输出根据相关度排序的结果,再高级点,还有个性化匹配。

举个例子,搜索苹果,结果可能是水果,或是手机

如果搜索引擎对你一无所知,两个结果都可能靠谱。如果你是一位果农或者一位高科技白领,那么就能猜出你想要搜的东西。

也就是说,要实现个性化匹配,需要考虑你的生活习惯、行为特征、以及搜索场景。

语音识别

将声音信号转化为文本信号的技术,涉及隐马尔科夫链、递归神经网络等机器学习模型,智能音箱、Siri等,都属于这类的应用。

难点

在嘈杂,或是前后关联破碎的场景下,机器很难识别清晰,但是人可以,因为有常识、背景知识,比如人在信号很差的电话环境里,连蒙带猜,也能理解对方的话。

因此,人和机器要有一些互补。

知识问答

几年前,IBM沃森在知识问答游戏Jeopardy里战胜了人,很轰动。

其实这个系统并不难,因为知识竞赛里的对话很简单,比如——

谁是美国的第一任总统?——乔治·华盛顿

所以,这个系统是一个纯工程,它跟人类智能不一样。

举个例子

比如问这样一个问题:中国不在大河边上的第二大城市是什么?

小学生很容易就能回答,但你去Google或者百度,却找不到答案。为什么?

不是知识库里没有内容,而是它听不懂你问的是什么,于是它就懵了!

所以,在这里面,有一些关键问题需要大家特别重视:

窍门

机器理解人的语言,相当有限,所以,如何提出更好的问题,非常关键。

大家天天在讲的问题,到底有没有价值?到底能不能体现出工程的进步、应用或者市场的需要?

标准测试

什么是高级的理解?标准测试,比如,大学的入学考试,托福、GRE等

为什么人工智能不去做这种测试?因为比较难,比如:

①得真正看懂测试的问题;

②训练的时候,不能人为输入规则,而是直接把教科书交给机器学习,让它自己把规则、定理、原理、作业题都完全看懂;

③最后自训练,吃透了以后去考试;

④算法要能够给学生解答这个答案的意思。

窍门:

教育里最难的一点就是出题库,然后训练学生做题。如果有一个人工智能系统,既能出题,也可以跟学生一起做题,甚至还可以给他解释,就会有很多价值。

在这样的做题程序中,深度学习的方法已经被淘汰,其他的机器学习手段得分也不高。下一步,再怎么往上走?还不知道。

换句话说,既能回答问题,又能提问题,这是人工智能最弱的方面,也是一个未知的空间。

我们现在正在做这样的尝试,让机器自动的问一些问题,从而达到自训练或者训练用户的目的。

2. 自然语言生成

这是人机界面中,主动来自机器的动作,是一个很好玩的题目,我重点介绍两个领域的应用:

机器翻译

人在做翻译的时候,通常先听完好几句话,理解后,再用另外一种语言说出来,但是,机器翻译的主要手段是对齐,把两个语句做一一对应,很机械。

机器对话

在对话系统中,也会有机器味。那么,什么才是有人味的对话呢?

一方面是对感情的把握,和对对方感情的理解;另一方面是对相关常识的引用和理解。

这在目前对话系统里,十分困难,因为没有一个很好的数学模型,对这些任务做清晰的定义。

小结:新研究方向

大数据即使再大,还是体现不出人类语言中不言而喻的内容,该怎么办?

目前,比较新的研究方向是把生成模型和人的背景知识,进行数学层面上严格和自洽的融合,把深度学习的技术和人类逻辑学的知识,结合在统一的数学模型里。

这样就可以把人的感情因素融入生成模型,从而让对话看上去更有人味。

案例集二:计算机视觉

计算机视觉是现在相当火爆的方向,大致可以分成两大类问题:图像感知与视觉推理。

1. 图像感知

它包含的是一些比较原始和低级的任务,比如:

图像分割

把不同的色块,从背景里面识别出来。

比如一个花花绿绿的人,机器看到的只是几块颜色。

语义分割

把不同的色块重新整合起来,构成有完整单元含义的目标。

比如,人和车,会被分割在比较自洽的边界内部,然后做标注。行人检测、安防里的刷脸等,用的就是这个道理。

应用案例

在医疗上,图像识别应用于对X光、CT等做一个自动的诊断,实现精准医疗。

目前,在实践中,最大的困难不是对标准图片的识别,而是在自然工作环境下,对于自然图片内容的判断和理解。

比如,医疗影像中的噪音,误差,还有设备之间不同的标准,会造成很多算法的失灵,但这些问题很少被提及。

最近的一个有名的例子是,IBM沃森的癌症治疗软件,在美国最好的癌症研究所部署后,就遭遇了比较不幸的失败。所以,人工智能在医疗领域的应用,还是应该谨慎些。

智能监控

现在,很多场合都安装了摄像头,但应用时,却总是在“事后诸葛亮”的场景:发生案件后,调集警察,人力检查摄像头,发现线索,抓到犯人。

这不是最理想的情况,最好是案件发生的时候,就能够找出情况,短时间,就能收集大量信息。

比如,从几小时长度的航空展览录像中,自动剪辑出飞机的起飞、动作、降落等画面;将几小时的行车记录仪数据,自动抽取出几分钟不一样的片段,这都是机器学习比较擅长的。

2. 视觉推理

同语言推理相似,视觉也可以进行推理。

举个例子,图中有人和帆板,那我们不单单能做标注,还可以猜想物体之间的关系,如这个人喜欢帆板,准备去海边运动。

人感觉这样的理解很简单,但对机器来说,非常复杂。

比如将物体识别出来,需要一套算法;然后把物体分类,又得需要一套算法;识别物体间的关系,又是一套算法……

但人类并不是用30个不同的大脑来发挥作用,我们就是一个人,一双眼睛就可以很清晰做理解。

窍门

所以,人工智能跟人的思路其实不太一样,它是一个高度模块化,然后边界也很局限的工作,需要严格的定义任务,分开来单独做训练和调试。

小结:新研究方向

计算机视觉2.0 模型结构自主学习

所谓视觉推理2.0指的是,一方面依靠图片内容,另一方面依靠从大数据以及背景环境里面,获得的先验知识。

当这些先验知识,进入图像识别的机制里后,机器对图像理解的水平就会提高很多,就不是一个很愚蠢的图像标注了。

实际上,图像标注是很假的功能,为什么需要机器去告诉人类,这个图里哪个是猫?哪个是狗?哪个是车?

人对这些东西都可以无视,但如果能够把图里面的内容和话外的内容搞清楚,更接近人的需求,这样的功能才会产生真正的价值。

比如这个图里,有一个女孩儿,穿着牛仔裤,拿着飞碟,后面在一个建筑物里,还站着一些人,最后推断,这可能是一个学校。

这是目前研究和研发很重要的方向,但很可惜,在公司或者媒体报道里,你很少见到类似的工作。

最后的最后,你需要深刻理解的未来AI发展路径

从模块出发,构建复杂系统

未来的AI应用大概会是这样的一个场景:

它会融合不同领域里面的很多基础知识或者先验知识,把不同的学习内容和算法整合起来。

对于实际的开发和生产环境,我们其实不是在谈某一个算法或是某一套数据,而是一个相当综合的体系。

现在,很多公司都面临着这样一个瓶颈:如果用封闭式的黑匣子来打造一个系统,它的延展能力很弱。一旦面对新任务,就会面临着开发周期的困境,或者进行部署的困境。

该怎么办?

我的建议是,机器学习未来路径和前景应该是:从模块出发,构建一个复杂系统。

这个复杂系统的方向不能是手工作坊的方法,从造一个小船变成造一个大船,而是要转变到更加工程化和科学化的方向——

模块化和标准化。

同一个算法应该有标准的实现途径,同一个数据应该有单一的供应源进行处理方法。

只有这样做,你的AI研发,才能更稳健,更靠谱。

本文根据5月19日邢波教授的课程整理而成。

2分钟动画帮你搞懂“AI工程”

精彩推荐

都翻到这儿了,就下载个家核优居吧 >