AI和机器学习发展简史
人工智能的历史和现状
人工智能:正式命名于Dartmouth会议 (1956年),会议提出:学习或者智能的任何特性都能够被精确地加以描述,使得机器可以对其进行模拟。
人工智能的发展受到了二十世纪数学哲学的影响,主要包含两个方面:
符号主义的人工智能,从数学哲学来讲,包含了形式主义和逻辑主义
希尔伯特的形式主义:所有数学分支都可以公理化;罗素的逻辑主义:一切数学都是建立在数理逻辑的基础之上。
- 1943:重写规则
- 1954:美国翻译俄罗斯材料,提出机器翻译
- 1956:定义人工智能
- 1957:句法结构,编码语言的初始雏形
- 1958:LISP语言,ECMAS编辑工具
- 第一个高潮结束,人工智能进入了第一个低谷,知道80年代开始
- 1965:机器证明,用机器证明了罗素的定理
- 1970:PROLOG提出
- 1973:专家系统
- 1979:机械化学习,中国平民几何吴教授
- 1985:语义知识表示
- 1994:智能代理
- 2011:DeepQA,IBM快速问答系统,机器在游戏中打败了人类
连接主义和行为主义的人工智能:从数据哲学来讲,包含了构造主义
布劳威尔的构造主义:存在就是被构造。
- 1943:人工神经元
- 1953:随机模拟
- 1957:苏联科学家提出Markov决策过程,这就是后面强化学习的数学理论
- 1959:感知器,神经网络
- 第一个高潮结束,人工智能进入了第一个低谷
- 1965:控制论
- 1975:遗传算法
- 1982:神经网络,最终因为当时时代下算力不足的原因发展缓慢,后来被支持向量机替换
- 1984:强化学习,与环境互动,一个标志性的成果
- 1995:支持向量机,再一次带来了人工智能的热潮
- 2006:深度学习
- 2015:MIT认知心理学家,贝叶斯规划学习:教机器写字,一遍就好了,小量数据即可达成
- 2016:强化学习、随机模拟、深度学习,Google ALPHA GO
人工智能的学派之争
- 符号主义(或逻辑主义)
通过定义不同的规则,让机器能够明白事物间的关系,从而推断出其他更多事物的关系,比如:P1在房间123里面表示为 in(P1, room123), 房间123是房子HOUSE的一部分表示为part(room123, HOUSE),那么机器根据规则推断出P1在房间HOUSE里,表示为in(P1, HOUSE)。
该流派的代表人物如下,图灵奖的获得者,所以人工智能早期主要是以符号主义为主的。
人物 | 年代 | 学校 | 主要成就 |
---|---|---|---|
John McCarthy | 1927 - 2011 | 斯坦福大学 | 人工智能、LISP的开创者、机器证明 |
Allen Newell | 1927 - 1992 | CMU | 通用问题求解 |
Herbert Simon | 1916 - 2001 | CMU | 通用问题求解 |
Edward Feigenbaum | 1936 - | 斯坦福大学 | 专家系统之父 |
- 连接主义(仿生学派)
模拟了人类的神经元,把不同的输入抽象成为一个公式 y = f (x),随着算力的增长,这些神经元的连接层次越来越多,构成更加复杂的神经网络,层数到达一定数量时,我们也称之为深度学习。
该学派的代表人物如下
人物 | 年代 | 学校 | 主要成就 |
---|---|---|---|
Warren S. McCulloch | 1898 - 1969 | ||
Walter H. Pitts | 1923 - 1969 | ||
Marvin Minsky | 1927 - 2016 | MIT | 神经网络和连接主义奠基人(图灵奖) |
人工智能的棋类游戏简史来看,三大主义主义走向融合,随机模拟方法是一个非常重要的未来趋势,为了提升计算的效率,计算不寻求最优解,转而寻求满意解。其他阅读可以关注:Monte Carlo GO算法 。
机器学习的发展历程
人工智能、机器学习、深度学习的关系
人工智能即 AI(Antificial Intelligence),四要素:算法、算力、数据、场景。机器学习是人工智能的一类算法,可以让计算机基于数据的输入,可以对输出的性能不断提升,机器学习的初期也来源于符号主义,不过近代逐渐被统计学替代,但是机器学习应该是一个动态发展的过程。
注意:人工智能包含了很多个方向的学说,机器学习只是其中的一种,不等同于人工智能;同理深度学习也只是机器学习中的一种方法,不等同于机器学习,深度学习类似于更多层的神经网络。
一个弯道超车的机会:轻量机器学习
许多应用场景的计算资源有限制,不可能部署大规模的机器学习。轻量机器学习是一类特殊的学习技术,它主要具备以下特点:
- 计算复杂度低:训练内存消耗少,训练周期短
- 具备一定的在线学习能力:不需要大量存储训练样本,来一个学一个,模型可以做到实时更新;
- 先验知识起点高:在数据量少的情况下,依然可以进行模型更新和推断,如:贝叶斯统计推断、模式理论、基于领域知识的规则方法等。
- 可利用近似计算寻求满意解:非常接近最优解,同时达到大大降低计算复杂度的目的。
机器学习/模式识别关键技术
机器学习的关键技术从算法、场景来看,可以按照以下几个方面展开。
- 计算基础
- 最优化
- 矩阵计算
- 概率统计
- 非轻量机器学习
- 无监督学习:聚类(K-均值聚类、层级聚类)、自组织映射
- 有监督学习
- 参数方法:最大似然估计、期望最大化算法(隐Markov模型)、回归模型(Logistic回归)
- 非参数方法:基于实例的方法(近邻法、核密度法)、决策树(ID3/4/5,CART)
- 核方法:高斯过程,关联向量机、核PCA等
- 几何方法:支持向量机、流形学习
- 概率图模型:贝叶斯网络、Markov随机场
- 贝叶斯方法:先验分布的设定、后验分布的近似计算、贝叶斯神经网络、贝叶斯回归模型
- 神经网络:后传播算法、深度学习(RNN、CNN)
- 随机模拟技术
- 常见分布的随机数产生器
- Markov链
- Monte Carlo
- Gibbs采样器
- 统计决策
- 贝叶斯期望损失
- 极小极大原则
- 贝叶斯风险原则
- 轻量机器学习
- 轻量模型(计算复杂度低)
- 在线学习(不存储训练数据)
- 近似求解(求满意解,降低复杂度)
- 基于受限领域知识的规则方法
- 贝叶斯统计推断
- 其他
- 学习策略
- 集成学习:自助聚集、梯度提升(多个决策系统选择出更加好的决策)
- 增量学习:内容每次基于当前结果学习,不需要从头学习
- 迁移学习:学习的成果能否用于周边的相似场景、数据等
总结:以上内容之间的关系图谱
- 计算基础 -> 非轻量机器学习、概率统计 -> 随机模拟技术
- 非轻量机器学习 <-> 统计决策、非轻量机器学习 -> 轻量机器学习
- 随机模拟技术 -> 非轻量机器学习、随机模拟技术 -> 学习策略
- 学习策略 -> 轻量机器学习、 学习策略 -> 非轻量机器学习
如何看待数据
数据分析的流程:RAW(原始数据) -> 特征工程(清洗、转换) -> 特点 -> 建模 -> 洞察,特征工程往往占据了80%的工作量,是非常重要的一环。
特征工程的分类:
- 数据表示:特征选择(选择出某些特诊项和值)、特征抽取(选择数据后,混合某些项目和值,得出新的规律)
- 数据整理:数据清洗、缺失数据分析、诱导性特性、数据压缩、数据合并
- 关系发现:关联规则挖掘、独立性假设检验
- 异常点检测:时间序列分析、支持向量回归、密度函数
特征工程是数据分析中非常重要的一环,对后续的数据预测数据准确率起到了关键作用。
数据压缩解决了高维数据降低到低维数据,从而降低算法的复杂度,寻求满意解。 异常时间点检测:时间序列方法和机器学习方法,实时分析数据,根据不同的异常点类型检测结果。
机器学习经典方法和深度学习的对比
方法 | 优点 | 缺点 |
---|---|---|
经典方法 | 1. 数学理论清楚,一般经过严格论证 | 1. 数据质量和特征选择直接影响结果 |
2. 很多问题归结为最优化 | 2. 过拟合现象比较普遍,稳健性相对于贝叶斯方法差一些 | |
深度学习 | 1. 在数据表示上有天生优势 | 1. 完全数据驱动,在知识表示上欠缺 |
2. 在图像分析、语音识别等具体应用上效果明显 | 2. 缺乏坚实的理论基础,难以推广 | |
3. 调参数困难,学习周期太长 |
认知计算的三驾马车:机器学习、自然语言处理与理解、知识,使用了传统的人工智能的方法。
课程总结
- 理性地看待人工智能的现状: 1. 深度学习在图像、语音的感知领域取得辉煌的成就,但是在推理、认知等方面仍然十分欠缺;2. 强化学习如果没有仿真环境、没有先验知识将寸步难行。
- 人工智能的发展趋势是走向融合: 传统机器学习 + 深度学习 + 强化学习 + 知识推理 + 智能决策