AI和机器学习发展简史

10 Jul 2020

AI和机器学习发展简史

人工智能的历史和现状

人工智能:正式命名于Dartmouth会议 (1956年),会议提出:学习或者智能的任何特性都能够被精确地加以描述,使得机器可以对其进行模拟。

人工智能的发展受到了二十世纪数学哲学的影响,主要包含两个方面:

符号主义的人工智能,从数学哲学来讲,包含了形式主义和逻辑主义

希尔伯特的形式主义:所有数学分支都可以公理化;罗素的逻辑主义:一切数学都是建立在数理逻辑的基础之上。

  • 1943:重写规则
  • 1954:美国翻译俄罗斯材料,提出机器翻译
  • 1956:定义人工智能
  • 1957:句法结构,编码语言的初始雏形
  • 1958:LISP语言,ECMAS编辑工具
  • 第一个高潮结束,人工智能进入了第一个低谷,知道80年代开始
  • 1965:机器证明,用机器证明了罗素的定理
  • 1970:PROLOG提出
  • 1973:专家系统
  • 1979:机械化学习,中国平民几何吴教授
  • 1985:语义知识表示
  • 1994:智能代理
  • 2011:DeepQA,IBM快速问答系统,机器在游戏中打败了人类

连接主义和行为主义的人工智能:从数据哲学来讲,包含了构造主义

布劳威尔的构造主义:存在就是被构造。

  • 1943:人工神经元
  • 1953:随机模拟
  • 1957:苏联科学家提出Markov决策过程,这就是后面强化学习的数学理论
  • 1959:感知器,神经网络
  • 第一个高潮结束,人工智能进入了第一个低谷
  • 1965:控制论
  • 1975:遗传算法
  • 1982:神经网络,最终因为当时时代下算力不足的原因发展缓慢,后来被支持向量机替换
  • 1984:强化学习,与环境互动,一个标志性的成果
  • 1995:支持向量机,再一次带来了人工智能的热潮
  • 2006:深度学习
  • 2015:MIT认知心理学家,贝叶斯规划学习:教机器写字,一遍就好了,小量数据即可达成
  • 2016:强化学习、随机模拟、深度学习,Google ALPHA GO

人工智能的学派之争

  1. 符号主义(或逻辑主义)

通过定义不同的规则,让机器能够明白事物间的关系,从而推断出其他更多事物的关系,比如:P1在房间123里面表示为 in(P1, room123), 房间123是房子HOUSE的一部分表示为part(room123, HOUSE),那么机器根据规则推断出P1在房间HOUSE里,表示为in(P1, HOUSE)。

该流派的代表人物如下,图灵奖的获得者,所以人工智能早期主要是以符号主义为主的。

人物 年代 学校 主要成就
John McCarthy 1927 - 2011 斯坦福大学 人工智能、LISP的开创者、机器证明
Allen Newell 1927 - 1992 CMU 通用问题求解
Herbert Simon 1916 - 2001 CMU 通用问题求解
Edward Feigenbaum 1936 - 斯坦福大学 专家系统之父
  1. 连接主义(仿生学派)

模拟了人类的神经元,把不同的输入抽象成为一个公式 y = f (x),随着算力的增长,这些神经元的连接层次越来越多,构成更加复杂的神经网络,层数到达一定数量时,我们也称之为深度学习。

该学派的代表人物如下

人物 年代 学校 主要成就
Warren S. McCulloch 1898 - 1969    
Walter H. Pitts 1923 - 1969    
Marvin Minsky 1927 - 2016 MIT 神经网络和连接主义奠基人(图灵奖)

人工智能的棋类游戏简史来看,三大主义主义走向融合,随机模拟方法是一个非常重要的未来趋势,为了提升计算的效率,计算不寻求最优解,转而寻求满意解。其他阅读可以关注:Monte Carlo GO算法 。

机器学习的发展历程

人工智能、机器学习、深度学习的关系

人工智能即 AI(Antificial Intelligence),四要素:算法、算力、数据、场景。机器学习是人工智能的一类算法,可以让计算机基于数据的输入,可以对输出的性能不断提升,机器学习的初期也来源于符号主义,不过近代逐渐被统计学替代,但是机器学习应该是一个动态发展的过程。

注意:人工智能包含了很多个方向的学说,机器学习只是其中的一种,不等同于人工智能;同理深度学习也只是机器学习中的一种方法,不等同于机器学习,深度学习类似于更多层的神经网络。

一个弯道超车的机会:轻量机器学习

许多应用场景的计算资源有限制,不可能部署大规模的机器学习。轻量机器学习是一类特殊的学习技术,它主要具备以下特点:

  1. 计算复杂度低:训练内存消耗少,训练周期短
  2. 具备一定的在线学习能力:不需要大量存储训练样本,来一个学一个,模型可以做到实时更新;
  3. 先验知识起点高:在数据量少的情况下,依然可以进行模型更新和推断,如:贝叶斯统计推断、模式理论、基于领域知识的规则方法等。
  4. 可利用近似计算寻求满意解:非常接近最优解,同时达到大大降低计算复杂度的目的。

机器学习/模式识别关键技术

机器学习的关键技术从算法、场景来看,可以按照以下几个方面展开。

  1. 计算基础
    • 最优化
    • 矩阵计算
    • 概率统计
  2. 非轻量机器学习
    • 无监督学习:聚类(K-均值聚类、层级聚类)、自组织映射
    • 有监督学习
      • 参数方法:最大似然估计、期望最大化算法(隐Markov模型)、回归模型(Logistic回归)
      • 非参数方法:基于实例的方法(近邻法、核密度法)、决策树(ID3/4/5,CART)
      • 核方法:高斯过程,关联向量机、核PCA等
      • 几何方法:支持向量机、流形学习
      • 概率图模型:贝叶斯网络、Markov随机场
      • 贝叶斯方法:先验分布的设定、后验分布的近似计算、贝叶斯神经网络、贝叶斯回归模型
      • 神经网络:后传播算法、深度学习(RNN、CNN)
  3. 随机模拟技术
    • 常见分布的随机数产生器
    • Markov链
    • Monte Carlo
    • Gibbs采样器
  4. 统计决策
    • 贝叶斯期望损失
    • 极小极大原则
    • 贝叶斯风险原则
  5. 轻量机器学习
    • 轻量模型(计算复杂度低)
    • 在线学习(不存储训练数据)
    • 近似求解(求满意解,降低复杂度)
    • 基于受限领域知识的规则方法
    • 贝叶斯统计推断
    • 其他
  6. 学习策略
    • 集成学习:自助聚集、梯度提升(多个决策系统选择出更加好的决策)
    • 增量学习:内容每次基于当前结果学习,不需要从头学习
    • 迁移学习:学习的成果能否用于周边的相似场景、数据等

总结:以上内容之间的关系图谱

  • 计算基础 -> 非轻量机器学习、概率统计 -> 随机模拟技术
  • 非轻量机器学习 <-> 统计决策、非轻量机器学习 -> 轻量机器学习
  • 随机模拟技术 -> 非轻量机器学习、随机模拟技术 -> 学习策略
  • 学习策略 -> 轻量机器学习、 学习策略 -> 非轻量机器学习

如何看待数据

数据分析的流程:RAW(原始数据) -> 特征工程(清洗、转换) -> 特点 -> 建模 -> 洞察,特征工程往往占据了80%的工作量,是非常重要的一环。

特征工程的分类:

  1. 数据表示:特征选择(选择出某些特诊项和值)、特征抽取(选择数据后,混合某些项目和值,得出新的规律)
  2. 数据整理:数据清洗、缺失数据分析、诱导性特性、数据压缩、数据合并
  3. 关系发现:关联规则挖掘、独立性假设检验
  4. 异常点检测:时间序列分析、支持向量回归、密度函数

特征工程是数据分析中非常重要的一环,对后续的数据预测数据准确率起到了关键作用。

数据压缩解决了高维数据降低到低维数据,从而降低算法的复杂度,寻求满意解。 异常时间点检测:时间序列方法和机器学习方法,实时分析数据,根据不同的异常点类型检测结果。

机器学习经典方法和深度学习的对比

方法 优点 缺点
经典方法 1. 数学理论清楚,一般经过严格论证 1. 数据质量和特征选择直接影响结果
  2. 很多问题归结为最优化 2. 过拟合现象比较普遍,稳健性相对于贝叶斯方法差一些
深度学习 1. 在数据表示上有天生优势 1. 完全数据驱动,在知识表示上欠缺
  2. 在图像分析、语音识别等具体应用上效果明显 2. 缺乏坚实的理论基础,难以推广
    3. 调参数困难,学习周期太长

认知计算的三驾马车:机器学习、自然语言处理与理解、知识,使用了传统的人工智能的方法。

课程总结

  • 理性地看待人工智能的现状: 1. 深度学习在图像、语音的感知领域取得辉煌的成就,但是在推理、认知等方面仍然十分欠缺;2. 强化学习如果没有仿真环境、没有先验知识将寸步难行。
  • 人工智能的发展趋势是走向融合: 传统机器学习 + 深度学习 + 强化学习 + 知识推理 + 智能决策