机器学习
假设用p来评估计算机程序在某任务t上的性能,若一个程序通过利用经验e在t中任务上获得了性能改善,则我们就说关于t和p,该程序对e进行了学习。
机器学习的目标是,从假设空间中,即从输入空间到输出空间的模型映射空间中,寻找一个最优模型。
机器学习算法的典型分类:
- 有监督学习:通过训练数据学到或建立一个“函数”并依此函数推测新的实例。
- 无监督学习:通过无标签的训练数据推断一个“函数”用于描述数据中的隐藏结构。
- 强化学习:在与环境的交互过程中通过学习策略函数以达成回报函数最大化。
线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。主要步骤如下:
- 收集数据
- 选择模型
- 定义模型评价标准
- 找到模型最优参数
决策树
决策树可以认为是if-then规则的集合,其主要优点是模型可解释性好,分类速度快。
K均值聚类
k均值聚类是一种迭代求解的聚类分析算法,该算法将数据分为k组,随机选取初始的聚类中心,然后计算每个对象与各种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
深度学习
深度学习是一种主要使用深度神经网络为工具的机器学习算法。深度学习源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层来表示属性类别或特征,以发现数据的分布式特征表示。
人工神经网络参照生物神经网络,模仿其结构和功能的数学模型或计算模型,来对函数进行估计或近似。
全连接神经网络
全连接神经网络(Fully Connected Neural Network)为ai领域种最早发明的简单人工神经网络类型。在内部,参数从输入层向输出层单向传播,有异于循环神经网络,它的内部不会构成有向环。
深度卷积神经网络
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于图像处理问题有出色表现。
卷积convolution本质上是信号/图像处理领域内的互相关(cross-correlation),一般用来提取局部特征。使用cnn的好处在于:局部链接和权值共享;平移不变性。
池化pooling思想来自于视觉机制,是对信息进行抽象的过程,用来增大感受野,降低模型的参数量。
循环神经网络
循环神经网络(Recurrent Neural Network, RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的神经网络。
循环神经网络具有记忆性,因此在对序列的非线性特征进行学习时具有一定优势。rnn在语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。随着跨度的增加,rnn变得难以对信息之间的关联进行有效学习。
长短期记忆网络(Long Short-Term Memory, LSTM)是为了解决一般的rnn存在的长期依赖问题而设计的。
- lstm中常规的神经元被储存单元替代,适合于处理和预测时间序列中间隔和延迟非常长的事件。
- 遗忘门forget gate决定了前一时刻中memory中的是否会被记住。
- 输入门input gate决定当前的输入有多少被保留下来。
- 输出门output gate决定当前memory的信息有多少会被立即输出。