Fork me on GitHub

深度学习系列:(五)机器学习基础

本文尚未全部完成。

待补充。

5.8 无监督学习

从不需要人为注释的样本中抽取信息。

通常与密度估计有关。 学习从分布中采样,学习从分布中去噪,寻找数据分布的流形 或是 将数据中相关的样本聚类。

一个经典的无监督学习任务:找到数据的“最佳”表示。

较简单表示主要有三种:低维表示稀疏表示独立表示

表示的概念是深度学习的核心主题之一,也是本书的核心主题之一。

5.8.1 主成分分析

通过线性变换W将数据从x投影到z时,得到的数据表示的协方差矩阵为对角的。即:z中的元素是彼此无关的。

5.8.2 k-均值聚类

k均值聚类的算法提供了k维的one-hot编码向量h以表示输入x。当x属于聚类i时,有$h_i=1$,h的其他项为零。

one-hot编码是稀疏表示的极端示例,丢失了很多分布式表示的优点。

k-均值聚类初始化k个不同的中心点$\mu^{(1)},\cdots ,\mu^{(k)}$,然后迭代交换两个不同的步骤直到收敛。

步骤一,每个训练样本分配到最近的中心点$\mu^{(i)}$所代表的聚类$i\ $。
步骤二,每个中心点更新为聚类$i\ $中所有训练样本$x^{(i)}$的均值。

聚类问题的本身是病态的。没有单一的标准去度量聚类的数据在真实世界中效果如何。

因此,我们可能更偏好于分布式表示。分布式表示可以对每个车辆赋予两个属性——一个表示它的颜色,一个表示它是汽车还是卡车。

5.9 随机梯度下降

随机梯度下降:stochastic gradient descent,SGD。

机器学习中的代价函数通常可以分解为每个样本的代价函数的总和。

训练数据的负条件对数似然 $\;$可以写为:

$$J(\theta) = E_{x,\; y \sim \hat P_{data}}L(x,y,\theta ) = \frac 1m \sum_{i=1}^m L(x^{(i)},y^{(i)},\theta ) $$

其中,L是每个样本的损失函数。

随机梯度下降的核心是,梯度是期望。期望可使用小规模的样本近似估计

5.10 构建机器学习算法

组合模型、代价和优化算法 来构建机器学习算法的配方。适用于监督学习以及非监督学习。

------ 本文结束感谢您的阅读 ------
坚持原创技术分享,您的支持将鼓励我继续创作!