一.线性代数和数学在机器学习中的介绍

学习目标

  • Recall how machine learning, vectors and matrices are related.
  • Interprest how changes in the model parameters affect the quality of the fit to the training data.
  • Recognize that variations in the model parameters are vectors on the response surface - that vectors are a generic concept not limited to a physical real space.
  • Use substitution/ elimination to solve a fairly easy linear algebra problem.
  • Understand how to add vectors and multiply by a scalar number.

如何在这门课获得成功

  1. Read the syllabus: all the important information can be found here
  2. Make a concrete and reasonable study plan.
  3. Log on to the class at least 3 times a week.
  4. Ask questions!!
  5. Make connections with your fellow learners.

机器学习和线性代数的关系

Linear algebra is defined to be study the vectors, vector spaces and a mapping between vector spaces.

为什么需要线性代数

  1. Problem of solving the simultaneous equations.
    $$
    \begin{equation}
    \begin{cases}
    3x + 2y &=& 5\\
    x+4y &=& 4\
    \end{cases}
    \end{equation}
    $$

  2. The optimization problem of fitting some data with an equation with some fitting parameters
    在整个机器学习中,线性代数主要用来解决以上两个问题。

向量操作

Vector 的不同表现形式

  • math
    • space 中个一个点
    • 一组有序数对:$(x_1x_2,…,x_3)$
    • 一个有方向、有大小的线段(几何视角)
  • 物理
    • 三位空间中的一个点
    • 四维空间(增加时间维度)中的一个点
  • 计算机科学/统计学/机器学习
    • 一个数组/list(programming language)
    • 样本的若干属性(attributes)的一组值
    • 一个example的feature values

名称不一样,但本质大同小异。本课程中我们采用:Point which can move around in a space 这一说法。

向量的基石

  1. 向量加法-按照四边形法则
    $$
    \vec r+\vec u = \vec v
    $$向量加法的意思是:从原点开始沿着$\vec r$ ,接着沿$\vec u$ 方向走。
  2. 数乘
    $$
    \vec r^\prime =a\vec r
    $$数乘的意思是:对向量$\vec r$ 进行缩放(scale),如果$a>0$, 沿着$\vec r$ 相同的方向缩放;如果 $a<0$ , 沿着$\vec r$ 相反的方向缩放,缩放的倍数为$a$.

向量加法和数乘是之后所有基于向量的其他概念的基石。向量空间的定义也依赖于这两个操作。

坐标系统( coordinate system)

现有两个标准正交向量$\vec i,\vec j​$ 定义一个 vector space,
$$
\begin{align}
\vec r &= 3\vec i + 2\vec j=\begin{bmatrix}
3\\
2
\end{bmatrix}\\
\vec s &= 2\vec i - 3\vec j = \begin{bmatrix}
2\\
-3
\end{bmatrix}
\end{align}
$$

上面的$\vec r$ 的意思是朝着$\vec i$ 的方向走 3 steps, 然后朝着$\vec j$ 的方向走2 steps; 同理,$\vec s$ 的意思是朝着 $\vec i$ 的方向走2 steps,然后朝着 $\vec j$ 的反方向走 3 steps。这个所谓的沿着方向走几个“steps”,是与平行四边形法则兼容的。

这样我们就在2个base vectors和向量加法、数乘操作的基础上定义了一个坐标系统:$\rightarrow$ 在以 $\vec i$, $\vec j$ 为基的空间中的任意一个向量 $\vec r$, 都唯一对应一个坐标。

数据科学中的向量

首先要建立以下认知:

  • 向量是空间中的一个点(vector is a point in some space)
  • 空间有很多种
    • data space(with respect to measured data!)
    • vector space
    • parameter space
    • function space, etc.
  • 向量可以是:数据本身或者模型参数。这取决于你把什么内容组以向量的形式组织:是training data or parameters of a model.

有了上述认知,我们就可以采用基于向量的操作处理机器学习中所要解决的问题。

Getting a handle on vectors

一个模型和向量有什么关系?其实,他们之间的关系基于如下因素:

  • 模型含有参数(绝大部份模型都包含参数,参数是衡量模型能力大小的标志之一)
  • 不同的参数即对应不同的具体函数
  • 不同的函数在处理数据时性能不同
  • 因此,适当的选取参数对于模型最终性能的表现起到了决定作用

因此,当我们看到向量的时候,要问自己如下问题:

  1. 这个向量是模型参数的组织形式,还是数据的组织形式?
  2. 这个参数是什么模型的参数?
  3. 如何选取合适的参数,使得模型性能达到最好?
  4. 这个所谓的模型“性能最好” 的测量标准是什么,如何评价好坏?

探索参数空间(parameter space)

一个例子

一个随机变量$X\thicksim N(\mu,\sigma)$ , 其PDF$f_X(x)=\frac{1}{\sigma \sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{\sigma ^2}).$

其中$(\mu,\sigma)$ 就是其密度函数的参数(parameters),有如下结论:
$$
(\mu_1,\sigma_1)\ne (\mu_2,\sigma_2)\Rightarrow f_X^1\ne f_X^2
$$
换句话说,就是上一小节我们提到的:不同的参数对应不同的函数. 参见下图,

norm_distribution_wiki

从参数到参数空间

机器学习中一个最重要的任务是:Fit a model to data in order to predict the underlying distribution.

以高斯分布为例(前文),我们将它的两个参数 $(\mu,\sigma)$ 组织成向量的形式,
$$
\mathbf{p}=\begin{bmatrix}
\mu \\
\sigma
\end{bmatrix}
$$
那么k组不同的参数$(\mu_1,\sigma_1),(\mu_2,\sigma_2),…,(\mu_k,\sigma_k)$将对应k个参数向量parameter vector): $\mathbf{p_1},…,\mathbf{p_k}$, 这些向量将张成一个 vactor space, 由于每个向量的components 都是随机变量$X$ 的密度函数 $f_X(x)$ 的参数,因此这个 vector space 也是一个 parameter space.

如何衡量参数估计的结果?(Evaluation metric of estimating parameters)

之前所说的选择合适的参数使得模型性能好是一种通俗的说话,在机器学习或者统计的范畴里,这个问题叫做:参数估计(parameter estimating)。

由于不同的估计方法、人们不同的偏见(bias),使得面对同样的数据,我们估计出来的参数往往是不一样的。那么能否有一个大致的标准来指导我们进行参数估计呢?这个标准是有的(而且还不唯一!):

我们需要使得我们估计的参数与某组客观存在的参数的差异/误差尽可能小! 我们也把这个差异/误差叫做:Error, Loss, Residuals, etc.(The difference between the measured data and the model prediction.)

SSR (Sum of Squared Residual):

假设我们已经估计好了参数,那么我们可以使用这个模型进行在对新的数据进行预测。我们对模型的认知有如下几个方面,

- 如果一个模型很好地拟合了measured data(training data),我们才说这是好的模型。
- 参数可以取各种不同的值(values),我们知道参数的一些取值是比另一些好的(更好的fit data)。
- 那么现在的问题是,如何判断好坏?

如下图所示,粉色的是已经估计好参数的模型(确定了具体参数的密度函数),橘色代表data(frequency histogram)。



Residual: 粉色和橘色在同一横坐标下的高度差

SSR 定义:
$$
\begin{align}
\text{SSR}(\mathbf{p})&=|f_{data} - g_p|^2\\
&= \sum_{\mu}\sum_{\sigma}(\mu_{data}-\mu_g)^2 + (\sigma_{data} -\sigma_g)^2
\end{align}
$$

我们希望SSR(p) 越小越好,也即上图中绿色的部分(重合部分)越大越好。

我们可以为SSR(p) 设定一个阈值,比如:threshold=0.00001,当其小于threshold的时候我们认为模型 $g_p$ 就已经足够好了。

之前我们提到,我们假设参数已经估计好了,于是在SSR的指导下,我们已经可以判断模型好坏了。但现在还遗留了最后一个问题:参数是怎么估计的?

如何估计参数?

因为每个参数向量(each parameter vector) 都代表了不同的函数, 每个参数向量都对应有一个SSR值。we can draw the surface of SSR values over the space spanned by these $\mathbf{p}$ , 比如前面例子中的 $\mu$ 和 $\sigma$.

下图是 Surface of SSR values 的展示,

我们采用一种 “Top-down” 的视角看这个surface,把它看作一个等高线图(contour map),其中每个等高线代表了SSR的一个固定取值(constant value)。

机器学习的目的是找到那个能够尽可能好地拟合数据的参数集(parameter set),有了我们前面的知识,这个问题就转化为 在下图所示空间中寻找一个最低点-全局最低(“这个空间”,就是指parameter space

只要我们有办法在这个空间找到最低点,那么所有问题就都解决了。然而,找到最低点的方法是什么?答案是:梯度下降(Gradient descent),

Gradient descent-一种优化算法

我们可以定义另一个与 $\mathbf{p}$ 在同一个空间的vector,$\Delta \mathbf{p}\rightarrow$它将告诉我们对$\mathbf{p}$ 做什么改变将会更好地拟合数据:

例如: a model with parameters $\mathbf{p^\prime=p+\Delta p}$ will produce a better fit to data, if we can find a suitable $\mathbf{\Delta p}$.

梯度下降是本系列课程中第二门课程的重点内容之一,在此不做过多细节介绍。

坚持原创分享,您的支持是我继续创作的动力!