Browse Source

finish 7.1

master
scruel 7 years ago
parent
commit
a1e794565f
7 changed files with 74 additions and 17 deletions
  1. BIN
      image/20180112_085630.png
  2. BIN
      image/20180112_091654.png
  3. BIN
      image/20180112_092027.png
  4. +2
    -2
      week2.html
  5. +3
    -1
      week2.md
  6. +13
    -10
      week3.html
  7. +56
    -4
      week3.md

BIN
image/20180112_085630.png View File

Before After
Width: 599  |  Height: 466  |  Size: 184 kB

BIN
image/20180112_091654.png View File

Before After
Width: 1075  |  Height: 301  |  Size: 39 kB

BIN
image/20180112_092027.png View File

Before After
Width: 1112  |  Height: 469  |  Size: 99 kB

+ 2
- 2
week2.html
File diff suppressed because it is too large
View File


+ 3
- 1
week2.md View File

@@ -214,6 +214,8 @@ $$

## 5.5 Control Statements_ for, while, if statement

## 5.6 Vectorization
## 5.6 向量化(Vectorization)

$\sum\limits_{j=0}^n\theta_jx_j=\theta^Tx$

## 5.x 常用函数整理

+ 13
- 10
week3.html
File diff suppressed because it is too large
View File


+ 56
- 4
week3.md View File

@@ -124,7 +124,7 @@ ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2

如果是一个凸函数,可以对其进行最优化分析,这类最优化问题,称为**凸优化问题**。还好,损失函数不止平方损失函数一种。

对于逻辑回归,更换平方损失函数为**对数损失函数**
对于逻辑回归,更换平方损失函数为**对数损失函数**,可由统计学中的最大似然估计方法推出损失函数 $J(\theta)$:

$\begin{align*}& J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}) \newline & \mathrm{Cost}(h_\theta(x),y) = -\log(h_\theta(x)) \; & \text{if y = 1} \newline & \mathrm{Cost}(h_\theta(x),y) = -\log(1-h_\theta(x)) \; & \text{if y = 0}\end{align*}$

@@ -293,10 +293,62 @@ exitFlag = 1

对于某个样本实例,需计算所有的 $k$ 种分类情况得到 $h_\theta(x)$,然后看分为哪个类别时预测输出的值最大,就说它输出属于哪个类别,即 $y = \mathop{\max}\limits_i\,h_\theta^{\left( i \right)}\left( x \right)$。

# 7 Regularization
## 7.1 The Problem of Overfitting
# 7 正则化(Regularization)
## 7.1 过拟合问题(The Problem of Overfitting)

对于拟合的表现,可以分为三类情况:
- **欠拟合(Underfitting)**

无法很好的拟合训练集中的数据,预测值和实际值的误差很大,这类情况被称为欠拟合。拟合模型比较简单(特征选少了)时易出现这类情况。类似于,你上课不好好听,啥都不会,下课也差不多啥都不会。

- **优良的拟合(Just right)**

不论是训练集数据还是不在训练集中的预测数据,都能给出较为正确的结果。类似于,学霸学神!

- **过拟合(Overfitting)**

能很好甚至完美拟合训练集中的数据,即 $J(\theta) \to 0$,但是对于不在训练集中的**新数据**,预测值和实际值的误差会很大,**泛化能力弱**,这类情况被称为过拟合。拟合模型过于复杂(特征选多了)时易出现这类情况。类似于,你上课跟着老师做题都会都听懂了,下课遇到新题就懵了不会拓展。

线性模型中的拟合情况(左图欠拟合,右图过拟合):
![](image/20180112_091654.png)


逻辑分类模型中的拟合情况:
![](image/20180112_092027.png)



为了度量拟合表现,引入:

- 偏差(bias)

指模型的预测值与真实值的**偏离程度**。偏差越大,预测值偏离真实值越厉害。偏差低意味着能较好地反应训练集中的数据情况。

- 方差(Variance)

指模型预测值的**离散程度或者变化范围**。方差越大,数据的分布越分散,函数波动越大,泛化能力越差。方差低意味着拟合曲线的稳定性高,波动小。

据此,我们有对同一数据的各类拟合情况如下图:
![](image/20180112_085630.png)

据上图,高偏差意味着欠拟合,高方差意味着过拟合。

我们应尽量使得拟合模型处于低方差(较好地拟合数据)状态且同时处于低偏差(较好地预测新值)的状态。

避免过拟合的方法有:

- 减少特征的数量
- 手动选取需保留的特征
- 使用模型选择算法来选取合适的特征(如 PCA 算法)
- 减少特征的方式易丢失有用的特征信息
- 正则化(Regularization)
- 可保留所有参数(许多有用的特征都能轻微影响结果)
- 减少/惩罚各参数大小(magnitude),以减轻各参数对模型的影响参数
- 当有很多参数对于模型只有轻微影响时,正则化方法的表现很好

## 7.2 代价函数(Cost Function)


## 7.2 Cost Function

## 7.3 Regularized Linear Regression


Loading…
Cancel
Save