finish 7.1

7 years ago · a1e794565f
--- a/image/20180112_085630.png
+++ b/image/20180112_085630.png
--- a/image/20180112_091654.png
+++ b/image/20180112_091654.png
--- a/image/20180112_092027.png
+++ b/image/20180112_092027.png
--- a/week2.html
+++ b/week2.html
--- a/week2.md
+++ b/week2.md
@@ -214,6 +214,8 @@ $$

 ## 5.5 Control Statements_ for, while, if statement

 ## 5.6 Vectorization
 ## 5.6 向量化(Vectorization)

 $\sum\limits_{j=0}^n\theta_jx_j=\theta^Tx$

 ## 5.x 常用函数整理
--- a/week3.html
+++ b/week3.html
--- a/week3.md
+++ b/week3.md
@@ -124,7 +124,7 @@ ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2

 如果是一个凸函数，可以对其进行最优化分析，这类最优化问题，称为**凸优化问题**。还好，损失函数不止平方损失函数一种。

 对于逻辑回归，更换平方损失函数为**对数损失函数：**
 对于逻辑回归，更换平方损失函数为**对数损失函数**，可由统计学中的最大似然估计方法推出损失函数 $J(\theta)$:

 $\begin{align*}& J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}) \newline & \mathrm{Cost}(h_\theta(x),y) = -\log(h_\theta(x)) \; & \text{if y = 1} \newline & \mathrm{Cost}(h_\theta(x),y) = -\log(1-h_\theta(x)) \; & \text{if y = 0}\end{align*}$

@@ -293,10 +293,62 @@ exitFlag = 1

 对于某个样本实例，需计算所有的 $k$ 种分类情况得到 $h_\theta(x)$，然后看分为哪个类别时预测输出的值最大，就说它输出属于哪个类别，即 $y = \mathop{\max}\limits_i\,h_\theta^{\left( i \right)}\left( x \right)$。

 # 7 Regularization
 ## 7.1 The Problem of Overfitting
 # 7 正则化(Regularization)
 ## 7.1 过拟合问题(The Problem of Overfitting)

 对于拟合的表现，可以分为三类情况：
 - **欠拟合(Underfitting)**

  无法很好的拟合训练集中的数据，预测值和实际值的误差很大，这类情况被称为欠拟合。拟合模型比较简单（特征选少了）时易出现这类情况。类似于，你上课不好好听，啥都不会，下课也差不多啥都不会。

 - **优良的拟合(Just right)**

  不论是训练集数据还是不在训练集中的预测数据，都能给出较为正确的结果。类似于，学霸学神！

 - **过拟合(Overfitting)**

  能很好甚至完美拟合训练集中的数据，即 $J(\theta) \to 0$，但是对于不在训练集中的**新数据**，预测值和实际值的误差会很大，**泛化能力弱**，这类情况被称为过拟合。拟合模型过于复杂（特征选多了）时易出现这类情况。类似于，你上课跟着老师做题都会都听懂了，下课遇到新题就懵了不会拓展。

 线性模型中的拟合情况(左图欠拟合，右图过拟合)：
 ![](image/20180112_091654.png)


 逻辑分类模型中的拟合情况：
 ![](image/20180112_092027.png)



 为了度量拟合表现，引入：

 - 偏差(bias)

  指模型的预测值与真实值的**偏离程度**。偏差越大，预测值偏离真实值越厉害。偏差低意味着能较好地反应训练集中的数据情况。

 - 方差(Variance)

  指模型预测值的**离散程度或者变化范围**。方差越大，数据的分布越分散，函数波动越大，泛化能力越差。方差低意味着拟合曲线的稳定性高，波动小。

 据此，我们有对同一数据的各类拟合情况如下图：
 ![](image/20180112_085630.png)

 据上图，高偏差意味着欠拟合，高方差意味着过拟合。

 我们应尽量使得拟合模型处于低方差（较好地拟合数据）状态且同时处于低偏差（较好地预测新值）的状态。

 避免过拟合的方法有：

 - 减少特征的数量
  - 手动选取需保留的特征
  - 使用模型选择算法来选取合适的特征(如 PCA 算法)
  - 减少特征的方式易丢失有用的特征信息
 - 正则化(Regularization)
  - 可保留所有参数（许多有用的特征都能轻微影响结果）
  - 减少/惩罚各参数大小(magnitude)，以减轻各参数对模型的影响参数
  - 当有很多参数对于模型只有轻微影响时，正则化方法的表现很好

 ## 7.2 代价函数(Cost Function)


 ## 7.2 Cost Function

 ## 7.3 Regularized Linear Regression