Learning Basics
optimal model有很多目标函数:
- minimum error
- probability
- maximum Likelihood
- maximum a posterior
- maximum margin
- compressive sensing
在概率框架下:
- Parameter Learning:
- Structure Learning:
- Generative Models: Learn joint probability P(Y, X=x)
- Discriminative Models: Learn conditional probability P(Y|X=x)
IID Samples
从独立同分布的变量中采样的数据。iid samples 是互相无关的 unrelated 的数据
Avoid Overfitting
Model complexity should fit the complexity of data
什么是 overfitting?
model complexity 比 training data 大很多,在训练的时候得到 zero expirical risk,但是在 test 时预测结果很差
如何判断 overfitting?
判断是否在 testing 的时候 performance 远远低于 training
Generalization
为了避免 overfitting,增加学习模型的泛化能力
- penalize the model complexity
- the regularization term in loss function
- L1 norm:LASSO
- L2 norm: Ridge
- L1+L2: Elastic Net
- simplify model structure
- dropout
- Batch Normalization
- the regularization term in loss function
- separate training/testing
- Cross validation
- 0.632 bootstraping
Maximum Likelihood Parameter Estimation
Likelihood: the probability or confidence for parameter assignment, given a number of data
Log likelihood is commonly used for better calculation
MLE: the parameter estimation is to find the optimal parameter assignment which can maximize the likelihood(optimization)
如果是伯努利分布,对似然对参数求导就能求出最优参数 theta
如果是复杂函数,可以用gradient-based methods, 如果 Likelihood function 是凸的,可以收敛到最优。
为了减少每轮迭代的计算量,使用随机梯度下降的方法,每轮迭代只计算一个样本的梯度。为了避免局部最优,可以使用启发式算法,比如模拟退火和遗传算法
MLE in BNs
把每个 local Likelihood function分别独立求最大化的值,求出 local probability 的参数
MLE 是点估计,point estimation 不是 prediction 或者 distribution estimation
MLE 通过最大化观测数据的联合概率找到最优的参数,但是 MLE 不能使用先验的知识或者参数的限制条件
Bayesian Parameter Estimation
可以使用贝叶斯公式来做估计
所以得到参数的后验分布,而不是点估计。
但是一般情况下,bayesian model 都是用来在新数据上做 prediction 的
右侧的 是的先验分布,如果用 uniform distribution 代表没有先验。
当训练数据不够时,Bayesian estimation可以控制泛化能力。用Bayesian estimation做预测可以看做是 model averaging over all possible parameter settings.
Beta Distribution——Binomial
通常使用 beta distribution 来表示先验,只适用于二项分布,。 if
- Is a normalizing factor
- for integer
二项分布:
beta 分布:
Beta distribution 是 conjugate 共轭的。只用于 binomial distribution
预测的时候:
其中
所以
Dirichlet Distribution——Multinomial
Dirichlet distribution 是多项分布
The likelihood function for multinomial
if
Dirichlet distribution 的优良性质(和 Beta distribution)一样:
- conjugate
- 后验:
所以
MAP Parameter Estimation
MAP estimation is defined as
如果二元分布 beta prior
此时 MAP 和 MLE 是一样的
如果有大量的训练数据,那么 MAP estimation 主要被训练数据影响,似然函数 会占主要地位,可以看成是 regularization。
预测时的后验,
总结:
- MLE 和 MAP 都是点估计,可以用梯度下降求解,
- Bayesian estimation 是概率推断,需要共轭的先验,用 MCMC 做 inference