新普金娱乐网址


您为什么读书——读《怎么样阅读一本书》有感

数学读书推荐之怎么着阅读一本书

数学Stanford机器学习笔记-3.Bayesian statistics and Regularization

  • 三月 10, 2019
  • 数学
  • 没有评论

3. Bayesian statistics and Regularization

Content

  3. Bayesian statistics and
Regularization. 

    3.1 Underfitting and
overfitting. 

    3.2 Bayesian statistics and
regularization. 

    3.3 Optimize Cost function by
regularization. 

      3.3.1 Regularized linear
regression. 

      3.3.2 Regularized logistic
regression. 

    3.4 Advanced optimization.

key words: underfitting, overfitting,
regularization, bayesian statistic

3.1 Underfitting and overfitting

前边已经学习了线性回归模型logistic回归模型,它们在不少地点都有接纳,例如使用线性回归模型(也能够是多项式)实行房价预测,logistic回归模型垃圾邮件分类等。不过,在动用进程中大概存在部分题材,例如过拟合(overfitting),与之相对的就是欠拟合(underfitting)

所谓过拟合,简而言之就是大家安顿的求学模型对练习样本的求学能力太强大了,导致对训练样本拟合的太好。此时可能同学就有问号:拟合得很好不是好事啊,为啥照旧问题吗?注意,我们规划学习模型的指标并不是对磨炼样本拟合就ok了,我们磨练模型是为了它亦可对不在磨练集中的数额有较好的预测。磨练集是大家所切磋的全方位数据集的三个子集,大家觉得它应有有像任何属于全部数据集的特征,但同时,它也司空眼惯有它和谐独有的特点。所以,假使学习模型的读书能力太强,学到了教练集独有的特色,对操练样本拟合得太好,也便是过拟合,那么它只怕对不属于磨炼集但属于大家商讨的数据集的多寡展望得糟糕,也正是泛化能力(generalization)降低。而欠拟合,便是对练习样本拟合得太差,连我们所研商的数码集都具有的特色都未曾学到。从数学上分析,欠拟合将会招致相当大的偏差(bias),而过拟合将会导致非常的大的方差(variance)。

上面通过图3-1线性回归中预测房价的例证和图3-2Logistic回归中0-1分类的例子直观感受欠拟合和过拟合。

数学 1

图3-1 线性回归中的欠拟合与过拟合

数学 2

图3-2
Logistic回归处理0-1分类难题中的欠拟合与过拟合

平凡来说,欠拟合是相比好消除的,例如在线性回归和Logistic回归中,大家兴许通过增添新的风味大概用较高次数的多项式。但过拟合是比较难以决定的,因为它那几个的争持:
大家认为选出的演习集可以在十分大程度上表示所研商的上上下下数据集,所以大家希望模型能够较好的拟合,可是,大家又理解练习集不可防止的有力不从心泛化的风味。所以或多或少大家的上学模型都会学报到并且接受集磨练集所独有的表征。虽说如此,但照旧有一些艺术来减少过拟合的高风险。

  1. 减掉特征的多寡
    • 尽量挑选大家以为颇具一般化的特点,除去或然唯有练习集才有的天性。(人工的)
    • 动用模型选拔算法(Model selection algorithm)
  2. 正则化(Regularization)

自个儿是90后,江苏人,毕业于首都一个司空见惯高校,荷兰语专业。

3.2 Bayesian statistics and regularization

正则化的主干考虑是保存全部的特征量,但透过减弱参数θ来防止有些特征量影响过大。

上边从Bayesian
statistics(贝叶斯总括)学派来驾驭正则化。

在事先,大家透过动用相当的大似然法(maximum
likelihood:
ML)对参数θ举办推测,进而赢得代价函数,认为θ的取值应使得似然函数最大,也就使得代价函数最小,即有

 数学 3

据此巨大似然臆想中认为θ是大家不知底的参数,而不是2个变量,那正是频率学派(frequentist
statistics)的理念。那种看法认为,θ不是随机的(自然也就没有自由分布这一说法),它是常量,理应等于有些值。所以大家的行事是用比如十分的大似然那样计算学的章程来估计它。

只是贝叶斯学派认为,θ是雾里看花的随机变量,所以在大家对练习集实行陶冶在此之前,θ就大概服从某种分布p(θ),大家称为先验可能率(prior
distribution)。对于一个教练集
数学 4,假使大家要对新的开始展览前瞻,大家能够通过贝叶斯公式算出θ的后验概率(posterior
distribution),即:

数学 5

地点正是总体的贝叶斯预测,可是其实很难总计出θ的后验可能率,因为(1)式要求对θ进行积分,而θ往往是高维的,所以很难达成。

就此在骨子里运用中大家平常是近似θ的后验概率。一种常用的类似情势就是三个点的估计来取代(2)式。The
MAP(maximum a posteriori)推断如下:

 数学 6

大家发现(3)式相较于巨大似然估量,只是前面乘了θ的先验概率。

在实质上选用中,日常尽管数学 7(当然也有别的的比方情势)。在实际上中,The
Bayesian MAP estimate比一点都不小似然推测更好的削减过拟合。例如,用Bayesian
Logistic 回归算法能够用来拍卖特征数远大于演习样本数文本分类难点。

本身的前25年直接波澜不惊,规行矩步,高校毕业后,就职于互连网行业,直到前年。

3.3 Optimize Cost function by regularization

上边表明如何使用正则化来周到cost
function.
首先看1个直观的例子。如图3-3所示,一开头由于多项式次数过高导致过拟合,不过一旦在cost
function后增进一千*theta3^2+1000*theta4^2, 为了使cost
function最小,那么在优化(迭代)进程中,会使得theta3和theta4趋近于0,这样多项式后两项的高次效能就收缩,过拟合获得了立异。那就一定于对非一般化特征量的处置。

数学 8

图3-3 正则化的直观感受

像许多青少年一样,想要做本人真的热爱的事,一心没办法二用,于是做出了控制–辞职。

3.3.1 Regularized linear regression

一般的,对于线性模型正则化后的cost
function如下:

数学 9(注意正则化不包括theta0)

Lambda的取值应该适用,借使过大(如10^10)将会招致theta都趋于0,全数的特征量没有被学习到,导致欠拟合。后边将会谈谈lambda的取值,未来一时半刻认为在0~10之间。

既然cost
function改变了,那么只要接纳梯度降低法来优化,自然也要做相应的转移,如下:

数学 10

用作线性回归的另一种模型,正规方程(the
normal equations)也能够正则化,方式如下:

数学 11

通过1.2.3节,大家知晓,假设演习样本数m小于等于特征数n,那么X’X是不可逆的(使用matlab中pinv可以得到其伪逆),可是只要lambda
> 0,则增长lambda乘以上海教室方式的矩阵后就可逆了。

先是件事:砸重金参与线上、线下的学习

看了看银行卡余额,把总数分成了三拨,留下一成的应急资金和3/10生活必需资金后,剩下的都当做读书预备金。

假诺说从事自由职业,最最根本的正是保险内心的满腔热情不掉队了。

有自小编私人微信号的同室都得以旁观,每一周不是在学习正是在去学学的旅途,七日转换叁 、六个城市是根本的事。

打飞的去上本田健老师的资财观线下课,花3个月的工钱飞去克利夫兰上古典占卜课。当天早班机加晚班机往返首都和顺序城市里面。

每一回跟身边的至交吃饭,都被笑,

“你啊你,大概做占星师挣得还不够你花的吧”

“你总给自个儿一种在读高三的错觉”

3.3.2 Regularized logistic regression

数学 12

 

数学 13

 

其次件事:坚定不移学匈牙利(Magyarország)语

自个儿的高校是个卓殊平凡的高校,专业是商务阿拉伯语,其实无须本身个人的爱惜,只是高等高校统招考试斯拉维尼亚语单科考了142分的高分(数学拉后腿还没通过海关),偏重有个别学科偏的决定。

老母问小编,“报什么标准?要不学会计?结束学业了考个公务员?”

“不了吧,我也不领悟学怎么着好,要不学西班牙语吗”

就那样学了法语专业,但是因为高校时代平常翘课出去学种种神秘学课程,导致最后的实际业绩单上边世“口语100,英美经济学50,保加多特Mond语泛读65,翻译90”那种长短不一的大成。

但辛亏结束学业前获得了行业内部八级的证件。

在此后的办事中,除了第三份是因为国有集团的缘故,前边的劳作都用不到印度语印尼语,于是也抛到了脑后。

千帆竞发专职做神秘学之后,在女票的建议下,打算重拾西班牙语。

“终究是从西方传过来的事物,老外的接受度会更高”

一语惊醒梦中人。

因为每日的劳作安插的很满,所以不得不用早起和睡前的一小时来学朝鲜语。(小诀窍,睡前和起来后的一段时间人的回想力是最好的~)

“怎么检验功用啊?”作者抛出标题给女票。

“最简便易行残暴的正是去考个证”女票极其认真地瞅着自笔者说。

于是,在17年也获得了CATTI口译二级证书。

3.4 Advanced optimization

在其实的施用中,大家一般不会融洽实现梯度下落法来优化目标函数,而是选择编制程序语言函数库。例如利用matlab中的fminunc函数。所以大家只供给编写出求cost
function以及其导数的函数就能够了,以Logistic
regression如下所示,(注目的在于matlab中向量下标以1初始,所以theta0应为theta(1))。

数学 14

matlab达成Logistic regression的该函数代码如下:

function [J, grad] = costFunctionReg(theta, X, y, lambda)
%COSTFUNCTIONREG Compute cost and gradient for logistic regression with regularization
%   J = COSTFUNCTIONREG(theta, X, y, lambda) computes the cost of using
%   theta as the parameter for regularized logistic regression and the
%   gradient of the cost w.r.t. to the parameters. 

m = length(y); % number of training examples
n = size(X,2);   % features number

J = 0;
grad = zeros(size(theta));

h = sigmoid(X * theta); % sigmoid function

J = sum((-y) .* log(h) - (1-y) .* log(1-h)) / m + lambda * sum(theta(2:n) .^ 2) / (2*m);

grad(1) = sum((h - y) .* X(:,1)) / m;
for i = 2:n
    grad(i) = sum((h - y) .* X(:,i)) / m + lambda * theta(i) / m;
end

end

 调用时的matlab代码片段如下:

% Initialize fitting parameters
initial_theta = zeros(size(X, 2), 1);
% Set regularization parameter lambda to 1 (you can vary this)
lambda = 1;
% Set Options
options = optimset('GradObj', 'on', 'MaxIter', 400);
% Optimize
[theta, J, exit_flag] = ...
    fminunc(@(t)(costFunctionReg(t, X, y, lambda)), initial_theta, options);

 

其三件事:一人去旅行

自个儿是个可怜坐不住的人,一到空闲时间必须求出门。

不过因为做事性质的例外,也决定了绝大多数远门都是一位。

一人的旅行差别于携友带眷,你的方方面面方兴未艾都在目生的风物和生疏的人。

就像本身提议塔罗徒弟们的那样,“得接触丰富多的人,深入入世,才能深远地明白塔罗牌面”

换成面生的环境,和出租汽车车驾乘员聊天当地的生活,和中国青年旅行社COO说说本地的美味的吃食,再和路边晒太阳的阿婆聊一聊那么些时代的事。

思路全部开辟,再不会局限在大团结窸窸窣窣的心怀和忧患里。

温一壶黄酒,坐在小宾馆的窗边。

第④件事:继续求学神秘学

记得汪涵曾经说过这么一句话,“年轻人呐,要勇敢些,敢于去追求和谐真正心爱的作业,唯有那样您才能努力的离家那个没来由的忧患和盲目。”

固然如此说已经在2017年始于带徒弟,但一方面也在接二连三攻读,和不一样的导师深造,各类人的价值观、阅历总会和你撞倒出分化的火花。

坚持每个案例复盘,坚韧不拔每一日在腾讯网、今日头条立异一篇神秘学作品。

17年2月报名参与全国塔罗大赛。

1月二十三日从飞机场到家,甩下双肩包,端坐在电脑前,等待即未来临的全国塔罗大赛决赛。

终极赢得全国第四的成绩(第②到第9都叫八强)

第肆件事:和人群断舍离

那里说的断舍离其实换种说法是远离无意义信息和社交。

《一盘散沙》中有一句那样的话:“人一到群众体育中,智商就严重消沉,为了赢得承认,个体愿意甩掉是非,用智慧去换取那份令人倍感安全的归属感。”

转业神秘学之后,越多的时候是咖啡厅、书店一坐一天,或阅读、或写字、或教学,或积极或被动也就离家了人群。

唯独,刚早先自由职业的时候,发现时间根本不够用,从中午10点起来,到深夜2点,居然一个复盘都不曾达成,不由地忧虑。于是,从第叁天初步观看,时间终归是哪些一点一滴消解掉的。

热点新闻、快递音讯、外卖、微信、社群、广告…等等。

原先时间就是那般被“偷走”的。

考察身边的有的名特别减价人物,多数都以处于“找不到人”的情景。

在干活的时候,屏蔽一切消息和人,看起来都会稍微“不合群”,但她们意识到首要的事须要丰裕的日子和频率去做到,一切源于他们打心眼里的约束。

团聚的时候好好聚,聊天的时候聊痛快,挥手转身又投入到个其余跑道,那样的生存才尽兴。

成长是一件孤独又有个别痛心的事情,借使您学会了独处,学会分享一人的独身,那就离成功不远了。

相关文章

No Comments, Be The First!
近期评论
    分类目录
    功能
    网站地图xml地图