新普金娱乐网址


PAT 1063. 计算谱半径

仲:程序员资料大全-各种神奇的资料集萃笔记

Stanford机器学习笔记-3.Bayesian statistics and Regularization

  • 十月 26, 2018
  • 数学
  • 没有评论

如何阅读一本书

3. Bayesian statistics and Regularization

Content

  3. Bayesian statistics and
Regularization. 

    3.1 Underfitting and
overfitting. 

    3.2 Bayesian statistics and
regularization. 

    3.3 Optimize Cost function by
regularization. 

      3.3.1 Regularized linear
regression. 

      3.3.2 Regularized logistic
regression. 

    3.4 Advanced optimization.

key words: underfitting, overfitting,
regularization, bayesian statistic

《如何阅读一本书》是同样随好经典的开,被众的书单和许多的知识分子推荐了,我打即仍开的时刻吧是以久仰盛名,买来晚也以急性之心绪向读不下来,这仍开便于封锁之高阁,直到去年十月才磕磕巴巴的朗读毕第一整个,然后以要罢不可知的诵读毕了亚整整,至今以会时不时翻看。

3.1 Underfitting and overfitting

前早已上了线性回归模型与logistic回归模型,它们于无数地方还有利用,例如使用线性回归模型(也得是多项式)进行房价预测,logistic回归模型垃圾邮件分类等。但是,在行使过程遭到恐有有题材,例如过拟合(overfitting),与之相对的虽是欠拟合(underfitting)

所谓过拟合,简单的说哪怕是咱统筹的求学型对训练样本的读能力最为强了,导致对训练样本拟合的不过好。此时或同学就有问号:拟合得稀好不是善吧,为什么要问题啊?注意,我们统筹学习型的目的并无是指向训练样本拟合就ok了,我们训练模型是以它能够针对非以教练集中之数产生比较好的展望。训练集是咱们所研究之全数据集的一个子集,我们认为它应该生出像其它属于通数据集的特色,但以,它吧一般发生其好独有的表征。所以,如果上型的习能力最胜,学到了训练集独有的特点,对训练样本拟合得太好,也尽管是喽拟合,那么它们恐怕针对不属于训练集但属于我们研究之数据集的多少展望得不得了,也就是泛化能力(generalization)下跌。而缺失拟合,就是针对训练样本拟合得极其差,连我们所研究之数码集都具有的特色都不曾法到。从数学及析,欠拟合将会见招大十分的偏差(bias),而过拟合将会晤造成大充分的方差(variance)。

下面通过图3-1线性回归中预计房价的例证和图3-2Logistic回归中0-1分拣的事例直观感受欠拟合和过拟合。

图片 1

祈求3-1 线性回归中之欠拟合和了拟合

图片 2

贪图3-2
Logistic回归处理0-1分拣问题屡遭之不够拟合和过拟合

便来说,欠拟合是较好解决的,例如当线性回归和Logistic回归中,我们恐怕通过增加新的特色或者用比较高次数之基本上项式。但过拟合是较难以决定的,因为它们特别之抵触:
我们认为选出的教练集可以于生充分程度达象征所研究的任何数据集,所以我们想模型能够较好之拟合,但是,我们还要了解训练集不可避免的起力不从心泛化的表征。所以要多还是丢失我们的上学型都见面套到教练集所独有的特征。虽说如此,但要么产生一对术来减了拟合的高风险。

  1. 减少特征的多寡
    • 尽可能选我们觉得所有一般化的表征,除去可能只有训练集才有的性状。(人工的)
    • 使用模型选择算法(Model selection algorithm)
  2. 正则化(Regularization)

当时仍开的作者是从来不提默· J·艾德勒和查尔斯·范多伦。莫提默·
J·艾德勒是《大英百科全书》的编排指导,而查尔斯·范多伦已是哥伦比亚大学的讲课。这片各学者的学术功底足以为这按照开的品质提供保险,而实也是这般。

3.2 Bayesian statistics and regularization

正则化的基本思维是保留所有的特征量,但经过削减参数θ来避免有特征量影响了大。

下从Bayesian
statistics(贝叶斯统计)学派来理解正则化。

于事先,我们由此应用大似然法(maximum
likelihood:
ML)对参数θ进行估算,进而获取代价函数,认为θ的取值应令似然函数最酷,也就算使得代价函数最小,即发生

 图片 3

因而巨大似然估计吃觉得θ是咱不掌握的参数,而休是一个变量,这就算是频率学派(frequentist
statistics)的看法。这种理念看,θ不是即兴的(自然为尽管没有人身自由分布就无异于说法),它是常量,理应等于某些价值。所以我们的做事是为此本极大似然这样统计学的法来估计它。

唯独贝叶斯学派认为,θ是未知之随机变量,所以在我们针对训练集进行训练前,θ就可能从某种分布p(θ),我们誉为先验概率(prior
distribution)。对于一个训练集
图片 4,如果我们而针对性新的拓前瞻,我们得经贝叶斯公式到头来出θ的后验概率(posterior
distribution),即:

图片 5

地方就总体的贝叶斯预测,但是实际很麻烦计算出θ的后验概率,因为(1)式要求对θ进行积分,而θ往往是高维的,所以非常不便实现。

故而当实际上采用中我们经常是近似θ的后验概率。一种常用的类方式尽管是一个触及之估算来代替(2)式。The
MAP(maximum a posteriori)估计如下:

 图片 6

咱们发现(3)式相较于庞大似然估计,只是后面随着了θ的先验概率。

每当骨子里运用被,通常要图片 7(当然也发出其它的使方式)。在实际上被,The
Bayesian MAP estimate比极大似然估计再也好之削减了拟合。例如,用Bayesian
Logistic 回归算法可以用来处理特征数多超出训练样本数文本分类问题。

市面上发出多使得人怎么样看之书本,这仍开呢无差。虽然就是同一准应了how的题材的书写,但是它对why的答应也格外厚。那我们究竟是胡要读?

3.3 Optimize Cost function by regularization

下面说明如何运用正则化来圆cost
function.
首先看一个直观的事例。如图3-3所出示,一开始由于大多项式次数过大导致了拟合,但是只要在cost
function后增长1000*theta3^2+1000*theta4^2, 为了使cost
function最小,那么当优化(迭代)过程遭到,会令theta3及theta4趋近于0,这样基本上项式后少桩的高次作用就是抽,过拟合得到了改良。这就算相当给对非一般化特征量的治罪。

图片 8

图3-3 正则化的直观感受

为提高理解力

《如何看一本书》全书分四篇。在第一首被,作者开宗明义,说明本书是吗那些想只要经过看增进理解力的人数一旦写,并且提出了一个议题:新时代的传播媒体能否提高我们针对之世界之打听,换言之,阅读是否还有必要?我眷恋经常到今天,这个话题依然值得咱们常常反思,我们是不是用新媒体代表了读书来掌握是世界。

或许就社会之开拓进取,我们本着这世界的询问进一步多,但是爆炸的情报对于我们掌握世界呢成了一致栽阻碍。

电视观众、收音机听众、杂志读者所对的是同等种植复杂的整合——从独创的美轮美奂辞藻到通过严谨选择的素材以及统计——目的都在为人口不需要给艰难或用力,很易就整治起自己的“思绪”。

笔者如是说道。信息社会的诱惑无限多,都以劫我们片的注意力,都在试图通过减少我们想,减少我们所给的紧巴巴吸引我们的注意力,因为人生性懒惰。这亟需我们积极选择困难,所以作者才说看要活力,即积极的看。

3.3.1 Regularized linear regression

诚如的,对于线性模型正则化后的cost
function如下:

图片 9(注意正则化不包theta0)

Lambda的取值应该适度,如果过深(如10^10)将见面招theta都趋于0,所有的特征量没有叫学习到,导致差拟合。后面将会晤谈谈lambda的取值,现在小看在0~10之间。

既然cost
function改变了,那么一旦下梯度下降法来优化,自然吧使做相应的改变,如下:

图片 10

当线性回归之另外一样栽模型,正规方程(the
normal equations)也可以正则化,方式如下:

图片 11

通过1.2.3节,我们掌握,如果训练样本数m小于等于特征数n,那么X’X是不可逆的(使用matlab中pinv可以获得其伪逆),但是要lambda
> 0,则长lambda乘以上图形式之矩阵后就是可接了。

呢意识并未接触的有些自己

社会对和自然科学都以试图发现是世界之庐山真面目,让咱们看这个世界原本的指南。但咱针对社会风气之认识不仅仅是悟性的,有时候感觉的认还会撼动我们的良心,更能够如我们的私心丰富。

俺们应该感激论说性的创作——哲学、科学、数学——这些对养有我们生存在的实在世界。但咱吧未克生存在一个截然是这些事物的社会风气里,偶尔我们为使摆脱一下这些事物……但骨子里就是我们真的要逃避现实,应该也是逃避到一个再透、或重复宏大之实里。

起成千上万巨大之文学作品刻画了重重咱们到无了的社会风气,比如说历史及之景气一时、战争而或其他人的内心世界。我们无可知感受别样一样种植人生,但是当我们开辟心灵去接这些故事之时段,我们可以当这些故事里看别人,再回顾自己,跟随者故事的东或者其他小人物去经历一生之悲悲喜喜、重大时刻、艰难抉择。因为我们的大脑在想象这些状况的时光会认为咱们在经历,我们心中的感受和亲身经历别无第二予,我们能感受及温馨的喜欢、自己之气,这些好和愤怒会充盈一个读者的心灵,那正是我们从未接触的有自。

一律句话概括,读书,是为了向他发现还真实的社会风气,也是以向内搜寻再完整的祥和。尽管比如相同棵植物,需要向上生长,向往阳光,又得往下扎根,牢牢的引发土壤。这是本人看了关于为什么读书太好之解答。

《如何看一本书》读起来并无轻,两各作者还怀有深刻的学功底,行文过程中援了汪洋底书籍案例来举行验证,对读者来说就促进了解,但于无熟悉这些作品之读者来说仍我倒是有增无减了翻阅难度。尽管如此,这仍是同等依照值得细细品味的书,重磅推荐。

3.3.2 Regularized logistic regression

图片 12

 

图片 13

 

3.4 Advanced optimization

每当事实上的下被,我们司空见惯不见面融洽实现梯度下降法来优化目标函数,而是使用编程语言函数库。例如利用matlab中之fminunc函数。所以我们一味需要编制出求cost
function以及那导数的函数就可以了,以Logistic
regression如下所示,(注意在matlab中向量下标以1起,所以theta0应为theta(1))。

图片 14

matlab实现Logistic regression的该函数代码如下:

function [J, grad] = costFunctionReg(theta, X, y, lambda)
%COSTFUNCTIONREG Compute cost and gradient for logistic regression with regularization
%   J = COSTFUNCTIONREG(theta, X, y, lambda) computes the cost of using
%   theta as the parameter for regularized logistic regression and the
%   gradient of the cost w.r.t. to the parameters. 

m = length(y); % number of training examples
n = size(X,2);   % features number

J = 0;
grad = zeros(size(theta));

h = sigmoid(X * theta); % sigmoid function

J = sum((-y) .* log(h) - (1-y) .* log(1-h)) / m + lambda * sum(theta(2:n) .^ 2) / (2*m);

grad(1) = sum((h - y) .* X(:,1)) / m;
for i = 2:n
    grad(i) = sum((h - y) .* X(:,i)) / m + lambda * theta(i) / m;
end

end

 调用时的matlab代码片段如下:

% Initialize fitting parameters
initial_theta = zeros(size(X, 2), 1);
% Set regularization parameter lambda to 1 (you can vary this)
lambda = 1;
% Set Options
options = optimset('GradObj', 'on', 'MaxIter', 400);
% Optimize
[theta, J, exit_flag] = ...
    fminunc(@(t)(costFunctionReg(t, X, y, lambda)), initial_theta, options);

 

相关文章

No Comments, Be The First!
近期评论
    分类目录
    功能
    网站地图xml地图