新普金娱乐网址


在讲台上站了10年

双指数边缘平滑滤波器用于磨皮算法的尝试。

读书笔记:neuralnetworksanddeeplearning chapter1

  • 一月 18, 2019
  • 数学
  • 没有评论

stochastic gradient descent

然则,这里有个总括上的题目,我们从前的二次代价函数为:\(C(w,b)=\frac{1}{2n}\sum_x
||y(x)-a||^2\),因而,在总计导数的时候,需要将各类样本的导数值都加起来取平均,这在概率学上是有意义的(避免个别噪声样本的影响),但实质上总括的时候,由于样本数量很大,这如实会促成巨大的总结量。因而,有人又指出一种随便梯度下降(stochastic
gradient
descent)
的法子来增速磨炼。这种艺术每趟只采纳少量的随机样本举办磨练(当然,所有样本在一轮训练中都需要被挑选到)。

具体来说,假使我们每回挑选 m 个随机样本举行磨练,总样本数为
n,那么,只要 m 充分大,我们得以拿到一个看似关系(大数定理?):
\[ \frac{\sum_{j=1}^{m}\Delta
C_{X_{j}}}{m} \approx \frac{\sum_{x} \Delta C_x}{n} = \Delta C
\tag{18} \]
下一场,每趟对参数的训练就成为:
\[ w_k→w_{k}’=w_k-\frac{\eta}{m}
\sum_j \frac{\partial C}{\partial w_k} \tag{20} \]
\[ b_l→b_l’=b_l-\frac{\eta}{m}
\sum_j \frac{\partial C}{\partial b_l} \tag{21} \]

偶尔,人们会忽视等式前边的\(\frac{1}{n}\)或\(\frac{1}{m}\),只在单一的样本上举办训练。那种艺术在样本事先不知晓(例如,样本是实时暴发的)的情事下相比较实惠。

示例4

  投两遍骰子,均投得偶数的票房价值?骰子是六面体。

  两遍事件是互相独立的,每一次投出偶数的票房价值是3/6,两回均投出偶数的几率:

  P = (3/6) × (3/6) × (3/6) = 1/8

  几率很小呀,并不是赌徒们以为的1/2,所以十赌九输啊。

率先,我们从神经网络的多少个基本概念讲起。

不等概率事件

  如若硬币是不均匀的,每一趟投掷硬币后庄严朝上的几率更大,P(H)
= 60%,投掷一次硬币就是一个不等概率事件。很容易得知 P(T) = 1 – P(H) =
40%

  连续甩开五次硬币,正面朝上的几率:

P(H1H2) =
P(H1)·P(H2) = 60% × 60% = 36%

  连续甩开一遍硬币,一次正面一次反面订单概率:

P(H1H2
T3) = P(H1)·P(H2)·P(T3) =
60% × 60% × 40% = 9.6%

  可以看出,在独立事件样本中,等概率和不等概率事件并没有差距。

参考

硬币和骰子

  一个硬币有两面,我们都晓得,投掷四回硬币,正面朝上的票房价值是50%;一个骰子有多少个数字,投掷三遍骰子,每个数字出现的概率均等,都是1/6

  上述六个票房价值用数学解释就是:一个事变的概率 =
知足要求的风波数量 / 所有等可能事件的数据。所以硬币正面朝上的票房价值
P(head) = 1/2,数字1在骰子中出现的几率是P(1) = 1/6。

  同样的,因为一个骰子有3个偶数,抛掷两回骰子,偶数出现的几率就是P(偶数)
= 3/6 = 1/2;因为从没此外一面有五个数字,所以还要出现2或3的几率是 P(2 or
3) = 0/6 = 0

数学 1

示例1

  有一个周长是36π的圆,圆中又饱含了一个面积是16π的小圆,现在大圆中随机选拔一些,该点落在小圆中的概率?

  SbigCircle =
π(36/2)2 = 324π,  P(point also in smaller circle) = 16π/ 
324π = 4/81

(本文是按照
neuralnetworksanddeeplearning
这本书的第一章 Using neural nets to recognize handwritten
digits

整理而成的读书笔记,遵照个人口味做了剔除)

示例3

  有两道采用题,第一题有三个答案,第二题有四个答案,每道题只有一个答案是不易的。假使采纳随机推断法,猜对每个题目标概率是稍微?同时猜对六个问题的几率是稍稍?

  P(test1) = 1/4,  P(test2) = 1/3

  P(test1 and test2) = P(test1 ∩ test2)
= P(test1) × P(test2) = 1/12

  倘使两题的没错选取分别是D和B,本例可以用下边的报表描述:

数学 2

  共有12个方格,藏红色方格是五个问题都猜对的概率。所以说概率就是面积。

对于人类来说,识别下面的数字探囊取物,但对总结机而言,却不是一个简短的职责。

等概率事件

  统计一枚硬币五次投掷出正面的概率。

  即便H表示尊重,T表示方面,两遍投掷的享有可能是:HH,
HT, TH, TT,所以P(HH) = 1/4

  在投标时,第一次投掷的结果对第二次投掷没有其余影响,大家称这一次投掷事件是互相独立的。对于单身事件,过去事件发生的概率不影响将来事变的几率。

  对于本例,一次投掷出正面的票房价值 =
第一次投出正面的票房价值×第二次投出正面的概率,即P(HH) =
P(H1)·P(H2) = 1/2 × 1/2 =
1/4。同理,借使有三枚硬币,P(THT) =
P(T1)P(H2)P(T3) = 1/8

  当A1A2A3……An彼此之间独立,

数学 3

Sigmoid neurons

先天,大家考虑一下怎么样磨练 Perceptrons 的参数(W 和
b)。假使网络的参数暴发了一点点微小的变通,为了锻炼过程的可控,网络的出口也应有爆发微小的变化。

数学 4

万一网络错误地将手写数字 8 分类为
9,那么大家盼望在参数做一点点修改,网络的输出会更靠近 9
那个结果,只要数据量够多,这一个修改的历程重复下去,最后网络的出口就会越来越正确,这样神经网络才能不断学习。

不过,对于 Perceptrons 来说,参数的微调却可能引致结果由 0 变为
1,然后导致后边的网络层暴发连锁反应。换句话说,Perceptrons
的习性导致它的教练过程是一对一难控制的。

数学,为了制伏这个问题,大家引入一种新的感知器 sigmoid neuron。它跟
Perceptrons 的结构一模一样,只是在出口结果时加上了一层 sigmoid
函数
:\(\sigma(z)=\frac{1}{1+e^{(-z)}}\)。这样,网络的输出就成为了:
\[ output=\frac{1}{1+exp(-(WX+b))}
\]
sigmoid 函数的图像如下:

数学 5

当 \(WX+b\) 趋于 ∞ 的时候,函数值趋于
1,当 \(WX+b\) 趋于 0
的时候,函数值趋于 0。在这种状态下,sigmoid neuron 就落后成
Perceptrons。

sigmoid 函数也得以用作是对 step 函数的坦荡,step 函数如下:

数学 6

可以看到,Perceptrons neuron 的精神就是 step 函数。

那么,为啥 sigmoid neuron 就比 Perceptrons
更便于磨练吗?原因在于,sigmoid 函数是坦荡、连续的,它不会发出 step
函数这种从 0 到 1 的面目全非。用数学的语言表达就是,参数微小的更动(\(\Delta w_j\)、\(\Delta b\))只会挑起 output
的轻微转移:\(\Delta output \approx
\sum_j{\frac{\partial output}{\partial w_j}\Delta
w_j}+\frac{\partial output}{\partial b}\Delta
b\)。可以发现,\(\Delta
output\) 和 \(\Delta
w_j\)、\(\Delta b\)
是一个线性关系,这使得网络的锻练更加可控。

实际,正是 sigmoid
函数这种平滑的特点起了关键成效,而函数的实际情势则可有可无。在本书前面的章节中,还会介绍任何函数来顶替
sigmoid,这类函数有个学名叫激活函数 (activation
function)
。从数学上讲,函数平滑意味着函数在定义域内是可导的,而且导数有很好的数学特性(比如上边提到的线性关系),step
函数即使分段可导,但它的导数值要么直接是
0,要么在突变点不可导,所以它不享有平滑性。

不同颜色的弹珠

  袋子里存有8个弹珠,其中3个紫色,2个革命,2个褐色,1个粉红色。从口袋里拿出一个弹珠,弹珠是色情概率?

数学 7

  如上图所示,很容易得知P(yellow) =
3/8

gradient descent

下边,我们先将这个函数抛在一派,琢磨一下梯度下降方法。

假定大家要最小化一个函数 \(C(\overline
v)\),其中 \(\overline v = v_1,
v_2, …\)。

简易起见,我们假使参数是二维的,函数图像长这个样子:

数学 8

想求那么些函数在哪个点取的很小值,地教育学家们的章程是对函数求导(多少个参数就求偏导),然后判断在每一维上的单调性,最终求出在各个维度上的细微值点。这种措施理论上肯定可以求出那么些函数的最低点,不过,实际上却很难执行,因为函数图像可能会至极复杂,维度可能很高(上图只是一个概括的事例)。

从而,数学家们提议一体系似简单但骨子里却屡试不爽的技艺:梯度下降。这种方法的思路是:不管函数图像是怎么的,反正自己只往函数每一维度的梯度方向前进。所谓函数梯度,其实就是函数的导数方向:\(\nabla C=(\frac{\partial C}{\partial {v_1}},
\frac{\partial C}{\partial
{v_2}})^T\)。然后,我们让函数参数也往那么些方向移动:\(v → v’ = v + \Delta v = v -\eta \nabla
C\),其中,\(\eta\)
称为学习率,\(\Delta v\)
称为宽度。这样,函数每回的偏移量为 \(\Delta
C \approx \nabla C \Delta v = \frac{\partial C}{\partial v_1}
\Delta v_1 + \frac{\partial C}{\partial v_2} \Delta
v_2\)。不管函数导数的值是多亏负(函数图像向上如故向下),只要学习率适当,那多少个姿势都能确保函数往最低点走,当然,要是学习率的取值过大,函数的骤降可能会产出曲折抖动的气象。

梯度下降也存在部分不足之处,比如,假如函数存在七个部分最低值,梯度下降可能会沦为局部最低点出不来。

归来实际问题,现在我们将梯度下降应用到网络参数中:
\[ w_k → w_{k}’ = w_k-\eta
\frac{\partial C}{\partial w_k} \]
\[ b_l → b_{l}’ = b_l-\eta
\frac{\partial C}{\partial b_l} \]

通过不断迭代下面的过程,代价函数会不断下滑,运气好的话就可能回落到全局最低点的职务。

单独事件的组合概率

Learning with gradient descent

如若神经网络的输入是由图片像素结合的一维向量 $\overline x $,输出是一个
one-hot 向量 \(\overline y = y(\overline
x)\)。为了量化神经网络的输出结果,大家定义一个代价函数:
\[ C(w, b) =
\frac{1}{2n}\sum_x||y(x)-a||^2 \tag{6} \]
其中,\(w\) 表示网络的权重参数,\(b\) 表示 biases,\(n\) 是样本数,\(a\) 是网络的输出结果。大家称 \(C\)
二次代价函数,或者叫做平方差(MSE)。当 \(y(x)\) 和 \(a\) 很相近的时候,\(C \approx
0\)。因此,大家的教练算法就是为下降代价函数的值,而最常用的算法就是梯度下降(gradient
descent)

事实上我们在高中阶段就遭逢过类似的题目:已知函数曲线过几个点,求出这条曲线的方程。不同的是,这里是用代价函数间接求函数参数,而且,那里不是要让函数穿过这些点,而是去拟合、逼近这一个点。

明天我们要思想一个题目,为何要利用平方差作为代价函数?既然我们感兴趣的就是图形被科学分类的数码,这为何不直接降低这些数目标值,而是绕个弯去降低一个二次代价函数?原因在于图表正确分类的数量以此函数不是一个平整的函数,换句话说,\(w\) 和 \(b\)
的分寸转移对那几个函数的影响是不可控的,道理和上边的 sigmoid
函数一样。所以,我们利用这一个地点的二次代价函数

骨子里,还有此外平滑的函数可以视作代价函数,这里大家只简单介绍二次代价函数

讲到这里,大家提到了五回平滑函数:sigmoid
二次代价函数。其中,前者是神经网络的出口,后者是对神经网络结果的一种评估,是为着便于对网络参数举办练习。这里要求运用平滑函数是为着使锻练的长河更加可控。尽管我们优化的时候是针对代价函数调整参数,但
sigmoid 函数会在代价函数中被运用,所以这多少个函数都不可能不是一马平川的。

概率相加

  将一副扑克牌去掉大小王,剩余的52张牌中共四类别型,每种花色13张,很容易了然抽到J的票房价值是
P(J) = 4/52 = 1/13;抽到♠的概率P(♠) = 13/52 = 1/4;抽到♠J的几率 P(♠J) = 
1/52;抽到J或♠的票房价值是不怎么啊?

  先看下图:

数学 9

  J或♠的概率就是青色和黑色正方形所掩盖的面积,P(J
or ♠) = (4 + 13 – 1)/52 = 4/13

  由于重叠部分是P(J and ♠),故P(J or ♠)
= P(J) + P(♠) – P(J and ♠) = 4/52 + 13/52 – 1/52 =
4/13,因而赢得概率相加公式:

P(A or B) = P(A) + P(B) – P(A and
B)

  将or和and用集合符号表示:

P(A∪B) = P(A) + P(B) – P(A∩B)

  其中P(A∩B)可简写作P(AB).

  假设P(A and B) =
0,则A和B是排斥事件,P(A)和P(B)是互斥概率。

在大家的大脑中,有一块跟视觉相关的肌肤
V1,这里面包含着巨大的神经细胞,而这多少个神经元之间的接连,更是达到了大批。在短期的上进历程中,大自然将人类的大脑锻练成了一个「顶尖总结机」,使它可以随便地读懂、看懂、听懂很多当下的微机仍旧难以处理的题材。在本章中,作者介绍了一种可以扶持总计机识别手写体的主次:神经网络「neural
network」。

基本功概率和概括概率

Perceptrons

Perceptrons,普通话译为感知器,最早由科学家Frank
Rosenblatt
于上个世纪 50
至 60 年代指出。在现世神经网络中,Perceptrons 已经用得很少了(更多地应用
sigmoid neuron 等神经元模型)。但要领悟 sigmoid neuron
怎么来的,就有必要先弄了然 Perceptrons。

比方来说,最简便的 Perceptrons 类似如下结构:

数学 10

它承受五个输入 \(x_1\)、\(x_2\)、\(x_3\),输出 0 或者
1。为了衡量每个输入的关键程度,罗丝nblatt 引入了权重的概念,假若 \(w_1\)、\(w_2\)、\(w_3\) 分别对应 \(x_1\)、\(x_2\)、\(x_3\),那么,大家可以收获 Perceptrons
的输出为:
\[ output=\begin{cases} 0 &if \ \
\sum_{j}{w_j x_j} <= threshold \\\\ 1 &if \ \
\sum_{j}{w_j x_j} > threshold \end{cases} \]
当然,Perceptrons 在处理较复杂的天职的时候,其布局也会愈发扑朔迷离,比如:

数学 11

在这么些网络中,Perceptrons 的率先列称为第一层 (first
layer),这一层的感知器接受五个输入 (evidence) 来决定输出。Perceptrons
的第二层,则以率先层的输出结果作为输入来发出最终的出口,由此第二层可以认为是在拍卖比第一层更加错综复杂抽象的做事。

为了简化数学表明,我们将 \(\sum\_{j}{w\_jx\_j}\) 表示成 \(WX\),\(W\)、\(X\)
分别表示权重和输入的向量。同时,大家将阈值的负值 (-threshold) 表示成
bias,即 \(b =
-threshold\)。这样,Perceptrons 的出口可以重写为:
\[ output=\begin{cases} 0 &if \ \ WX+b
<= 0 \\\\ 1 &if \ \ WX+b > 0 \end{cases}. \]

示例5

  投掷三枚硬币,

  1. 赶巧两枚正面朝上的几率?
  2. 起码有五回正面朝上的概率?

  可以列出所有可能的结果:HHH, HHT, HTT,
HTH, THH, THT, TTH, TTT。因而可知问题1的答案P(Exactly 2 H) =
3/8;问题2的答案P(at least 1 H) = 7/8

  如若扔掉更多的硬币,画图法就不靠谱了,必须找到数学方法。先来看样本空间的范本数量,每一次投掷硬币可以得到二种结果,投掷3次,遵照乘法结合律能够得到2×2×2种结果。再来看满意要求的风波数量,对于问题1,可以看作共有五个职位,其中恰好有多少个安插了体面朝上的硬币,它们的各类无关重要,这是突出的重组问题,可以用
 表示。于是问题1改为了:

数学 12

  对于问题2,相当于1减所有反面朝上的概率:

数学 13

  假诺扔掉10次硬币:

数学 14

在n个独立事件中发出k个事件的几率

  将地点的示范5扩展,投掷n个硬币,恰好有k个正面朝上:

数学 15

 


   作者:我是8位的

  出处:http://www.cnblogs.com/bigmonkey

  本文以学习、研究和享受为主,如需转载,请联系自身,标明作者和出处,非商业用途! 

 

示例2

  某机构召开了三遍抽奖活动,一共有三个奖状,当第一个奖券被抽到后,把奖券贴到奖品上,再抽第二个奖券决定获奖者。那两回个抽奖事件是并行独立的事件呢?

  不是。独立事件的含义是一个风波的结果不影响其他事件的结果。本例中五个事件是有提到的,因为奖券的数量是固定的,第一张彩票贴好后,奖券总数将回落一张,第二张奖券将不容许是率先张彩票。可以想像一下有三张分别标有A、B、C的彩票,首次A被抽到,第二次抽到的只可能是B或C,所以第二个事件的结果和率先次抽到的彩票是连锁的,多少个事件不是互为独立的。使它们相互独立的法门是,每一次抽到奖券后写上获奖者的名字,再将奖券放入奖券箱重新加入抽奖,而不是贴到奖品上。

示例

相关文章

No Comments, Be The First!
近期评论
    分类目录
    功能
    网站地图xml地图