新普金娱乐网址


既是青春留不停歇

程序员需要会刻画的几种排序算法

数学一个后生的爱情

  • 九月 27, 2018
  • 数学
  • 没有评论

      伊健说,我欢喜您短头发的旗帜。

GMM,即高斯混合模型(Gaussian Mixture
Model),简单地言语,就是用大半只高斯模型混合起来,作为一个新的型,这样就是得综合采取多型的表达能力。EM,指的凡均值最大化算法(expectation-maximization),它是均等种量模型参数的国策,在
GMM 这类似算法中利用广泛,因此,有时候人们又喜好将 GMM 这好像可为此 EM
算法求解的型称为 EM 算法家族。

      三单月后,我就算成了扎着马尾的童女。

旋即篇文章会简单提一下 GMM 模型的情节,最要紧的,还是讲一下 EM
算法如何采取及 GMM 模型的参数估计上。

       伊健说,我好您安安静静看开的样子。

数学 1

     
从此之后,我便非以课间看开了,而是和前后左右的同室嬉笑打闹,虽然就并无是我爱好的范。

高斯混合模型

     
 后来伊健又说,其实我看您扎马尾,细碎的发在空气受挣扎之指南呢不行好看的。

什么是 GMM

GMM 可以看是 K-means 算法的升级版。在 K-means
中,我们会预先算产生几独聚类中心,然后根据数据点与聚类中心的偏离,直接将数据点归类到近来的聚类中心。这种做法实在生“硬”,因为生成百上千边缘点属于个别独聚类中心的概率恐怕去不雅,如果相同股脑就径直用她由到某一个核心,实在是无限野蛮了。而
GMM 不同为 K-means
的地方就是在于,它除了给有聚类中心外,还能告诉你每个点归属于有聚类中心的概率,因此,GMM
又让称之为 soft assignment。

率先,还是让有 GMM 模型的公式:
\[ p( x)=\sum_{k=1}^K{\pi_k N(
x|\mu_k, \Sigma_k)} \]
里头,我们确定,\(\sum_{k=1}^K{\pi_k}=1\)。可以看出,GMM
就是拿几独高斯模型线性组合起来,人们习惯及拿当时其中的依次高斯模型称为
Component。其中,\(\pi_k\)
表示每个模型的占比,或者说多少属于模型 k
的票房价值,这个价值更怪,说明聚集于这个模型内之数据更多。

为何而就此这种模型组合的主意吧?我们了解,高斯模型相似成椭圆状(二维)或椭球状(三维),可以拿这个椭圆或椭球认为是一律种聚类的样子,而圆心或球心则是聚类中心(对应高斯函数的参数
\(\mu\))。但实在世界面临,数据的分布并不一定都是按部就班这样的貌分布的(如上面给起底图),因此,一个高斯模型或没法很好的拟合这些多少,而若能综合考虑几独高斯模型的表达能力,让这些模型发挥所长,不同的模型拟合不同的数,这样一来,所有数据就得老好地让这个「组合型」拟合起来。

实质上,这种组合型的思绪好下至很多型上,比如:泊松模型。而由于高斯模型本身有良好的习性,因此
GMM 这种模型被用底比多。

眼前说交,GMM 本质上是一致种植聚类算法,那么,如果已经了解一个 GMM
模型,现在加以一个沾,我们要怎么知道是点属于哪个聚类中心为?更有血有肉一点游说,怎么掌握者点属于每个聚类中心的概率是稍微?

故数学的语言表达就是,已了解一个 GMM 模型: \(p( x)=\sum_{k=1}^K{\pi_k N( x|\mu_k,
\Sigma_k)}\),它的 K 个聚类中心也 \(C_k\),现在求概率值 \(p( x \in C_k | x)\)。

求解的方好简短,根据贝叶斯公式:\(p(a|b)=\frac{p(b|a)p(a)}{p(b)}\),我们好得出:
\[ p( x \in C_k | x)=\frac{p(C_k)p( x|
x\in C_k)}{p( x)} \]
因而,对于每个聚类中心 \(C_k\),由于分母 \(p( x)\) 都是平之,我们只需要计算 \(p(C_k)p( x| x\in C_k)=\pi_k N( x|\mu_k,
\Sigma_k)\) 即可。得到的价就是是数码点 $ x$ 属于 \(C_k\) 的票房价值,至于实际要拿 $ x$
归类到哪个中心,可以依据具体情况决定,比如将概率最老之当作归属的聚类中心。这一点也是
GMM 优于 K-means
的地方,前者是透过概率的道来支配属,因此提供了进一步助长的消息。

     
 万幸的凡,我老时段都用到了马上所不太好之大学之重用通知书,冲在伊健就句话,我决然放弃了复读这样的想法,逃也一般决定去上大学。

参数估计

可,GMM 模型最为难之地方在,如何根据同样积聚数据点估计起模型的参数?

GMM 用规定的参数有三类:

  1. 高斯模型的个数 \(K\),这个参数跟
    K-means 的 \(K\)
    一样,需要人工事先设定,\(K\)
    越怪,聚类的粒度也越来越仔细;
  2. \(\pi_k\), 每个 Component
    的票房价值分量,或者说以总样本中之占比;
  3. \(\mu_k\)、\(\Sigma_k\),各个 Component 的参数。

苟样本所属分类就清楚(即已知 \(x\)
属于哪个 \(C_k\)),那 GMM
的参数就好易确定了。首先,参数 \(K\)
就一目了然得到了。然后,假设样本容量为 \(N\),归属为聚类中心 \(C_k\) 的范本数也 \(N_k\),归属每个 \(C_k\) 的样本集合为 \(S(k)\),可以用以下公式要出任何参数:
\[ \pi_k=\frac{N_k}{N} \\
\mu_k=\frac{1}{N_k}\sum_{ x\in S(k)}{ x} \\
\Sigma_k=\frac{1}{N_k}\sum_{ x\in S(k)}{( x-\mu_k)(
x-\mu_k)^T} \]
骨子里,这与一个高斯模型的状态是平的,只不过要依葫芦画瓢求出 \(K\) 个。

可要样本的分类事先不知情,又该怎么收拾也?首先,由于 \(K\)
这个价是急需人工确定的,所以这里少假设 \(K\) 已经清楚了。现在,我们而预计 \(K\) 个高斯模型的票房价值分量 \(\pi_k\) 以及每个模型各自的参数 \(\mu_k\) 和 \(\Sigma_k\)。

无限简便也不过易想到的方是巨大似然估计。假设有 m 个样本,首先,写来
\(p( x)=\sum_{k=1}^K{\pi_k N( x|\mu_k,
\Sigma_k)}\) 的似然函数:
\[ \begin{eqnarray} \ln{[\prod_{i=1}^m
p( x_i)]}&=&\ln{[\prod_{i=1}^m{\sum_{k=1}^K{\pi_k N(
x|\mu_k, \Sigma_k)}}]} \\
&=&\sum_{i=1}^m{\ln{[\sum_{k=1}^K{\pi_k N( x|\mu_k,
\Sigma_k)]}}} \\ \end{eqnarray} \]
而是,这个对数函数却非常的纷繁,直接求导数的艺术十分麻烦求来 \(\mu_k\) 和 \(\Sigma_k\),因此,我们只能换用其他方来求解。而就便是
EM 算法发挥作用的地方。

       
没错,伊健喜欢自,但是本人并无喜欢异。从小就是被老师冠以老好人的名目,我并不知道怎么拒绝别人,但本身是好孩子,好孩子怎么能早恋呢?伊健刚开始针对自我表现来好感的上,我就算不慎在网上看了就句话,“你喜爱我哪,我改变”。我根本不曾针对伊健说过及时句话,一直是以走路来证明。

统值最大化算法 EM

     
 上高中的第一天,我便认识伊健了,一般的话,县城中考的率先称呼都见面及市主要去达到高中,所以,当我知道班上竟来伊健这个县中考第一名为时,迫不及待地怀念了解干什么他非去请要。那时候,我还是独看起像男性胎性格也如男性胎的短头发小姑娘,就那直接了当地挥发去表示友好的迷惑,问底居家目瞪口呆,至今都无应答自己就随即写作业了,留下我一个人口于氛围被烂。

K-means 的启示

于规范开云 EM 之前,我们先想起一下,K-means
是怎要来聚类中心的。其实,总共分三步进行:

  1. 自由初始化 K 个聚类中心的职位;
  2. 将具有样本点,按照同各个聚类中心的偏离进行归类;
  3. 基于样本还分类的结果,更新聚类中心的职位,重复步骤 2
    直到收敛(即聚类中心还调整之增幅低于某个阈值)。

既是 GMM 本身吗属于同一种聚类算法,那么,我们会免可知用 K-means 的思绪来求来
GMM 的参数为?答案当然是好的。

然,在即时之前,我们用先知道 GMM 的几个参数(\(\pi_k\),\(\mu_k\),\(\Sigma_k\))要怎么算。假设我们都清楚了继验概率
\(P( x \in C_k|
x)\),则可依据以下公式计算参数(其中,m 表示样本数):
\[ \pi_k=\frac{1}{n}\sum_{i=1}^m{P(
x_i\in C_k|x_i)} \tag{3} \]
斯公式是管持有样本属于 \(C_k\)
的票房价值求平均后,作为 \(C_k\)
这个聚类中心(或者说这高斯模型)的产出概率。
\[ \mu_k=\frac{\sum_{i=1}^m{
xP(x_i\in C_k|x_i)}}{\sum_{i=1}^m{P(x_i\in C_k|x_i)}} \tag{4}
\]
这求均值的公式,跟单个高斯模型不同之地方在,我们因此的凡加权平均。因为每个样本点都起自然之几率属于聚类中心
\(C_k\),所以,每个样本对 \(C_k\)
对应的高斯模型的均值为会见有一定之来意,只是出于 \(P(x_i\in C_k|x_i)\)
的价不同,因此这种作用为会发显差别。
\[
\Sigma_k=\frac{\sum_{i=1}^m{P(x_i\in
C_k|x_i)(x_i-\mu_k)(x_i-\mu_k)^T}}{\sum_{i=1}^m{P(x_i\in
C_k|x_i)}} \tag{5} \]
好像地,协方差也是因此加权平均要出的。

(公式 (3) (4) (5)
其实是自大似然函数推出去的,在周志华先生的西瓜书和PRML书被还产生详尽推导,不过此我只想给来感性的认识)

唯独,以上公式都是基于 \(P( x \in C_k|
x)=\frac{p(C_k)p( x| x\in C_k)}{p(
x)}\)计算出来的,而者公式本身还要待掌握 \(P(C_k)\)(即 \(\pi_k\))等参数,这就算沦为一个鸡生蛋还是蛋生鸡的怪圈。

可,借助 K-means 的思路,我们好优先随机初始化这些参数,然后计算出
\(P( x \in C_k| x)\),再用它创新
GMM 参数,然后又就此创新的模子计算 \(P( x \in
C_k| x)\),如此迭代下去,总有消退的时候,这样,我们不就足以像
K-means 一样计算产生参数了啊?!

下面,我们尽管模仿 K-means 的方式,给出迭代计算 GMM 参数的步调:

  1. 肆意初始化各个高斯模型的参数;
  2. 据悉参数,计算 \(P( x \in C_k|
    x)\),这同样步其实是测算出每一个样本归属为各个一个聚类中心的概率;
  3. 冲第 2 步计算得到的 \(P( x \in C_k|
    x)\),按照公式 (3) (4) (5) 重新计算 GMM 参数,并再度步骤 2
    直到收敛。

     
 有时候,你觉得的直觉会是蹭的,因为开学第一龙的事情,我看伊健会笑话我如此贸然的所作所为,会针对自己印象非常糟糕,但真相刚相反。就如是你写了平首写作,自己当好不好,交上来的时候,忐忑不安,觉得老师会受您差评,没悟出恰恰相反,老师说而写的杀硬。伊健开始幕后的将自台上放营养快线,水杯常常是充满之,生病了会以妈妈之前让自家购买药,我许多附带给钱,一糟糕还不曾水到渠成了。

EM 算法

事实上,上面仿照 K-means 算法的计算步骤,就是 EM 算法的基本组成部分了。

EM 算法主要分为 E 和 M 两步:

  1. E 指的是 Expectation,即计算均值的进程,对应之是者的手续
    2,这无异步要是精打细算每个样本归属的聚类中心;
  2. M 指的是 Maximum,即针对参数的最为酷似然估计,对应之是上面的步骤
    3。我前吧说了,公式 (3) (4) (5)
    计算参数的公式是为此最为老似然函数推出去的,所以,这无异步其实是于依据步骤
    2 的分类结果,重新用极端特别似然函数来打量参数。

下这幅图是起西瓜书上段子下来的,是 EM 算法求解 GMM 参数的共同体经过。

数学 2

贪图中生为数不少公式标记,可能要参考原书才看得亮,不过,它的流程和自己事先被闹之
3
只步骤是一致。另外,算法的息条件可是高达最要命迭代次数,或者是似然函数(公式
(2))的增长低于某个阈值。

吓了,本文到这边虽不再深入下去了。EM
算法博大精深,吴军先生以《数学的美》称其也上帝之算法,可见这算法的有力的远在。EM
算法可以使之场地特别多,从本文为有之 GMM
例子来拘禁,它事实上大类似梯度下降算法,在加以的对象函数很复杂、难以求解时,EM
算法用一栽迭代的国策来优化初始参数,并日趋消散到最好优解。关于这算法的具体内容,我思更深入了解后,再用相同首稿子优秀写一下。

     
 别人都是初中就情窦初开始了,我及高中还是那后知后觉,知道大家开始说自及伊健在齐了,我才醒。我固执的看早恋是不好的,我将伊健喜欢的短头发变成了增长头发,把他请了之滋养快线放归,再为不问他不会见召开的修,我要是与他划清界限已断绝流言蜚语。

参考

  • 漫谈 Clustering (3): Gaussian Mixture
    Model
  • Mixture of Gaussian
    clustering
  • EM及高斯混合模型
  • 机上西瓜书
  • PRML

     
 荷尔蒙还没有起来萌芽的青春期竟是如此残忍,丝毫未曾想到给当时正好处在青春期的伊健造成了如何的影响。

       伊健还尚未告白,还并未下手明白究竟是怎了,就吃自己这么打入冷宫。

     
 我开冲刺读书,因为老师竟然和父亲说自己在早恋,我百口莫辩,只能坐成来证实。但是生日的时,桌子上总会发出许多人事,挑不出啦一个是彼健送的,圣诞节的巧克力也并未丢过,虽然伊健就主动不跟我提。

     
 发奋读书之日子很痛,父母的无信赖,考试的压力,可是一转眼就到高考,大概是原的关联,虽然老用力,也只将到了相似大学之通知书。而伊健,令自己震惊的凡,还未曾自将到之高校通知书好,闺蜜只是轻描淡写的喻自己立马同样真情,并没多说啊。

     
我操去达到大学,伊健决定复读一年。没有人告诉自己,伊健因自不理他的由来,整夜整夜的失眠,完全无了当下率先号称之优势。

     
我非常快忘记了暑假因为大学不足够好的迷惘,投入到新奇的高等学校生活着失去了。来大学第一天连着自之良酷酷的学长就与自身说,大学以及高中很无相同,会过的高速,他无疑是正确的,我的怪一眨眼就截止了。

     
 断断续续来高考的信息传,高考那同样龙,空间被各种祝福刷屏,有人感叹说,没悟出已经发生这般多学姐学长在吗咱默默祝福。毫无疑问,我深受了解了伊健的成,和第一年之落魄完全不同,他考试了帝都很好之高校,这才是工作应该的结果。

       我认为复读的艰苦,伊健都把我遗弃在了心血后,没有悲伤,亦莫喜。

     
 高中毕业的时刻,伊健送给自己一个良好的记录本,洋洋洒洒写了同异常堆,其中起相同句是,他产生了一个喜欢金牛女的病。五月是金牛座的生日月,我正好是周一生日,那天中午快下课的时段,有一个来路不明的都编号从进去,我当是诈骗电话,就吊掉了,没悟出以起来了亚潮,老师正说可以下课了,我就是飞出去接电话了。是伊健的动静,他提问我当乌,我说以乌,高三的下,我们来过我之高校参加数学比赛,伊健找得及路。

     
 虽然伊健于了电话了,看到他满头大汗拎着蛋糕出现的上,我要么吃了同样惊,能让伊健逃课绝对免是一模一样桩易的事务。我要伊健去学的自助餐厅就餐,有一搭没一搭地拉扯,感谢他记得我生日,大老远跑来送蛋糕。因为下午还要举行尝试,也非能够逃课,我求伊健吃了饭为没有来得及带客错过别的地方溜达到一下,就给他坐车回都了。

     
 也许,是自己之展现给伊健认为自己还是无喜他,我无心又害了他一样差。

     
 大概过了一个月份,早晨兴起收到一模一样长短信,打开看到是伊健作来的,“我爱了而一个血气方刚而知啊?你呀为不晓得啊,你同天吧不曾好过自己,你向还未曾爱了自家,那有哪悲呢,我先是涂鸦喝的爬不起来,我容易了若这样多年本人”。没有逻辑,没有美感,一看便是喝醉了的榜样。

       我思念重操旧业,但是并未感念掌握怎么过来。

     
 磨磨蹭蹭到了次龙,改了多任何终于改变好了保留于草稿箱里刷朋友围的时刻,看到伊健之冤家围多矣扳平张女孩子的像,长头发,笑靥如花,很难堪。我删掉了自好保存于草稿箱里之诠释及告白,换成了祝福君幸福之字样。

        从此,我之常青还无伊健的人影,戛然而单独。

相关文章

No Comments, Be The First!
近期评论
    分类目录
    功能
    网站地图xml地图