新普金娱乐网址


这是自家的丫头数学

内蒙古理工高校简介数学

基于大数额的用户画像构建(理论篇)

  • 一月 13, 2019
  • 数学
  • 没有评论

数量可视化分析

那是把用户画像真正使用起来的一步,在此步骤中貌似是本着群体的辨析,比如可以依照用户价值来细分出大旨用户、评估某一群体的潜在价值空间,以作出针对性的营业。
如图:

Paste_Image.png

超体聚类

接近于超像素的定义
超体聚类八叉树划分

2_4.png

不等晶体间的交界关系

2_4_super_tree.png

用户画像基本成型

该阶段可以说是二阶段的一个中肯,要把用户的大旨特性(年龄、性别、地域)、购买能力、行为特征、兴趣爱好、心思特征、社交网络大致地标签化。

为何就是基本成型?因为用户画像永远也无力回天 100%
地描述一个人,只好完成不断地去逼近一个人,因而,用户画像既应遵照变化的根基数据持续修正,又要基于已知多少来抽象出新的标签使用户画像越来越立体。

至于“标签化”,一般采用多元标签、多级分类,比如第顶尖标签是中央音信(姓名、性别),第二级是花费习惯、用户作为;第顶级分类有人数属性,人口属性又有大旨消息、地理地点等二级分类,地理位置又分工作地方和家中地址的三级分类。

OpenCV

经典分割方法

行事建模

该阶段是对上等级收集到数量的拍卖,举办行为建模,以抽象出用户的价签,这多少个阶段注重的应是大概率事件,通过数学算法模型尽可能地清除用户的偶然行为。

此时也要用到机械学习,对用户的表现、偏好进行猜度,好比一个 y=kx+b
的算法,X 代表已知信息,Y 是用户偏好,通过持续的纯正 k 和 b 来规范 Y。

在这么些等级,需要选择很多模型来给用户贴标签。

  • 用户汽肢体模特型
    按照用户对“汽车”话题的尊敬或购置有关制品的情状来判断用户是否有车、是否准备买车
  • 用户忠诚度模型
    经过判断+聚类算法判断用户的忠诚度
  • 身高体型模型
    依照用户购买衣裳鞋帽等用品判断
  • 文艺青年模型
    据悉用户发言、评论等行为判断用户是否为历史学青年
  • 用户价值模型
    看清用户对于网站的价值,对于增强用户留存率十分实用(电商网站一般接纳RFM 实现)
    再有消费劲量、违约概率、流失概率等等诸多模型。

依照凹凸性

据悉超体聚类之后不同的结晶总结凹凸关系,举办私分

2_5.png

只允许区域跨越凸边增长

2_5_convex.png

宏观效果…

2_5_convex_perfect.png

用户画像的效用

罗振宇在《时间的爱人》跨年发言上举了如此一个事例:当一个坏商家明白了您的采购数量,他就足以依照你平凡购买商品的溺爱来控制是给您发正品如故赝品以提高盈利。且不说是否留存这状态,但那也认证了采纳用户画像可以完成“精准销售”,当然了,这是极致错误的用法。

其效能大致不离以下多少个地点:

  1. 精准营销,分析产品潜在用户,针对一定群体利用短信邮件等艺术开展营销;
  2. 用户统计,比如中国大学购置图书人数 TOP10,全国分城市奶爸指数;
  3. 数量挖掘,构建智能推荐系统,利用关乎规则总括,喜欢特其拉酒的人一般喜欢什么样活动品牌,利用聚类算法分析,喜欢苦艾酒的人年龄段分布情状;
  4. 进展功效评估,完善产品运营,提高服务质地,其实这也就相当于市场调研、用户调研,连忙下稳定服务群体,提供高品位的劳务;
  5. 对劳务或产品举行私人定制,即个性化的服务某类群体依然每一位用户(个人认为这是当前的发展趋势,将来的消费主流)。比如,某商厦想推出一款面向
    5-10
    岁小儿的玩意儿,通过用户画像举行分析,发现形象=“喜羊羊”、价格区间=“中等”的溺爱比重最大,那么就给新产品提供类万分合情有效的决策遵照。
  6. 事务经营分析以及竞争分析,影响公司提高战略

区域生长法

区域生长的一致性描述是区域生长法的基本准则,一般是灰度,也能够考虑颜色/纹理/形状等任何性能

遵照阈值的不二法门是遵照单个点的特色。基于区域的情势考虑到相邻点的一致性。

内需规定:

  • 种子像素,一般可以依据聚类中央作为种子中央,也可以设定一个阈值,在此阈值内的点为种子点

  • 发育模式和每回生长后这些区域的一致性准则,如灰度差小于阈值,简单的发育形式,区域的保有8邻域点。

若该点出席后,该区域满足一致性准则,则进入。

当多个区域满意一定准则时,合并几个区域。该规则可以设想六个区域分另外均值和方差。

要是没有预先确定的种子点,可利用一般步骤:

 1.用某种准则把图像分割成许多小区域

 2.概念合并相邻区域的清规戒律,需要小心区域统一得到的结果受区域统一顺序影响

 3.依据联合准则合并所有相邻的区域,假若没有再可以联合的块后终止。

不同的细分方法和联合准则适应不同意况。相邻区域特征值之间的出入是计量强度的一个尺度。
强边界保留,弱边界消除,相邻区域联合。总括是一个迭代,每一步重新总结区域成员隶属关系,并免除弱边界。无弱边界消除时合并截至。
测算开销较大,但综合运用的话对本来面貌分割效果相对最好。

发育准则:

  • 灰度差准则

    1.dd 扫描图像,找出无隶属的像素

    2.反省邻域像素,逐个相比,灰度差小于阈值即集合
    (对种子点倚重较大,可以求所有邻接区域平均灰度差,合并差小的分界区域/
    还可直接用像素所在区域平均灰度值代替此像素灰度值举行相比较。)

    3.以新合并的像素为主导,重复步骤2,直至区域无法越来越扩充

    4.赶回步骤一,重复,至找不到无隶属像素,截至生长。(可以团结设定终止准则)

  • 灰度分布总计准则

    以灰度分布相似性座位上生长准则来支配区域的会晤,步骤如下:

    1.把图像分为互不重叠的小区域

    2.相比邻接区域的累积灰度直方图很据灰度分布相似性举行区域统一

    3.设定终止准则,重复步骤2将各区域依次合并直至满足终止准则

    灰度分布相似性检测方法 | Kolmogorov-Smirnov {maxz(h1(z)-h2(z))} | Smoothed-Difference{Σz|h1(z)-h2(z)|}

  • 区域形状准则

    措施1:把图像分割成灰度固定的区域,设两相邻区域周长分别位p1p2,把两区域联合边界线两侧灰度差小于给定值的有的设为L,若L/min(p1,p2)>T1则统一两区域。

    艺术2:把图像分割成灰度固定的区域,设两邻接区域联合边界长度位B,把两区域共同边界线两侧灰度差小于给定值部分的尺寸设为L,若L/B>T2则合并

多少搜集

数量搜集大致分为网络行为数据、服务内行为数量、用户内容偏好数据、用户交易数据这四类。

  • 网络行为数据:活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等
  • 服务内行为数据:浏览路径、页面停留时间、访问深度、唯一页面浏览次数等
  • 用户内容便好数据:浏览/收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等
  • 用户交易数额(交易类服务):贡献率、客单价、连带率、回头率、流失率等
    自然,收集到的多寡不会是 100%
    准确的,都具有不引人注目,这就需要在后头的阶段中建模来再判断,比如某用户在性别一栏填的男,但透过其行为偏好可看清其性别为“女”的概率为
    80%。

还得一提的是,储存用户作为数据时最好还要储存下发出该表现的景色,以便更好地展开多少解析。

将近音讯

  • kdTree & OcTree

    追寻策略,建立相邻关系

#include <pcl/point_cloud.h>

#include <pcl/kdtree/kdtree_flann.h>

//创建kdtree 结构

pcl::KdTreeFLANN<pcl::PointXYZ> kdtree;

//传入点云

kdtree.setInputCloud (cloud);

//设置输入点

pcl::PointXYZ searchPoint;

//k邻近搜索

int K = 10;

//设置五个容器,第一个放点的标注,第二个点到SearchPoint的距离

std::vector<int> pointIdxNKNSearch(K);

std::vector<float> pointNKNSquaredDistance(K);

//举办检索,注意,此函数有再次来到值>0为找到,<0则没找到

kdtree.nearestKSearch (searchPoint, K, pointIdxNKNSearch,
pointNKNSquaredDistance)

// 基于距离的探寻 //

//四个不为人知尺寸的器皿,功效同上

std::vector<int> pointIdxRadiusSearch;

std::vector<float> pointRadiusSquaredDistance;

// 搜索半径

float radius = 3;

//搜索,效果同上

kdtree.radiusSearch (searchPoint, radius, pointIdxRadiusSearch,
pointRadiusSquaredDistance)

  • 欧氏距离

    划分,可以用半径做滤波,删除离群点

//被分割出来的点云团(标号队列)

std::vector<pcl::PointIndices> cluster_indices;

//欧式分割器

pcl::EuclideanClusterExtraction<pcl::PointXYZ> ec;

ec.setClusterTolerance (0.02); // 2cm

ec.setMinClusterSize (100);

ec.setMaxClusterSize (25000);

//搜索策略树
ec.setSearchMethod (tree);

ec.setInputCloud (cloud_filtered);

ec.extract (cluster_indices);

  • 区域加强
    可以自定义规则,如法线,曲率,颜色,距离等等

2_2_region_chair.png

2_2_region_corridor.png

//一个点云团队列,用于存放聚类结果

std::vector <pcl::PointIndices> clusters;

//区域生长分割器

pcl::RegionGrowing<pcl::PointXYZ, pcl::Normal> reg;

//输入分割目的

reg.setSearchMethod (tree);

reg.setNumberOfNeighbours (30);

reg.setInputCloud (cloud);

//reg.setIndices (indices);

reg.setInputNormals (normals);

//设置限制标准及先验知识

reg.setMinClusterSize (50);

reg.setMaxClusterSize (1000000);

reg.setSmoothnessThreshold (3.0 / 180.0 * M_PI);

reg.setCurvatureThreshold (1.0);

reg.extract (clusters);

什么是用户画像?

简简单单,用户画像是按照用户社会性质、生活习惯和消费行为等音讯而空虚出的一个标签化的用户模型。构建用户画像的主干工作即是给用户贴“标签”,而标签是由此对用户音信分析而来的惊人概括的风味标识。

比喻来说,即便你平时购买部分玩偶玩具,那么电商网站即可遵照玩具购买的景色替你打上标签“有子女”,甚至还足以断定出您孩子大概的岁数,贴上“有
5-10
岁的男女”这样更为现实的竹签,而这个有着给你贴的标签统在两次,就成了您的用户画像,因而,也得以说用户画像就是判断一个人是怎样的人。

除去“标签化”,用户画像还保有的特性是“低交叉率”,当两组写真除了权重较小的竹签外另外标签几乎如出一辙,这就可以将两端合并,弱化低权重标签的区别。

区域分裂+合并

从中间层起首拍卖,遵照一致性准则该分裂分裂该联合合并。起源是四叉树的某一层节点。

  • 边缘+区域 分割
    透过边缘限制,避免区域过分割,通过区域分割补充漏检边缘。

    如先举办边缘检测与连接,在比较相邻区域的特色(灰度均值,方差等),若相近则统一。

    对本来图像分别开展边缘检测和区域增长,得到边缘图和区域分段图后,再按自然准则融合,得到终极分割结果。

  • 连通域标记
    按照边缘的法子按照所得闭合边界,选拔边界跟踪和中间填充的点子。

    据悉区域的法门一般采纳连通性分析方法,遵照一定的一一把连通的像素用相同的序号标注

1.把装有像素点放到待处理点集合A中。

2.假使A空则截至。否则从A中随意移出一点看成连通域a(用集合表示)的起始点
3.在A中寻找具有与a连通的点,并移到a中,若没有找到,重复2,寻找下一个连通域。
4.重复3,迭代寻觅新的连通点。

后记

此地只写了用户画像的构建流程和一部分原理,下次有时光我会写篇关于大数据平台的履行小说,并说一下部分行为模型的算法原理,有趣味的情侣能够关心下。

参考阅读:
[1]永洪BI:手把手教您搞定用户画像
[2]易观智库:大数据下的用户分析(PPT)
[3]杨步涛:基于用户画像的大数额挖掘实践
[4]慕课网:电商大数量应用之用户画像
[5]博客园:亚历克斯(Alex)(Alex) Chu
关于用户画像的答复

区域分裂

固有图像    模糊滤波    分裂合并   分裂增加

1_3_split.png

区域分裂与区域联合相反

先假诺任何图像是一个对象,不满足一致性准则,则分裂(一般是均分为4个子图像),重复,直至所有区域满意一致性准则。像正方形的四叉树分裂

构建流程

Paste_Image.png

据悉边缘分割

实质上意况中图像边缘往往是各类类型的边缘及模糊化后的结果组合,且实际信号噪声较多。

噪音和边缘都属于高频噪声,难用频带取舍。

  • 边界分割法
       点+线+边缘检测

    能够加一些图像增强或腐蚀膨胀等形态学处理,强化或弱化目标边界,去噪

1_1.png

一阶算子 介绍
Roberts 2*2四邻域差分寻找边缘 无平滑,噪声较敏感
1_1_roberts.png
Sobel/Prewitt 3*3邻域卷积梯度微分,处理垂直和水平边缘 处理灰度渐变低噪声,定位校准
1_1_sobel.png
Log 先平滑,拉氏变换后求二阶积分再卷积 消除尺度小于σ的图像强度变化,计算量小,易丢失细节
1_1_log.png
Canny 准高斯函数做平滑,带方向一阶微分算子定位导数最大值 检测弱边缘效果很好,运算较慢
1_1_canny.png

检测完提取

实体边界一般是线,不是单身的点。边界表示使图像表示更简介,方便高层次明白

困难在于边界划分缺损,不是关闭连通边界图,梯度大的点也不自然真是边缘点

可以加一些开闭运算,形态学梯度,顶帽黑帽,颗粒分析,流域变换,骨架提取,击中击不中变换等形态学处理,强化或弱化目标边界,强化物体结构

数学形态学是一门建立在严俊数学理论功底上的科目。象方差,弦长分布,周长测量,颗粒总结等
统称为击中击不中变换

数学形态学理论功底是击中击不中变换,开闭运算,布尔模型和纹理分析器

方法 介绍
简单连接 相邻点边缘强度差和边缘方向小于阈值时,可以连接。无则停止,多则取差最小的点
启发式搜索 从多种可能路径中选优,评价函数打分
曲线拟合 若边缘点很稀疏,可以用分段性或高阶样条曲线来拟合这些点,形成边界。拟合方法多为均方误差最小准则

此外还有hough变换,图搜索,动态规划等

PCL

因为维度的加码,是的剪切成为三维图像对比二维图像的最大优势。使得最优分割成为可能

特别工具分开

  • 小波
  • 马尔科夫随机场
  • 遗传算法
  • 神经网络/Kmeans/主动概况模型(能量函数)

SaliencyCut

1_4_saliency.png

Global Contrast Based Salient Region
Detection

_北大程明明
download

Ransac算法

随意采样一致,找平面,找线,找圆柱等 可以处理噪声较多的场合

2_1.png

动用形式:

//成立一个模型参数对象,用于记录结果

pcl::ModelCoefficients::Ptr coefficients (new pcl::ModelCoefficients);

//inliers代表误差能耐受的点 记录的是点云的序号

pcl::PointIndices::Ptr inliers (new pcl::PointIndices);

// 创造一个分割器

pcl::SACSegmentation<pcl::PointXYZ> seg;

// Optional

seg.setOptimizeCoefficients (true);

// 曼达tory-设置目标几何样子

seg.setModelType (pcl::SACMODEL_PLANE);

//分割方法:随机采样法

seg.setMethodType (pcl::SAC_RANSAC);

//设置误差容忍范围

seg.setDistanceThreshold (0.01);

//输入点云

seg.setInputCloud (cloud);

//分割点云

seg.segment (*inliers, *coefficients);

2_1_youtube.png

移动分割

差分(时空灰度梯度) 光流(运动场)

参考
图像分割

视觉报告—分割篇

图像中的显明属性变化一般反映了这些特性的最首要和熏陶

广阔的情事有:深度不总是,表面方向不连续,物质属性变化,场景照明变化

理想的剪切算法可以极大回落数据量

遵照区域分割

1_3.png

阈值分割

1_2.png

阈值分割算法实际上就是设定阈值的矩阵二值化,所以这个输入的灰度矩阵可以变成以0:255为限制的任何其余矩阵
例如速度矩阵,深度矩阵,明度矩阵等等以及任何所有总括特性的矩阵

利用图像中要提取目的和背景在某一表征上的反差,拔取合适阈值举办划分。

  • 单阈值分割方法(全局)
  • 多阈值分割方法(局部)
  • 遵照像素值/区域性质/坐标地点的阈值分割方法
  • 据悉分割方法所负有的特征或轨道,可分为直方图峰谷法/最大类空间方差法/最大熵法/模糊集法/特征空间聚类法/基于过渡区的阈值采纳法等
  • 直方图阈值的双峰法
  • 迭代法(最佳阀值分割迭代法 k-means)
  • 大律法(otsu阈值分割算法)
  • 类内方差最小方差法
  • 微小错误概率分类法
  • 基于熵的二值化方法
  • 一部分自适应

minCut算法

图论

2_3.png

description: vision
总结,发于reasonw.github.io,简书同步

基于形态学

2_6.png

相关文章

No Comments, Be The First!
近期评论
    分类目录
    功能
    网站地图xml地图