博客首页|TW首页| 同事录|业界社区
2017-05-22

摘要:前几天有同学找我聊,聊到了她们想搭建DMP系统,对于搭建DMP系统的目标、外部数据是否重要,DMP同CRM系统的关系及如何打通这些数据等等话题。下面我再整理整理分享给到大家。

随着移动互联网的高速发展,大数据的概念已经逐步被大家所接受,被追捧。在实际业务当中逐步被更多地运用起来。然而概念火爆需求旺盛,使得整个市场鱼龙混杂,不论是DMP系统供应商,还是数据提供商,都会有各种的推销。在一阵阵的喧嚣热闹下,使得我们更加地心里没底了。那么如何才能用好DMP这个工具以及大量的各方数据呢?下面我们将从需求、外部数据选择、数据打通等等视角来介绍。

一、立足业务诉求,步步为营

对于DMP系统以及数据,我的观点首先是要想明白、梳理清楚搭建DMP系统的目的。因为首先弄清楚系统目标十分的重要,目标决定了系统的功能、数据源、数据采集打通等等各种环节。另外在大目标这个维度下,我们还需要加入逐级分解需求找出数据模型及业务规则这个维度来梳理。因为虽说互联网已经深入日常工作生活的方方面面,各种细节活动中。而说到底还是一种信息化的方式。就是将我们的工作、生活中各种的数据电子化了,通过这些电子化手段可以让我们利用一些自动化的工具,更好地加速我们的业务开展及数据分析。所以只要能认识到这点就能让我们释然很多。从纷乱的外表看到问题的实质。重点还是业务,而不是电子化的手段或者电子化的数据形式。换句简单点的话来说就是,关键是我们是否能搞明白如何通过XLS建立什么样的维度,以及分析出什么样的数据模板,通过xls模板或者纸的表单能把业务走通走完才是关键。这样两个梳理维度交织在一起由大到小,从上到下。例如建立DMP系统可能有如下这些目标方向:

1.在营销领域:

a.各种营销渠道对后续效果的归因分析;那么是否知道哪些维度和指标来观测及评估渠道贡献是分解需求的关键:例如:广告曝光->点击—>到达->活跃->转化->留存->复购等等。其中哪些数据是已经有的,哪些数据是需要通过数据打通或从外部获取的?等等这些都是需要认真梳理的。

b.对目标受众的分析可辅助制定产品推广策略或营销策略;这个策略可以倒过来看,可以先从现有自己的数据着手,分析出不同产品或现有不同推广活动,到达官网或购买产品服务的用户的分组以及基于这个分组,以及从现有数据中是否能找出一定的特征。例如:之前春季促销带来的大量的是购买某一产品,而且留存及3个月的复购高,这些用户大量集中在什么区域什么时段什么形式或渠道购买的产品服务。然后再根据这些分组再结合CRM或直接进行发放调研问卷,或结合外部的数据来给用户进行的兴趣爱好及可能的转化因素进行明确。这些都是我们要达成的结果,手段可能会是DMP系统。

c.收集分析高转化特征指导广告投放。基于上述b环节的数据可以进一步同媒体或广告渠道进行数据对接,可以采用自动化手段进行广告投放。而怎样投放才算效率高效果好,又是环节a会关注的。所以我们会发现重点是我们要把业务梳理清楚,关键不是DMP系统或工具本身。

可见在营销这个方向上DMP建立的终极目标是优化营销效率,提升ROI。

2.在用户运营领域:营销是给产品服务引流的,所以营销目标同用户运营的目标密不可分的,用户运营的很多数据维度及模型可能都是衡量营销效率及效果的重要指标项。广义上可能会经常将用户运营同营销放在一起来说。用户运营领域十分重要的就是CRM系统以及运营内容同用户响应度及转化度之间的关联这些数据及模型都是我们需要重点分析梳理的。对于这些问题我们可以按5W1H标准的描述事件的思路来指导梳理:WHO(谁)、WHAT(什么内容)、WHEN(何时)、WHERE(何地)、WHY(为什么)、HOW(如何的互动的方式)。以及这些不同的维度的用户互动及留存转化的模型如何?或者对用户的利润贡献率、单笔消费额度、消费频度、互动频度等等对用户进行分组,再以这个分组为主要分析线索来分析内容、服务、产品的用户使用频度周期等等。有了这些数据结果才能有效地指导用户运营的后续计划安排。在这个过程中我们肯定会遇到不同系统间数据如何打通,是否需要外部数据补充等等问题。

3.财务管理或供应链管理等企业管理的领域:其实我们企业管理的核心就是依据产品及服务销售节奏,合理地配备人财物。供应链的管理,使得库存越小、资金周转率越高、资金流转速度越快管理的利润率也就越高是管理领域的重点目标。那么如何使用好数据,并将不同系统间的数据衔接好,不同业务领域的模型衔接好。例如:推广模型同产品转化的模型以及供应链财务模型衔接好,高ROI的营销推广带来的产品销售不一定是供应链财务模型中最优的产品服务。所以根据自身的业务特点这些也都是需要细化梳理的。

以上仅仅选取了企业中的几个典型领域进行了介绍,主要也是以原则和思维模式为主,更多地希望大家能以业务从上到下的梳理,以内部数据为主的方式展开。

二、需求及数据按使用对象、部门、岗位、级别关注点均不同

这个点是我们在梳理DMP系统的功能及模型时不可忽视的,不同级别岗位或部门对数据及需求的关注点均不同。例如:

领导级别的更关心数据的可视化、数据中蕴藏规律的总结、以及以数据作为某些结论或后续计划的支撑依据。

业务执行级别的更关心数据的一致性、联通性、业务功能的闭环性,以及数据的验证性,功能上对数据规律的挖掘空间,可扩展性,外部系统的连通性等等。

业务操作级别的更关心系统操作的便捷性,可执行性,低失误率,高效性等等。

三、立足内部数据,内部数据实在不足时再外部数据补充,在用户各触点处打通各孤岛系统数据

上面已十分强调了立足内部数据及内部业务诉求,不应该被各种外部数据及系统供应商的美妙故事迷惑了眼睛,首先重点要抓住自己的内部数据,只有内部数据梳理清楚了。只有在配合业务需要的分析缺少某些维度时,在寻找外部数据补充时才会有效。对业务而言数据不是越多越好,而是对业务的针对性、配合有效最好。很多时候常常有同学问我各种系统之间或线下线上数据该如何打通。大家可能首先想到的是类似CookieMapping、IDMapping等等技术手段。但实际上大家应该更多的关注同用户接触的接触点,在各触点处,加入一些对用户无感知的数据采集手段,这些数据采集手段需要能兼容各系统数据孤岛的数据ID。具体做法例如:CRM系统中往往都有会员的手机号,那么我们如何将PC官网的Cookie及App的设备ID同CRM系统的会员打通呢,道理很简单就是在用户登录官网或App需要引导用户录入手机号;线下WIFI收集了设备ID同时引导用户在线下WIFI完成某些业务操作录入手机号等等,这样也能在WIFI触点处打通线下线上的数据。诸如此类的做法有很多,这样就可以在某些触点通过多采集些维度的数据来打通各系统孤岛的数据(Mapping的技术仅仅是基础手段,重点还是用户触点的选择),而这些都是需要提前梳理用户触点或推广渠道,然后根据业务需要在用户触点处或推广渠道打通数据。

最后简单小结一下,对于数据及DMP我们切不可为了大数据而大数据,不可贪大求全,一定要以内部数据为主、以业务诉求出发,自上而下逐步梳理、步步为营。外部数据要定位是自己内部数据的补充。数据打通需要重点关注用户触点的梳理。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-05-15

《样本训练》《回归验证》中介绍了很多DMP基本的算法,下面我们将从实战案例方面为大家介绍,在运用层面DMP主要会有哪些内容。介绍这些案例主要目的也是为了让大家对DMP的主要功能及运用方向有个感性认识,便于在实战中有方向感。

TradingDesk & DMP & PDB(PMP)案例

首先我们介绍一个国内某知名品品牌,大数据驱动数字营销管理系统实战的案例,该系统的建设目标:通过这套系统管理年数亿的数字营销预算。这套系统的基础核心是DMP,但DMP若不结合实际的业务是无法产生巨大效益的。例如该系统案例,就是DMP结合了广告主方的Trading Desk、PDB(PMP),在营销方面运用大数据驱动数字营销的典型场景。Trading Desk主要对接相关DSP系统,并运用DMP来指导管理广告投放,PDB(PMP)主要对接的广告主自采媒体并运用DMP来指导管理广告投放,如图9-15所示。

图9‑15 Trading Desk & DMP & PDB(PMP)整体系统模块示例

下面选取几个业务人员常用的功能点介绍一下,例如“采集代码管理”主要用于生成数据采集代码,采集的数据有:线上广告投放链条上的相关的曝光->点击->到站->站内活动->转化等等数据;还有一些官网上访客的行为数据;还有一些线下到店等等相关的行为数据。界面截图示例如图9-16所示:

图9‑16 DMP中代码中心界面截图示例

同时在代码中心还可支持对相关投放进行关联,一旦使用了跟踪代码,广告主可以快速与广告投放进行效果关联,关联最小粒度为订单层级。在投放报表中直接能看到,到站后的行为效果数据,这样可以轻松地对不同渠道的投放效果进行分析。如图9-17所示:

图9‑17渠道分析功能界面截图示例

当然也可以根据需要,对用户会话时长、曝光转化周期、CookieMapping优先级进行自定义设置,满足多种需求。例如:

l 会话设置:访客数量是基于cookie,而访问次数是基于session,也就是会话时长,默认为30分钟,广告主可根据实际需要进行调整。

l 曝光转化周期设置:用户每次的转化行为,往往是多种渠道共同作用的,而曝光转化也应运而生,默认周期为30天,也就是看过广告的用户,如果在30天内形成转化,会被算作曝光转化,广告主可以在此设置,根据需求进行调整。

l CookieMapping设置:CookieMapping是PC端使用DMP服务的基础,可多维度的设置,灵活满足CookieMapping的需求。比如通过设置CookieMapping的优先级,保证最优质的媒体资源优先进行mapping。

还有自定义人群标签也是较为常见的功能,业务人员可根据业务需求,建立自有的人群标签体系,同时支持针对不同产品线、不同业务线自身人群特性,创建多维度自定义标签。且系统支持多维标签定义后,可导出cookie或者设备id人群包,用以指导广告投放。系统也支持导入自定人群包,直接给广告投放系统使用。

线下DMP系统案例

下面再让我们来看一个某大型国际知名车企,全国4S线下店面大数据管理系统的实战案例。通过线下DMP的建设,有效地管理线下到店的客流数据,并打通线下与线上。为产品功能策划、营销渠道到店浓度分析、以及指导广告投放,提供了大量重要的线下到店人群样本数据。当然线下线上数据打通之后,还可依据业务的需求做很多很多O2O的解决方案。如图9-18所示。

图9‑18线下线上打通解决方案示意

l 线下设备云管理系统即插即用,可远程调试;实时查看各个设备上线情况;安装实施便捷,全国各数据采集点状态及概览统计在可视化视窗中一览无遗。如图9-19所示。

图9‑19线下数据采集设备状态监控

l 基于到店顾客数据的线上行为进行消费者洞察,针对到店顾客画像以及兴趣特征,调整产品定位、功能设计、以及相应的营销广告策略。如图9-20所示。

图9‑20到店顾客人群画像

如图9-21所示,为线下DMP系统的大体功能模块示例,通过这张图大家对线下DMP的主要功能会有个感性认识。

图9‑21线下DMP系统大体功能模块示例

从图9-21中,我们选取部分常用的功能界面截图示例介绍如下:

l 基础分析:店头客流进店率、平均驻留时间、新老客户分层等分析统计。如图9-22所示。

图9‑22店头客户分析示例

l 经销店位置分析:提供到店客流常出现地理位置的热力图分析,为未来活动选址提供建议。如图9-23所示。

图9‑23到店客流常驻地址位置热力图分析示例

专有线下DMP+DSP实战案例

这个实战案例是在线下机场高铁大型公共场所,基于提供WIFI上网的服务之上,建立大型商旅人群的DMP。机场高铁天然就是一个持续不断筛选出新中产高消费人群的,优良场景化的筛子。建立高端人群DMP后,即可通过程序化购买广告的手段,对于这些人群进行精准营销。这样就构建起了专有的机场高铁,线下DMP+DSP实用精准营销的全新模式。如图9-24所示。

图9‑24机场高端人群DMP+DSP示例

机场和高铁站已经是很多大品牌的必争之地,同时若能结合线下场景化的WIFI广告投放 + 线上的联合多屏多次广告触达,通过这种线下线上打通的全新营销模式,可以让品牌借助场景化优势,多屏曝光持续触达,影响消费升级。如图9-25所示。

图9‑25机场场景营销+线上多屏找回

机场高铁的线下DMP不仅仅能区分出商旅人群,还可在此基础上根据更细化的位置,及出行频次等等线下行为数据,并结合线上用户行为数据,对人群再度细分。如图9-26所示。

图9‑26线下行为标签细化

除了上述应用场景,还可以在广告主店面或展位中,架设线下DMP采集到店/展用户数据,可以构建起跨时代的品牌莫比斯闭环:打通线上线下的全新模式。如图9-27所示。

图9‑27线上线下营销莫比斯双环闭环示例

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-05-08

要建立完备的大数据系统,需要扎实完善、高处理效率、高安全性、高稳定性、易扩容、海量存储的技术架构。下面截取部分DMP系统的技术架构图(主要包括应用架构、数据架构、技术架构等)供大家参考,同样对于非技术的同学对此有个感性认识即可。也不做大篇幅的展开了。

应用架构

应用架构主要是从应用功能角度将各模块间关系及分工进行描绘的图纸,主要会从应用集成视图、功能视图这些角度来进行描绘。帮助大家能对系统有个直观的认识,并且帮助各模块协同开发,友好集成。

  • 集成视图:

该视图主要体现出各模块间关系,如图9-28所示,以线下DMP系统为例,大数据平台(BigData)会从各个不同的渠道交换或采集数据。如:通过数据采集网络采集线下扫描设备采集的用户扫描数据、WIFI上网服务Portal的用户登陆认证数据、上网数据、点击流数据等,从企业数据中的普通数据、连锁店、加盟店等线下场景获取扫描数据、认证数据、上网数据等。内部会对各种业务维度位置数据、消费数据、通讯数据等进行交换从而对用户行为进行精准的刻画。在这个例子中,大数据平台以服务线上广告业务作为主要业务运用方向,所以会把广告管理系统视为外部系统(大数据为本体域,业务运用为客体域),进行外部数据交换,打通用户线下ID及线上ID。将用户的线下行为结合线上行为结合起来分析并打上标签,用以指导线上的程序化广告投放。广告系统中会从媒体方、ADX、广告监测中收集各种线上用户行为数据,并将这些线上广告相关的查看、点击、竞价信息等数据灌入大数据系统,从大数据系统中得到人群画像、竞价决策等的数据支持。当然不同的业务运用目的,就会接不同的业务系统交互数据,并将大数据为不同的业务运用目的而服务。

图9‑28 DMP应用架构-集成视图示例

  • 功能视图:

该视图主要描绘DMP基础必备的技术功能,如图9-29所示,大数据平台基础必备的技术功能有数据采集、数据导出、数据分析、数据可视化等。数据采集主要职能是收集数据,主要包括扫描采集数据、校验数据有效性、处理清洗数据、上传数据、备份数据、加密解密、压缩解压缩、ID生成等功能模块。数据导出主要职能是为了服务内外部的数据导入导出需求,主要包括内部ID关联、内部ID及数据导出、外部ID匹配、外部ID及数据导入等功能模块。数据分析主要职能是结合业务运用方向的需求对数据进行分析整理,在该例中以广告为主包含广告投放数据分析、人群画像等功能模块。数据可视化是数据有效输出、为决策提供支持、数据展示价值的重要窗口,其主要包含运维需要的数据采集监控、数据管理需要的数据主体域可视化、数据运用需要的行为域可视化、数据查询等功能模块。

图9‑29 DMP应用架构-功能视图示例

数据架构

若我们要对数据进行清晰的梳理,就必须先画出数据架构,在数据架构中会依据既有数据内容及运用方向画出主题域,并通过对主题域视图的描绘,让大家对系统主要管理的数据维度及各数据之间的关系有一定的认识。这样能有效指导有方向有目的地去收集交换并运用数据。数据我们一般会分为不同的主题域来存储分析,不同的主题域中都有唯一的主域数据对象族,其他的数据都是围绕这个主域数据对象族的客体域数据。如图9-30所示,以人作为十分核心的本体域,包括个体特征、身份证号、群体特征、本体关系网络、标签、数据维度、类别等。作为人本体域存在很多描述的本像数据,如计算机网络中的应用层的QQ及微信、表示层的CookieID、网络层的IP地址、物理层MAC地址,以及电信网络中的手机号、IDFA、IMEI、AndroidID等。相对人本主体的是客体域,即与人关联的物或非本体的数据或行为等,其包含个体特征及群体特征等,对于该例中以广告为主要业务运用方向,以广告作为主要描述的客像数据,如计算及网络中的应用层的广告ID及行为语意表达等。人本体及网络广告及行为数据客体通过时空交互,这些关联关系的数据均记录在交互域中,如计算及网络中的应用层的邮件记录及上网记录及广告行为、网络层的DHCP上网IP自动获取记录、物理层客户端位置及设备位置,以及电信网络中的终端位置、通话记录、基站位置等。只有通过如此严谨且丰富的数据区隔,我们才能有效地分析数据,找出其中有价值的内容。

图9‑30 DMP数据架构-主题域视图示例

技术架构

技术架构往往是我们要开始系统工程开发及构建之前,从技术实现角度划分出不同技术开发组件及模块的重要工序,这样做才能确保开发分工的协同性及系统功能实现的完整性。其中十分重要的就是组件视图的描绘。一般技术开发中必然会划分出不同的技术组件,主要是为了在系统搭建中,提高组件的可复用性,提升重用率,提升系统代码质量,尽量减少“重复造轮子”的浪费。如图9-31所示,我们将DMP系统的技术组件划分为主要负责对资源的管理及操作交互的基础资源层(bd-res)、主要负责业务处理的业务层(bd-mod)、主要负责集成及输入输出接口的接口层(bd-port)、以及贯穿各层的公共工具(bd-util)。公共工具(bd-util)即各层技术开发时大家都会用到的公共工具,如异常处理、类管理、开发调试工具等。基础资源层主要负责对资源的管理及操作交互,如数据库处理(res-db)包含对hbase、jpa、redis等的交互模块,文件处理(res-file)包含对csv、excel、大数据文件dfs、文件系统fs等的交互模块,网络处理(res-net)包含对ftp、http、mail、rest等的交互模块,流处理(res-stream)包含对mns、ons等的交互模块,还有对缓存(res-cache)、大数据计算资源spark(res-spark)、大数据计算emr(MapReduce)资源(res-emr)、通用资源(res-common)等的交互模块。业务层负责业务处理,如基于spark的业务计算模块(包括聚集(gather)、学习(learn)、训练(trans)(训练中包含清洗(clean)、映射(map)、聚类(aggregate))、查询(query)(包含匹配(match)、导出(export)、检索(search))),基于流的业务计算模块(mod-stream),基于mr(MapReduce)的业务计算模块(mod-mr),基于共享内存的业务计算模块(mod-shm)等。接口层主要负责集成及输入输出,如集成接口模块(port-integration)、客户端接口模块(port-cli)、API接口模块(port-api)、WEB接口模块(port-web)等。

图9‑31 DMP技术架构-组件视图示例

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-05-02

上篇《样本训练》介绍了很多常用的分类算法,实操我们中该如何评价不同分类器的质量呢?首先要定义,分类器的准确率,指分类器正确分类的项目占所有被分类项目的比率。通常使用回归测试来评估分类器的准确率,最简单的方法是用构造完成的分类器对训练数据进行分类,然后根据结果给出准确率评估。但这不是一个好方法,因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观,所以一种更好的方法是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的准确率。所以一般会对原始数据进行分割,分割成训练集和测试集。这样做是为了方便验证在训练集上训练得到的模型,是否能在测试集中可取得理想的效果。通常(训练集:测试集)分割比例为6:4或者7:3。训练集用来训练算法,学习其中的变量,测试集用来查看或检验所选算法在测试集上的效果。目前,常见的开源算法类库现成的有很多,只要将这些类库装载到计算环境中使用即可。(数据科学(data science)领域较流行的运行机器学习算法的语言有R、Python。)

衡量算法效果。常见的评价指标有:正确率、召回率和F值:

  • 正确率 = 正确识别的个体总数 / 识别出的个体总数
  • 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数
  • F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

举个例子:某池塘有1400条鱼,300只虾,300只蟹。现在以捕鱼为目的。撒一大网,网着了700条鱼,200只虾,100只蟹。那么,这些指标分别如下:

正确率 = 700 /(700 + 200 + 100) = 70%

召回率 = 700 /1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

若把池子里的所有的鱼、虾和蟹都一网打尽,这些指标变为:

正确率 = 1400 /(1400 + 300 + 300) = 70%

召回率 = 1400 /1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见,正确率是评估算法预测的成果中,目标样本所占的比例;召回率,主要是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

  • ROC(receiver operating characteristic)曲线

对于二分分类,原始类分为positive、negative,我们可以标记为p、n。如图9-9所示,排列组合后得到4种结果。于是我们可以得到四个指标,分别为真正(TP)、伪正(FP);伪负(FN)、真负(TN)。

图9‑9二分分类典型四象限示意

对于正、负分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络,得到诸如0.5、0.8这样的分类结果。这时,我们可以人为取一个阈值,比如0.4,那么小于0.4的为负类,大于等于0.4的为正类,这样可以得到一个分类结果。同样这个阈值我们可以取0.1、0.2等等。取不同的阈值,得到的最后分类情况也就不同。例如图9-10所示:

图9‑10正负样本图示例

图9-10中左部的曲线图表示样本为正类的分布图,右部的曲线表示样本为负类的分布图。那么我们从中取一条直线,若假设直线左边分为正类,右边分为负,这条直线也就是我们所取的阈值。可见若我们移动该直线,这样阈值的不同,可以得到不同的结果。但是由分类器推测出的样本分布图始终是不变的。这时候就需要一个独立于阈值,只与分类器有关的评价指标,来衡量特定分类器的好坏。还有在类不平衡的情况下,如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90%。但这显然没有意义。这就是ROC曲线的主要动机。

ROC空间将伪正率(FPR)定义为 X 轴,真正率(TPR)定义为 Y 轴。这两个值由上面四个值计算得到,公式如下:

TPR:在所有实际为正的样本中,被正确地判断为正的比率。TPR=TP/(TP+FN)

FPR:在所有实际为负的样本中,被错误地判断为正之比率。FPR=FP/(FP+TN)

在实际应用中,我们当然希望尽量把正确的目标人群找出来作为主要任务,也就是第一个指标TPR越高越好。而把负的样本为误判,也就是第二个指标FPR要越低越好。不难发现,这两个指标之间是相互制约的。若我们对于负样本判别标准定义的特别细致严格,一点小的特征都判断为负的话,那么第一个指标就会很高,但是第二个指标也会相应地变高。最极端的情况下,若我们把所有的样本都看做负的话,那么第一个指标达到1,第二个指标也为1。

我们以FPR为横轴,TPR为纵轴,得到ROC空间:

图9‑11 ROC空间示例图

我们可以看出,左上角的点(TPR=1,FPR=0),为完美分类,也就是个高明全对的推断。左边离中线近一些的点A(TPR>FPR), A的判断大体是正确的。中线上的点B(TPR=FPR),也就是B可能全都是蒙的,对一半错一半;右下半的点C(TPR<FPR),这个推断很可能错误。上图中一个阈值,得到一个点。现在我们需要一个独立于阈值的评价指标,来衡量这个分类器如何,也就是遍历所有的阈值,得到ROC曲线。

还是以图9-10为例,我们可以遍历其中所有的阈值,能够在ROC平面上得到ROC曲线。如图9-12所示ROC曲线。

图9‑12 ROC曲线示例图

曲线距离左上角越近,证明分类器效果越好。

图9‑13三种分类器得出的不同ROC曲线示例图

如图9-13所示的示例,是三条ROC曲线,若在0.23处取一条直线。那么,在同样的低FPR=0.23的情况下,最外侧那条线的分类器得到更高的TPR。也就表明,ROC越往上,分类器效果越好。我们用一个标量值AUC来量化她。

  • AUC(Area Under ROC Curve)

如图9-14所示,AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 < AUC< 1,优于随机猜测。这个分类器(模型)若妥善设定阈值的话,能有预测价值。

AUC = 0.5,跟随机猜测一样(例:抛硬币),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

图9‑14 AUC示例图

  • AUC的物理意义

假设分类器的输出是样本属于正类的score(置信度),则AUC的物理意义为,任取一对(正、负)样本,正样本的score大于负样本的score的概率。

  • 计算AUC:

第一种方法:AUC为ROC曲线下的面积,那我们可直接计算面积。面积为一个个小的梯形面积之和。计算的精度与阈值的精度有关。

第二种方法:根据AUC的物理意义,可计算正样本score大于负样本的score的概率。取N*M(N为正样本数,M为负样本数)个二元组,比较score,最后得到AUC。时间复杂度为O(N*M)。

第三种方法:实际上和第二种方法是一样的,但可减小复杂度。直接计算正样本score大于负样本的概率。我们首先把所有样本按照score排序,依次用rank表示他们,如最大score的样本rank=n(n=N+M),其次为n-1。那么对于正样本中rank最大的样本rank_max,有M-1个其他正样本比他score小,那么就有(rank_max-1)-(M-1)个负样本比他score小。其次为(rank_second-1)-(M-2)。最后我们得到AUC。时间复杂度为O(N*M)。即:AUC=((所有的正例rank相加)-(M*(M+1))/2)/(M*N)。详细计算公式见公式9-3。

公式9‑3 AUC公式

另外,特别需要注意的是,对于存在score相等的情况时,对相等score的样本,需要赋予相同的rank(无论该相等的score是出现在同类样本还是不同类的样本之间的,都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。

当然实操中往往数据中不可避免的存在一些噪音,所以常会采用一些人工干预设置补偿因子及系数的方式。一方面这样做可以一定程度简化算法及模型,另一方面也大大降低对计算资源的消耗,从而降低成本提升效率。(这也是典型的二八原则做法:大部分80%的问题仅需要20%的投入及特征模型即可解决。)

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-26

在DMP中,对大数据的各种维度分析、分类、打标签,通过机器学习挖掘出数据中蕴藏的宝藏,是十分有技术含量的技术活儿。下面简单介绍一些常用的,对数据样本进行学习训练及回归验证的分析算法及、常规做法及核心流程。

样本训练

对原始样本数据训练可选择的算法有很多,常见的有:逻辑回归算法(logistic regression)、决策树算法(decision tree)、支持向量机算法(support vector machine)、神经网络算法(neural network)、朴素贝叶斯(Naïve Bayes,NB)分类算法等等。(实操中往往数据比算法更重要,解决问题的算法有很多,只要收集的数据质量较好,那么利用恰当的算法,往往比复杂算法对于质量较差的数据时能取得的效果更好。通常情况下数据比算法要重要。)

  • 逻辑回归算法:

逻辑回归是比较常用的机器学习方法,是一种分类学习方法。使用场景大概有两个:第一用来预测,第二用来寻找feature(特征值)变量对target(目标值)变量的影响因素。通过历史数据的表现,对未来结果发生的概率进行预测。例如,我们可以将某用户购买某商品的可能性,以及某广告被用户点击的可能性的概率设置为target(目标值)变量,将用户的特征属性,例如性别,年龄,地域、时间、广告请求各种维度的数据等等等,设置为feature(特征值)变量。并根据这些历史feature属性对target(目标值)变量的影响程度,及之间的关系,以此来预测某类feature(特征值)变量出现时,target(目标值)变量出现的概率。其中target变量是我们希望获得的结果,feature变量是影响结果的潜在因素,feature变量可以有一个,也可以有多个。一个feature变量的叫做一元回归(如图9-2所示),超过一个feature变量的叫做多元回归。

图9‑2逻辑回归算法示例

逻辑回归的适用性:

1) 可用于概率预测,也可用于分类。并不是所有的机器学习方法都可以做可能性概率预测。可能性预测的好处是结果有可对比性:比如我们得到不同广告被点击的可能性后,就可以列出点击可能性最大的N个。这样一来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取出最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。

2) 仅能用于线性问题:只有在feature(特征值)和target(目标值)是线性关系时,才能用逻辑回归。这有两点指导意义,一方面当预先知道模型非线性时,果断不使用逻辑回归;另一方面,在使用逻辑回归时,注意选择同target(目标值)呈线性关系的feature(特征值)。

3) 各feature(特征值)之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。逻辑回归不像朴素贝叶斯那样,需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,所以逻辑回归是不能自动组合聚类出不同的features而产生新feature的。

  • 决策树算法:

决策树算法是借助于树的分支结构来实现分类的。树的内部结点表示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标。决策树算法借助于树的分支结构实现分类。

如图9-3所示,是一个决策树的示例:一个预测某人是否会购买电脑的决策树,利用这棵决策树,可以对数据进行分类,从根节点(年龄)开始,若某人的年龄为中年,就直接判断这个人会买电脑,若是青少年,则需要进一步判断是否是学生;若是老年则需要进一步判断其信用等级,直到叶子结点可以判定记录的类别。

图9‑3决策树示例

决策树算法有一个好处,那就是它可以产生人能直接理解的规则,这是贝叶斯、神经网络等算法没有的特性;决策树的准确率也比较高,而且不需要了解背景知识就可以进行分类了,是一个非常有效的算法。决策树算法有很多变种,包括ID3、C4.5、C5.0、CART等,但其基础都是类似的。

  • 支持向量机算法:

支持向量机(SupportVector Machine,SVM)是一种常见的半监督式学习算法。支持向量机是Corinna Cortes和Vapnik等,于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出很多特有的优势,并推广应用到函数拟合等等其他机器学习的领域。通过寻求结构化风险最小,来提高机器学习能力。实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,也能获得良好统计规律的目的。通俗讲就是,她是一种二类分类器,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略就是间隔最大化,最终可转化为一个凸二次规划问题的求解。

具体原理:

1) 在n维空间中找到一个分类超平面,将空间上的点分类。如图9-4所示为线性分类的例子。

图9‑4线性分类示例

2) 一般而言,一个点距离超平面的远近,可以表示为分类预测的确信或准确程度。SVM就是要最大化这个间隔值。而在虚线上的点便叫做支持向量Supprot Verctor。如图9-5所示为SVM分类的示例。

图9‑5 SVM分类示例

3) 实际中,我们会经常遇到线性不可分的样例,此时,我们的常规做法是,把样例特征映射到高维空间中去,如图9-6所示。

图9‑6高维空间映射示例

4) 线性不可分映射到高维空间,可能会导致维度高的十分严重(甚至无穷维的例子),导致计算复杂。这个时候,常常会使用核函数,核函数的价值在于她虽然也是将特征进行从低维到高维的转换,但核函数事先在低维上进行计算,而将实质上的分类效果表现在高维上,避免了直接在高维空间中的复杂计算。

5) 很多时候,会使用松弛变量来应对数据噪音。

SVM的优点:

1) SVM学习问题可表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2) 举个例子:假设现在你是一个农场主,圈养了一批羊,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,如图9-7所示,比较图中这几种(SVM、逻辑回归、决策树)不同的分类器,我们可以看到SVM提供了一个很好的解决方案。这个例子从侧面简单说明了SVM使用非线性分类器的优势。

图9‑7 SVM、逻辑回归、决策树分类结果对比示意

  • BP神经网络算法:

BP(Back Propagation)神经网络是一种按“误差逆传播算法训练”的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。她的学习规则是使用梯度下降法,通过反向传播(就是一层一层往前传)来不断调整网络的权值和阈值,使网络的误差平方和最小。如图9-8所示,BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。利用输出后的误差来估计输出层前一层的误差,再用这层误差来估计更前一层误差,如此获取所有各层误差估计。这里的误差估计可以理解为某种偏导数,我们就是根据这种偏导数来调整各层的连接权值,再用调整后的连接权值重新计算输出误差。直到输出的误差达到符合的要求,或者迭代次数溢出设定值(有监督学习)。BP的传播对象就是“误差”,传播目的就是得到所有层的估计误差。她的学习本质就是:对各连接权值的动态调整。

图9‑8 BP神经网络模型拓扑结构示意

  • 贝叶斯算法:

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题是缺少足够的信息,来构造100%正确的映射规则的,而是通过对经验数据的学习,从而实现一定概率意义上正确的分类,因此所训练出的分类器,并不一定能将每个待分类项,准确映射到其分类中,分类器的质量与分类器构造方法、待分类数据的特性、以及训练样本数量等等诸多因素有关。

  • 贝叶斯定理

贝叶斯分类的基础:贝叶斯定理,这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:

P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式详细见公式9-1:

公式9‑1求解公式

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通了从P(A|B)获得P(B|A)的道路。贝叶斯定理见公式9-2:

公式9‑2贝叶斯定理

  • 朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法,朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。打个比方,如果你在街上看到一个黑人,让你猜他哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。整个朴素贝叶斯分类分为三个阶段:

(一)第一阶段:准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当的划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

(二)第二阶段:分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率,及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性计算阶段,可由程序自动计算完成。

(三)第三阶段:应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,可由程序完成。

下篇我们将继续介绍:回归验证

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-18

摘要:无意中翻出10年前对互联网产品创新可能的变量的梳理,以及社区类产品的梳理。以及分析梳理概念的方法论。发出来一起共勉及纪念一下。

互联网需求,产品设计变化的变量:

社区模型:

SNS的兴起:

产品梳理:

1.以SNS为核心的社区应用服务平台。包含BBS、Blog、CMS、SNS等4个产品。

BBS:定位于话题讨论;(用户产生内容)

Blog:定位于个人(团体)信息发布; (用户产生内容)

CMS:定位于网站内容采、编、发;(网站推送内容)

会员中心:定位于会员互动中心,在各产品间起到会员粘合、信息贯通的作用。

2. 产品理念

使用户能够:随时随地地发现、分享、交流、互动、展示,并从中得到收益。使网站能够:

  • 增强会员互动,提升网站粘性。
  • 促进网站内容传播,提升网站PV。
  • 激发用户产生内容,提升网站价值。
  • 聚合用户需求,有效定向营销。

3. 产品功能构成

3.1 各产品重点-BBS(以内容为中心,突出交流)

3.2 各产品重点-Blog(以人为中心,突出展示、分享、交流)

3.3 各产品重点-会员互动中心(以人为中心,突出发现、分享、互动)

分析方法论:

什么是领域(概念)模型?

从不同视角,不同用途对实际业务场景进行归纳总结,并将总结出的概念组织起来解释这些实际业务

针对专一业务领域归纳总结出的这些概念及由这些概念组织起来的体系称之为概念模型

必要条件:

1.这些概念必须自成体系,能够自圆其说。

2.组织起来能完全解释实际业务

怎么找出领域模型?

分析方法:主谓宾定状补,名词法动词法,关系实体法,状态机法

寻找数学模型(穷举,抽象)

软件设计模型介绍(软件全命周期介绍):

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-17

5月28日15点机械工业出版社3号楼10层会议室流水课通知“大数据基础(下)”

4月15日,程序化广告流水课第8期刚刚举办完毕,吴俊老师给我们来了一场营销大数据的知识盛宴,内容覆盖DMP、cookiemapping等内容。虽然活动从下午3点持续到5点半,但关于大数据的内容还没有讲完,所以在5月28日这期活动中继续讲解大数据,内容包含线上线下数据的打通、DMP案例等相关内容。

另外,每次活动结束后,我们都会征询同学们的建议,以此来优化我们的活动。在此次活动中,有些同学提供了宝贵的建议,比如商汤科技的张帆提出来,可以在分享之前找一位同学分享在工作中遇到的问题,这样就可以在吴俊老师的分享中有的放矢的解决这些实战问题,又比如时趣互动的文静提出来可以把产品相关的知识讲的更深入,这样对于她作为一个产品经理来说更有针对性,另外还有恒益九州的周刚、亿利集团的朱楠、力美的赵荣等等同学提出了宝贵建议。我们程序化广告这个平台会认真听取每位同学的心声。所以,也许在以后的活动中,会有一些新的好玩的内容或形式,加入到活动中。让我们拭目以待吧!

以下为5月份的活动安排,我们不见不散:

活动时间:2017年5月28日 周六下午 15:00——17:00

活动详细安排:

14:50-15:00  签到与自我介绍

15:00-16:30  吴俊老师分享

16:30-17:00  全体同学自由social时间

在讲解过程中,如果你有任何问题,可随时提问。

活动地点:北京 西城区 百万庄大街22号机械工业出版社3号楼10层会议室

乘车路线:地铁6号线 车公庄西站 D西南口出。

报名方式:

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

第三步:活动当天来到活动现场签到参与。

另外,为了满足无法亲临现场同学的需求,此次活动我们增加了线上同步直播及视频回看。

如何参加线上直播及视频回看?

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费;(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

移动端、PC直播地址:

 http://mudu.tv/watch/772943

第三步:我们会将以您手机号作为唯一识别码加入直播间,给您可以在线直播互动及视频回看的课程地址参与活动。

直播将以视频形式进行,而且能够进行互动,我们将回答您在直播间提出的每个有价值的问题。而且若您时间上冲突,依然可以等有空的时候回看即可。

如您在报名中遇到任何问题,请拨打电话或添加微信:13121124046(伍刀刀)随时联系我们。

吴俊老师简介:

吴俊老师是中国广告PDB(Programmatic Direct Buy 私有程序化购买)第一人。现任掌慧纵盈高级产品总监,专注于线下数据线上打通营销解决方案,推动数字营销新升级。

更多朋友们对于吴俊老师的了解来自于他此前在品友的工作经历。吴俊老师是原品友负责PDB/移动/流量的产品总监,拥有16年以上IT/互联网行业从业经验和超过5年的程序化广告工作经验。他在2014年负责推动了中国首个PDB广告投放项目(2014中国国际广告节长城奖金奖上海通用汽车私有程序化广告投放案例),通过PDB帮助广告主管理了数亿广告预算投放,在广告主包段的门户及垂直媒体PC和移动端黄金广告位以及视频媒体贴片黄金资源,实现了广告投放的跨媒体联合频控、千人千面;最终有效提升了广告主广告预算的ROI:CPUV降低至少30%以上(即相同的预算覆盖更多的受众);平均CPL降低20%以上(降低销售线索的获得成本,同时广告主反馈后续CPQL验证及后续转化效果也比较好)。

2014年底2015年初在市场反馈十分巨大的视频广告PDB领域持续发力,推动行业内视频广告PDB业务大规模迅速发展,目前市场上已有上海通用汽车、玛氏、欧莱雅、人头马、Burberry、高露洁、黑人、雅士利等等等等不同行业,近百广告主近千视频OTV项目通过PDB方式进行了投放。无论是对效果营销客户还是品牌营销客户,吴老师都有极为广博的经验。

以下为本两次活动——《大数据基础》讲解提纲:

——160页ppt

授课时间:分为2次课,分别放在4月份1次课、5月份一次课。

主要内容:

DMP价值意义

什么是DMP

Data类型

DataManagement 流程

DMP的系统构成

数据互通的核心 –ID mapping

————以上为415课程已讲内容

———–如下为528的课程内容:

移动设备ID专题

Cookie原理

什么是cookie

种cookie的流程

种cookie的指令

跨域名cookie不可被获取

CookieMapping的重要性

Cookiemapping率的重要性 –mapping率越高数据利用率越高

cookiemapping原理

单向cookie mapping

双向cookie mapping

cookie mapping发起方及时机点

DMP对程序化广告的指导

线下DMP

线下数据采集

消费者洞察

渠道效率分析

数字营销指导

Datahub

data交易市场

市面上常见的第三方数据供应商,及其特点

DMP系统案例分享

Trading Desk & DMP & PDB(PMP)案例:某知名乳品大数据驱动数字营销管理系统

线下DMP系统案例分享

某大型国际知名车企全国4S线下到店大数据管理系统

专有线下DMP+DSP案例

锋暴研习社:由国内知名营销人士吴俊、宋星等人发起,致力于打造一个营销界内的学习社群,开设极具价值的营销系统课程,持续不断的输出原创营销干货,定期举办线下讲座、沙龙活动,使圈内的每个营销人得到快速成长与提升。

(转载请注明出处:微信订阅号:ad_automation)

2017-04-11

《大数据基础》《受众数据》之后,我们继续DMP相关的内容:

数据管理平台

数据要想发挥出价值,就需要一个集中采集、存储、处理、分析、输出运用的系统平台。下面我们就数据管理平台的定义、构成及价值意义展开介绍。

1 什么是DMP

DMP(Data Management Platform)即:大数据管理平台。

需要一个大数据平台将线下、线上、内部、外部的海量数据管理起来,并分析处理,为实际业务运用做储备。

2 Data Management 流程

不论是第一方、第二方、第三方大数据管理数据处理流程都是一致的,尤其重要的是运用价值,无运用价值的Data是无用的Data,切不可为了“Big Data”而“Big Data”。大数据处理流程示意图如下:

3 DMP的系统构成

大数据管理平台是完整的,对大数据进行管理的软件系统,其中会包含各种基于大数据的软件功能。

不论是第一方、第二方、第三方大数据管理平台的内部整体架构,及数据处理流程都是一致的。都是需要基础的数据采集、清洗、分析、运用的功能。没有运用价值的DMP是无用的DMP,切不可为了“DMP”而“DMP”。

区分不同DMP平台最大的差别在于:

1)       采集的数据不同差异性

2)       运用方向上功能的差异性

DMP系统从底层数据采集,到上层可视化输出的架构层次,参见如下“DMP架构示意图”:

4 DMP价值意义

几年前,大数据的概念就炒的很火,但当时在广告主实际业务中,并没有能够实现落地。因为当时基础设施还不完善、行业上下游的认知还不一致、大家还没有能力打通数据资产。现在有很多广告主开始做大数据,是因为基础设施已经基本成熟了,接下来就是如何在各个行业中开花结果啦。大数据在营销领域主要可以从这么几个方向上创造巨大价值(但不局限于这些方向)。

  • 消费者洞察、产品建议;
  • 媒介渠道效率分析;
  • DMP对程序化广告的指导;
  • 对管理、战略等业务决策的数据支持。

等等

5 线下DMP

相对线上用户数据而言,线下用户行为数据更加可靠。比如用户去机场,出行意图非常明显。所以如果我们能掌握精准的线下用户数据,并进一步能打通线上和线下用户数据,这样的价值和意义就十分巨大啦。

5.1 线下数据采集

随着线下数据采集技术、各种智能硬件的发展,WIFI、Beacon、摄像头、RFID、NFC等等,新的线下数据采集手段也日新月异。物联网将成为未来工业界升级的关键。而大数据的处理方法、流程不变,变的是“数据采集”的对象和内容:线下用户行为。

5.2 线下行为特点

线下行为相对线上行为,还是有一些比较有意思的特点的:

1)       成本

线上行为更多的是用户动动鼠标或者手指。而线下行为,用户是要出行到店铺现场的。相对来说出行成本大于指间运动成本的,所以相对来说,用户目的性会更强一些。比如用户在网上看车的,同直接去4S店看车的行为做比较,去4S店的,购车意愿和目的性会相对强烈一些。

2)       群体

线上的行为因电脑、手机屏幕的局限性,大多还是以个体交互的居多。而线下购物、逛街等等,很多时候都是几个人一起的。这是线下行为有意思的差异点。所以我们在线下数据分析的时候,也需要多多留意。4S店线下客户分组分析的示例截图如下:

3)       现实

互联网对很多用户而言,毕竟还是个虚拟的世界,很多人会关注一些现实世界中不怎么关注的内容。举个例子:在搜索引擎中搜索奶粉的不一定是妈妈,很有可能是爸爸。所以线下的数据相对而言,更加真实,更贴近现实社会的经济活动。

5.3 消费者洞察

基于线下数据的消费者洞察,相对线上更贴近现实,更代表消费意图,是十分典型的目标受众分析样本。所以对这些典型用户进行调研问卷、线上行为数据采集、线下行为数据采集。然后得出这些典型用户的人口属性、兴趣特征的洞察,对调整产品的定位,以及功能特性,意义巨大。线下店面人群画像示例截图如下:

5.4 渠道效率分析

只要掌握了线下的用户数据,并打通线上数据的设备ID,就能十分轻松地比对线上广告投放,对线下引流到店的贡献。通过这样的线下线上的闭环,大大提升了媒介效率。线下线上闭环分析流程示意图如下:

其实线下的用户数据分析,还能分析各种不同线下渠道的效率。线下经销商客流关联分析示例截图如下:

5.5 数字营销指导

线下到店的人群往往都是产品的重度用户,基于这些用户作为样本,进行行为学习,来寻找更多具备类似特征的潜在客户。并通过程序化广告的手段来进行广告投放。这将使得精准营销的方向更落地,也更实效。线下用户行为指导线上数字营销示意图如下:

6 Data Hub

随着第三方数据供给方的丰富。广告主对这些数据的兴趣和运用的渴望日益强烈。所以很多DMP、DSP、TradingDesk也纷纷提出了“数据集线器”,“数据融合”的概念。

7 Data交易市场

在国外,有些ADX会为DSP提供(可直接技术手段对接使用的)Data交易市场。各DMP供给方,可根据自身的数据特点,在Data交易市场中售卖数据。

国内虽然也出现了一些数据交易市场,但都是为“线下数据买卖”提供的交易场所。并不是通过技术手段对接的数据服务交易市场。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-10

上篇《大数据基础》我们重点是围绕数据核心“人的唯一性标识”进行的阐述。下面我们将从受众的大数据处理流程及运用层面展开。

1.线上数据、线下数据

用户会在线上、线下产生大量的不同特点的行为数据。

线上数据大体有:

  • 用户浏览网络的行为:指记录用户在PC + Mobile上浏览网络的行为数据。这类数据的主要有:描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类行为,从而了解受众行为偏好。包括:用户ID、用户行为、用户设备、IP、URL、地理位置等等数据。
  • 站内与销售数据:指用户在广告主官网、EDM、电商网站或APP中产生的行为数据,往往对应着非常明确的目标用户及其兴趣。例如:站内流量、搜索、浏览、比价、加入购物车、购买、页面停留时间、注册情况、留言等等数据。
  • 社交数据:指用户在微信、微博、QQ、论坛等社交网络中产生的数据。包括:社交账号数据、受众属性数据(性别、年龄、学历等)、行为兴趣数据等等。

线下数据大体有:

  • CRM系统中的用户数据等等;
  • 用户到店的数据等等;
  • 用户线下的位置、轨迹数据等等。

2.Data的获取来源

一般我们会从数据的拥有方,及获取来源,将数据分为三类(以下是以广告主视角来举例的):

  • 第一方数据:广告主内部数据(CRM)及广告主官网布码、线下店面安装设备收集到的数据;
  • 第二方数据:广告投放方(媒体方、DSP方等)通过广告投放获取到用户对于该广告在媒体上的互动的数据;
  • 第三方数据:同广告主无任何关系,第三方数据供应商提供的数据。例如:第三方监测公司、其他脱敏数据(剔除用户隐私内容)。

数据的类型可以有很多,不仅仅局限于广告投放数据,还包括各种线下、线上、CRM、调研、第三方等等各种数据。

数据的采集、打通、管理、分析、运用成了重点。

跨屏识别方法与挑战

这里提到的跨屏识别,主要指的是跨移动/PC跨设备识别。而不是有些人说的不同App之间(通过设备ID),或者不同Web网站(通过CookieMapping)之间的。

很多监测方或技术商,号称可以跨移动/PC跨设备识别。但实际上,除了只能使用会员账号ID来打通之外,没有别的办法。

有些监测方会使用,用户上网IP的统计学方式,来模糊统计。但由于目前存在大量局域网,使用同一上网IP出口,再加上上网出口“IP漂移”等等问题,这种统计结果准确率有待商榷。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-05

摘要:最近群里有同学问广告API对接怎么回事,这里发篇简单的文章介绍一下各种不同的流量技术对接的注意点。

对接各类媒体对应的主要技术方式:

注:除APP端、服务端对接需增加cookie mapping

一、PC/移动Web

1.JS代码(JavaScript)

媒体卖方通过排期系统投放买方系统的JS代码。

广告的展示及用户浏览网页的相关数据的获取均由该JS代码处理。

省去双方CookieMapping的问题。

此方式技术对接快,一般1-2个工作日就能完成技术对接。

但这种方式由于媒体卖方丧失了对流量的控制权,若不是预算足够大,媒体卖方不太支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要进行CookieMapping。

此方式技术对接周期较长,一般1-2个月才能完成技术对接。

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

二、移动App

1.SDK

广告的展示及用户手机的相关数据的获取均由SDK代码处理。

SDK采用自己的设备ID规范,不需双方统一设备ID规范。

此方式技术对接快,但存在一个App新版本发布的更新周期,一般3月左右。

但这种方式由于媒体卖方丧失了对流量的控制权,若非小媒体,稍大一些的媒体卖方一般均不支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要遵守统一的设备ID规范。

此方式技术对接周期较长,媒体方技术已准备好的情况下一般也需要1个月才能完成技术对接。(若媒体技术未准备好,则可能需要花近半年左右的时间进行改造,改造的核心就是媒体每次广告曝光机会需请求服务器申请精准的广告,而不是之前提前已按排期下发获取广告的模式。)

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

三、视频

视频广告常用VAST及VPAID作为标准协议规范,下面就给大家简单介绍一下:

1.VAST对接模式,参见文章:《VAST实用知识》

2.VPAID广告播放容器对接模式,参见文章:《VPAID要点》

3.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。具体内容类似上述PC及移动App的内容。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。