探索12345数据宝矿-第二篇

探索12345数据宝矿-第二篇12345数据分析方法论


12345热线在日常运营中不断产生着各类运营数据,这些数据日积月累形成了数以十万计、百万计甚至千万计的数据信息,这些信息代表着最准确最直接的民生诉求、体现着各级政府部门最真实的执政绩效、蕴涵着社情民意热点民生态势,可以说是支撑政府科学决策是推动社会治理科学化的数据宝矿,近年来这些数据越来越被各地政府重视,那么12345热线到底有那些数据有什么样的分析方法?最终能呈现出什么样的价值? 我们不妨抽丝剥茧,一一分析。

       第一篇     备菜:12345数据源分析与探索

       第二篇     做菜:12345数据分析方法论

       第三篇     上菜:12345数据分析需求与成果


第二篇:12345数据分析方法论

上一篇我们对12345热线数据源进行研究分析探讨,数据源是数据分析的基础,但是如果没有好的分析方法,数据源只能是沉睡的“宝矿”毫无价值,因此数据的分析挖掘才是12345大数据分析的最为关键的环节,同样的菜可以做出美味佳肴,也可以做出家常小菜,也有可能做的味同嚼蜡。数据分析如做菜一样,需要方法更需要不断探索。

当然数据分析方法本身是一个非常大的命题,涉及到统计学、管理学及软件即数据库技术领域的知识,作者知识功底有限,只是根据自己工作实践进行的整理与思考,纯属野路子,下文所述希望能够抛砖引玉,吸引大家一起思考讨论。文章篇幅所限只能做概括性介绍,如需要深入了解希望有机会以论坛、会议的形式详细沟通交流。


一、12345数据分析流程

      上篇我们将12345数据源分为静态数据动态数据基础数据辅助数据结构化数据非结构化数据, 整个分析方法(做菜过程)实际上就是对这些数据的加工处理并产生相应结果的过程,用以下流程图示意:


1583718571480566.jpg


根据数据源的不同将数据分析方法分为两条主线,结构化数据分析线非结构化数据分析线, 结构化数据是关键核心,非结构化数据分析是补充。

与此同时在分析中需要参考基础数据,特别是工单分类、热点分类等标准化数据,同时如果有相关的辅助数据如人口法人信息、城市GIS地理信息、交通物业等信息库,那对大数据分析更是锦上添花,更有助于数据分析的准确性和专业性。

数据分析流程如同流水线一样,沿着数据来源、初步分析、初步结果、核心分析、中间结果的操作流程执行,最后再通过对中间结果的研读、分析、总结,最终形成数据专报。


二、12345结构化数据分析方法总结

根据数据分析操作实践,将数据分析方法总结为:三目标、三要素、五方向和三步骤

1、三目标:指大数据分析的三个境界和三个层次, 分别是:

  • 呈现问题

  • 反映问题规律和趋势

  • 分析重点问题、苗头性问题并提出预警(以防减治、未诉先办) 


2、三要素:数据源、数据分析维度、数据图表

1)数据源: 数据分析的基础是数据源,数据源的核心是数据标准制定和基础数据的质量,如工单类型标准、热点内容标准,地理信息数据,行政组织数据等;

2)数据分析维度:大数据分析专报分析的关键是数据分析维度,12345结构化数据通常包括人、地、 时、事四个维度:

  • :诉求主体的群众或企业

  • :问题位置与所属区域(区县,街办乡镇、社区村)  

  • :问题反映、分派、处理、完成、回访时间

  • :反映的事及办理过程,包括工单内容,类型内容分类、办理过程信息等,是数据分析的最核心维度...

    3)数据图表:数据图表是数据分析的重要成果,也是数据专报的内容核心,数据图表是根据数据源通过不同的维度的分析产生的。


3、五方向从数据分析的需求和维度出发,从五个基本方向进行分析:

  • 总体情况及趋势分析   

  • 各维度专项分析(人,地,时,事)

  • 各维度重点项分析(二八法则,TOP20%的重点项可能占了80%的业务总量) 

  • 多维度交叉分析(人+事+地)

  • 各维度“深钻分析”(热点一级到二级三级,区域:区县到乡镇到社区)

当然数据分析的方向方法不仅限于以上内容,应该是百花齐放,百家争鸣,以上所述只是常规的思路和方向;


4. 三步骤:指数据分析工作三个主要阶段
      1)打好基础   做好数据源的规范,特别是分类标准和信息基础
      2)用好工具   使用SQL、EXCEL、GIS热点及标注、热词云图分析等专业工具。
      3)做好图表   数据分析报告的基础是数据图表,图表包括多维度的趋势需求分析、图表分析,作为素材可以灵活的生成不同方向,满足不同关注点的数据报告需求。


三、12345非结构化数据分析方法

非结构化数据主要包括录音数据及工单处理中产生的图片、音频、视频数据,这块数据容易被忽视,其中最有价值的就是录音数据,录音数据能够真实的再现群众与座席沟通中的所有内容,而座席工单记录文字只是录音数据中重点问题的提练和总结,因此并不能完全代表录音数据中所包含的全部信息,如群众与座席沟通十分钟,谈及了很多问题,主要反馈的事情被座席以文字形式记录下来,但是谈话内容中大部分信息并未记录,而这些信息中蕴涵着社情民意与舆情,这些信息是结构化数据的补充,也许蕴藏着最容易被忽视的舆情、民意信息。 

非结构化数据分析最大的障碍是方言问题,目前即使国内最先进的ASR语音识别技术也不能保障对各地方言的准确翻译,建议12345热线建设中呼叫中心系统实行双轨录音,即将群众录音和座席录音分开,如果群众方言较重可以只采纳座席录音。座席与群众交谈中免不了有沟通引导和复述的动作,因此座席语音同样很有价值。


1583718623713139.jpg


非结构化分析的两个核心工具包括ASR语音识别和文本语义分析。

1、ASR语音识别  目前科大讯飞、阿里都提供类似的技术接口,而且对于普遍话的识别效率很高。

2、文本语义分析  主要指对识别出的文字进行热词、高频词分析,并可以生成热词云图和高频词列表,再加上时间因素就可以产生热词趋势分析、新词趋势分析、高频词趋势分析,一方面反映舆情民意,一方面反映热点及苗头性问题,如集中出现的某个小区某个企业,最近出现的新词如网贷、供热等。

当然文本语义分析不仅适用于非结果构数据,对于结构化数据中的工单标题、内容、部门办理情况记录等均适用。可以说是12345大数据分析的利器。



四、常用数据分析工具

1、SQL   对于结构化数据最快捷、最高效的分析方式就是对数据库通过SQL语句进行分析,当然最有价值的是可以将常用的分析用SQL写为程序,变成工具,这对于大数据分析更加的事半功倍;

2、EXCEL  如果说SQL及编程相对太过专业不好掌握,EXCEL直就是最简单易用的分析工具了,分类、求和、计算并自动生成丰富多样的图表,可以说是数据分析工作者最物美价廉的工具了;

3.jpg

3、文本语义分析   主要用于热词、新词、高频词的分析;上章已做详细描述;

1583718713558053.jpg

4、GIS地理平台  基于地图可以进行事件位置标注、热点标注、区县标注等,可以形象直观的展现问题;

5.jpg

5、专业可视化数据分析平台  很多公司有自己专业的数据分析平台工具,如阿里、美林都提供了可见即可得的专业数据分析工具,可以高效的进行数据分析;

......

五、常用数据分析方法

数据的分析方法,简单分为两大类:

1、基本分析方法

应用简单的数据分析工具(如Excel)就可以完成的分析方法,如对比分析法、分组分析法、交叉分析法、下钻分析法、漏斗分析法、矩阵分析法、平均分析、结构分析法等

2、专业分析方法

需要借助外力或使用spss等高级工具才能分析的方法:A/B测试、对应分析聚类分析相关分析因子分析回归分析

 常用的分析算法简介如下:

1)对比分析法

通过这种方法可以很直观的看到不同产品的核心指标,或同一个产品在不同阶段的变化。

对比分析分为两类:

  • 横向分析(静态比较):在同一时间条件下对不同总体指标的比较

  • 纵向分析(动态比较):在同一总体条件下对不同时期指标数值的比较

本质在于:

  • 多数据维度对比:研究同一目标群体在不同数据维度的表现,以观察其自身的个性特征

  • 多用户对比:研究不同目标群体在同一数据维度的表现,以观察不同群体间的差异

2)交叉分析法

交叉分析法通常用于分析两个变量之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系

主要应用场景有:

  • 对用户进行分组,细分观察各分组之间的特征

  • 观察竞争对手的用户与本产品用户的重合度、差异化运营、或进行用户资源拉取

  • 观察本产品的活跃用户与公司内其他产品活跃用户的重合度,进行联合运营

  • 观察本产品流失用户与公司其他产品活跃用户之间的重合,借力其他产品进行本产品的用户挽留等

3)下钻分析法

下钻分析法通常用于对某数据的不断细分,以分析在各种细分情况下的数据关系,找出影响该数据的根本原因

4)聚类分析法

根据数据本身结构特征对数据进行分类的方法即聚类分析法

通过聚类分析,可以把数据分成若干个类别,使得类别内部的差异尽可能的小,类别外部差异尽可能大,以便于针对某类用户的特征进行针对性分析

......

综上所述,数据分析是一个专业复杂又非常有趣的工作,如同做菜一样,同样的食材在不同厨师的手里可以做出丰富多样、花样繁多的菜品,这个过程值得我们大家不断的探讨和学习。

上一篇:探索12345数据宝矿-第三篇...
下一篇:探索12345数据宝矿-第一篇...

分享到