公司名称:西安金讯通软件技术有限公司
地址:西安市高新区科技二路软件园示范区西岳阁602室
客服电话:400-8888-531
办公电话:029-88892077
029-88240958
传真:029-88888933
网址:www.kxtsoft.com
12345热线在日常运营中不断产生着各类运营数据,这些数据日积月累形成了数以十万计、百万计甚至千万计的数据信息,这些信息代表着最准确最直接的民生诉求、体现着各级政府部门最真实的执政绩效、蕴涵着社情民意热点和民生态势,可以说是支撑政府科学决策是推动社会治理科学化的数据宝矿,近年来这些数据越来越被各地政府重视,那么12345热线到底有那些数据?有什么样的分析方法?最终能呈现出什么样的价值? 我们不妨抽丝剥茧,一一分析。
第一篇 备菜:12345数据源分析与探索
第二篇 做菜:12345数据分析方法论
第三篇 上菜:12345数据分析需求与成果
第二篇:12345数据分析方法论
上一篇我们对12345热线数据源进行研究分析探讨,数据源是数据分析的基础,但是如果没有好的分析方法,数据源只能是沉睡的“宝矿”毫无价值,因此数据的分析挖掘才是12345大数据分析的最为关键的环节,同样的菜可以做出美味佳肴,也可以做出家常小菜,也有可能做的味同嚼蜡。数据分析如做菜一样,需要方法更需要不断探索。
当然数据分析方法本身是一个非常大的命题,涉及到统计学、管理学及软件即数据库技术领域的知识,作者知识功底有限,只是根据自己工作实践进行的整理与思考,纯属野路子,下文所述希望能够抛砖引玉,吸引大家一起思考讨论。文章篇幅所限只能做概括性介绍,如需要深入了解希望有机会以论坛、会议的形式详细沟通交流。
一、12345数据分析流程
上篇我们将12345数据源分为静态数据、动态数据、基础数据、辅助数据、结构化数据、非结构化数据, 整个分析方法(做菜过程)实际上就是对这些数据的加工处理并产生相应结果的过程,用以下流程图示意:
根据数据源的不同将数据分析方法分为两条主线,结构化数据分析线和非结构化数据分析线, 结构化数据是关键核心,非结构化数据分析是补充。
与此同时在分析中需要参考基础数据,特别是工单分类、热点分类等标准化数据,同时如果有相关的辅助数据如人口法人信息、城市GIS地理信息、交通物业等信息库,那对大数据分析更是锦上添花,更有助于数据分析的准确性和专业性。
数据分析流程如同流水线一样,沿着数据来源、初步分析、初步结果、核心分析、中间结果的操作流程执行,最后再通过对中间结果的研读、分析、总结,最终形成数据专报。
二、12345结构化数据分析方法总结
根据数据分析操作实践,将数据分析方法总结为:三目标、三要素、五方向和三步骤。
1、三目标:指大数据分析的三个境界和三个层次, 分别是:
呈现问题
反映问题规律和趋势
分析重点问题、苗头性问题并提出预警(以防减治、未诉先办)
2、三要素:数据源、数据分析维度、数据图表
1)数据源: 数据分析的基础是数据源,数据源的核心是数据标准制定和基础数据的质量,如工单类型标准、热点内容标准,地理信息数据,行政组织数据等;
2)数据分析维度:大数据分析专报分析的关键是数据分析维度,12345结构化数据通常包括人、地、 时、事四个维度:
人:诉求主体的群众或企业
地:问题位置与所属区域(区县,街办乡镇、社区村)
时:问题反映、分派、处理、完成、回访时间
事:反映的事及办理过程,包括工单内容,类型内容分类、办理过程信息等,是数据分析的最核心维度...
3)数据图表:数据图表是数据分析的重要成果,也是数据专报的内容核心,数据图表是根据数据源通过不同的维度的分析产生的。
3、五方向:从数据分析的需求和维度出发,从五个基本方向进行分析:
总体情况及趋势分析
各维度专项分析(人,地,时,事)
各维度重点项分析(二八法则,TOP20%的重点项可能占了80%的业务总量)
多维度交叉分析(人+事+地)
各维度“深钻分析”(热点一级到二级三级,区域:区县到乡镇到社区)
当然数据分析的方向方法不仅限于以上内容,应该是百花齐放,百家争鸣,以上所述只是常规的思路和方向;
4. 三步骤:指数据分析工作三个主要阶段
1)打好基础 做好数据源的规范,特别是分类标准和信息基础
2)用好工具 使用SQL、EXCEL、GIS热点及标注、热词云图分析等专业工具。
3)做好图表 数据分析报告的基础是数据图表,图表包括多维度的趋势需求分析、图表分析,作为素材可以灵活的生成不同方向,满足不同关注点的数据报告需求。
三、12345非结构化数据分析方法
非结构化数据主要包括录音数据及工单处理中产生的图片、音频、视频数据,这块数据容易被忽视,其中最有价值的就是录音数据,录音数据能够真实的再现群众与座席沟通中的所有内容,而座席工单记录文字只是录音数据中重点问题的提练和总结,因此并不能完全代表录音数据中所包含的全部信息,如群众与座席沟通十分钟,谈及了很多问题,主要反馈的事情被座席以文字形式记录下来,但是谈话内容中大部分信息并未记录,而这些信息中蕴涵着社情民意与舆情,这些信息是结构化数据的补充,也许蕴藏着最容易被忽视的舆情、民意信息。
非结构化数据分析最大的障碍是方言问题,目前即使国内最先进的ASR语音识别技术也不能保障对各地方言的准确翻译,建议12345热线建设中呼叫中心系统实行双轨录音,即将群众录音和座席录音分开,如果群众方言较重可以只采纳座席录音。座席与群众交谈中免不了有沟通引导和复述的动作,因此座席语音同样很有价值。
非结构化分析的两个核心工具包括ASR语音识别和文本语义分析。
1、ASR语音识别 目前科大讯飞、阿里都提供类似的技术接口,而且对于普遍话的识别效率很高。
2、文本语义分析 主要指对识别出的文字进行热词、高频词分析,并可以生成热词云图和高频词列表,再加上时间因素就可以产生热词趋势分析、新词趋势分析、高频词趋势分析,一方面反映舆情民意,一方面反映热点及苗头性问题,如集中出现的某个小区某个企业,最近出现的新词如网贷、供热等。
当然文本语义分析不仅适用于非结果构数据,对于结构化数据中的工单标题、内容、部门办理情况记录等均适用。可以说是12345大数据分析的利器。
四、常用数据分析工具
1、SQL 对于结构化数据最快捷、最高效的分析方式就是对数据库通过SQL语句进行分析,当然最有价值的是可以将常用的分析用SQL写为程序,变成工具,这对于大数据分析更加的事半功倍;
2、EXCEL 如果说SQL及编程相对太过专业不好掌握,EXCEL直就是最简单易用的分析工具了,分类、求和、计算并自动生成丰富多样的图表,可以说是数据分析工作者最物美价廉的工具了;
3、文本语义分析 主要用于热词、新词、高频词的分析;上章已做详细描述;
4、GIS地理平台 基于地图可以进行事件位置标注、热点标注、区县标注等,可以形象直观的展现问题;
5、专业可视化数据分析平台 很多公司有自己专业的数据分析平台工具,如阿里、美林都提供了可见即可得的专业数据分析工具,可以高效的进行数据分析;
......
五、常用数据分析方法
数据的分析方法,简单分为两大类:
应用简单的数据分析工具(如Excel)就可以完成的分析方法,如对比分析法、分组分析法、交叉分析法、下钻分析法、漏斗分析法、矩阵分析法、平均分析、结构分析法等
需要借助外力或使用spss等高级工具才能分析的方法:A/B测试、对应分析、聚类分析、相关分析、因子分析、回归分析等
常用的分析算法简介如下:
1)对比分析法
通过这种方法可以很直观的看到不同产品的核心指标,或同一个产品在不同阶段的变化。
对比分析分为两类:
横向分析(静态比较):在同一时间条件下对不同总体指标的比较
纵向分析(动态比较):在同一总体条件下对不同时期指标数值的比较
本质在于:
多数据维度对比:研究同一目标群体在不同数据维度的表现,以观察其自身的个性特征
多用户对比:研究不同目标群体在同一数据维度的表现,以观察不同群体间的差异
交叉分析法通常用于分析两个变量之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系
主要应用场景有:
对用户进行分组,细分观察各分组之间的特征
观察竞争对手的用户与本产品用户的重合度、差异化运营、或进行用户资源拉取
观察本产品的活跃用户与公司内其他产品活跃用户的重合度,进行联合运营
观察本产品流失用户与公司其他产品活跃用户之间的重合,借力其他产品进行本产品的用户挽留等
下钻分析法通常用于对某数据的不断细分,以分析在各种细分情况下的数据关系,找出影响该数据的根本原因
根据数据本身结构特征对数据进行分类的方法即聚类分析法
通过聚类分析,可以把数据分成若干个类别,使得类别内部的差异尽可能的小,类别外部差异尽可能大,以便于针对某类用户的特征进行针对性分析
......
综上所述,数据分析是一个专业复杂又非常有趣的工作,如同做菜一样,同样的食材在不同厨师的手里可以做出丰富多样、花样繁多的菜品,这个过程值得我们大家不断的探讨和学习。