摘要:数据挖掘的流程与方法任务关联分析聚类分析分类分析异常分析特异组群分析演变分析方法统计在线处理分析情报检索机器学习分类实际应用应用分类趋势预测推荐关联类商品回归分析实际应用预测销售趋势聚类实际应用分类关联规则包括两个阶段从海量数据中找到高频项
数据挖掘的流程与方法 1.任务:
关联分析
聚类分析
分类分析
异常分析
特异组群分析
演变分析
2.方法:统计
在线处理分析
情报检索
机器学习
分类
实际应用: 应用分类/趋势预测/推荐关联类商品
回归分析
实际应用: 预测销售趋势
聚类
实际应用: 分类
关联规则
包括两个阶段: 从海量数据中找到高频项目组/产生关联规则
实际应用: 预测客户需求
Web数据挖掘
常用算法: PageRank算法/HITS算法/LOGSOM算法
问题: 用户分类/用户页面停留时间/内容时效性/页面链入链出/
专家系统
模式识别
神经网络方法
神经网络模型的种类:
用于分类预测和模式识别的前馈式: 函数型网络/感知机
用于联想记忆和优化算法的反馈式: 离散模型/连续模型
用于聚类的自组织映射: ART模型
3.步骤:one.业务理解
阶段目标
明确商业问题和数据挖掘目标
制定项目计划
工作任务
业务需求调研,问题背景
项目资源评估,确定资源需求
明确业务目标和成功的标准
挖掘目标确定,可行性,明确数据挖掘目标和成功标准
项目计划制定,指导项目实施
实施要点
充分的需求调研和沟通交流
合理的资源、约束条件假设
合适的挖掘结果应用场景设定
two.数据理解
阶段目标
确定建模所需用的数据
探索建模需要的目标变量
工作任务
数据字典编制,梳理内外部数据类型
明确数据业务指标含义
质量校验,确保数据全面性和可用性
目标变量探索,为模型构建做准备
数据的数据量(维度和样本大小)
数据的质量(缺失值、异常值、不一致性等)
数据的分布规律(各种统计指标)
实施要点
必备的内外部数据可获取和可干预
数据一致性、完整性、准确性
目标因子初步分析确定
three.数据准备
阶段目标
建立数据集市或宽表
工作任务
数据集市或宽表设计
将多个表信息进行整合:表之间的联接/明细数据的汇总加工
处理数据质量问题: 缺失值/异常值
数据清洗、加载、转换
数据的字段进行变换: 规范化/标准化
或都将数据进行映射变换,如Log变化
数值型按区间转换成名词型字段
特征工程
从业务角度加工新的计算指标
进行自动特征构建、特征选择、特征降维
数据质量校验
数据标准化
实施要点
高效的数据保障项目进度和质量
four.建立模型
阶段目标
选择合适的技术建模
实现数据挖掘目标
工作任务
技术选型,选择合适的模型算法
样本选取,确定训练样本、测试样本和验证样本
模型建立,筛选变量、模型训练、模型测试
模型评估,评估模型是否满足数据挖掘目标
实施要点
合适的技术帮助实现挖掘目标
样本数据真实反映业务需求
全面评估模型数据挖掘效果
five.检验模型
阶段目标
进行模型的业务应用测试(A/B测试)
判断是否实现商业目标
工作任务
模型试用,确定业务场景,进行模型应用测试,收集反馈效果
效果评价,对测试效果进行评估分析,判断模型是否满足商业目标
实施要点
合适的业务场景试用方案
全面科学的效果评价
six.结果部署
阶段目标
把数据挖掘成果部署到商业环境,应用于生产
工作任务
规划部署,制定部署计划和方案
监控与维护,实时跟踪,验证商业目标达成情况
总结报告,经验积累
实施要点
科学规划,保障无缝部署
即时监控及维护响应,保障运营
全面的总结分析,积累经验
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/45186.html
摘要:这是一个基于做的一个电商网站前端项目附带前后端分离实现版本在分支,欢迎或项目地址项目预览地址说明分支是单纯的前端项目,分支为与后端接口结合的前端项目,附后端项目地址本项目仅供学习参考分支为纯前端项目,所以登陆密码是写死的,体验账号密 MALL-VUE 这是一个基于VUE + VUEX + iView做的一个电商网站前端项目, 附带前后端分离实现版本(在forMallServer分支),...
摘要:这是一个基于做的一个电商网站前端项目附带前后端分离实现版本在分支,欢迎或项目地址项目预览地址说明分支是单纯的前端项目,分支为与后端接口结合的前端项目,附后端项目地址本项目仅供学习参考分支为纯前端项目,所以登陆密码是写死的,体验账号密 MALL-VUE 这是一个基于VUE + VUEX + iView做的一个电商网站前端项目, 附带前后端分离实现版本(在forMallServer分支),...
摘要:程序员不仅应致力于让程序员失业,也应致力于让所有人失业。源代码公开是一个热议话题,当问到对源代码公开的个人观点时,说到虽然对程序员是一件好事,可以让程序员研究源代码,但我并不认为所有软件的源代码必须公开,源代码公开涉及到知识产权等各种问题。 为打破外界对程序员简单平面的偏见,一系列程序员访谈正在进行中。 第一个接受访谈的程序员 Gemini,在 SegmentFault 主要负责 An...
阅读 1351·2023-04-26 03:04
阅读 2175·2019-08-30 15:44
阅读 3700·2019-08-30 14:15
阅读 3433·2019-08-27 10:56
阅读 2627·2019-08-26 13:53
阅读 2586·2019-08-26 13:26
阅读 3031·2019-08-26 12:11
阅读 3562·2019-08-23 18:21