课程收获
聚类分析是一种静态数据分析方法,也是一种无监督式的机器学习方法,常被用于机器学习,模式识别,数据挖掘等领域。k-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。周涛教授用最简单的语言、最贴切的案例帮你了解k-均值的内涵、数学描述及实际应用。
我们拥有
1.什么是聚类算法
聚类算法的任务就是把数据对象划分成多个簇,每一个数据对象在并且只在一个簇中,每一个簇中的数据对象有很高的相似性,而和其他簇的对象则相对没有那么相似。
2.聚类算法的应用场景
·如何根据用户习惯的聚类结果设计和优化电话套餐
·如何根据火灾易发地点规划消防站选址
3.聚类问题的数学描述
·无监督学习算法
·聚类问题的代价函数
4.k-均值算法的基本原理
·k-均值算法的目标
·k值的定义以及k值的初始化
·如何为每一个对象分配簇
·重新计算每个簇的代表点位置
·k-均值算法如何收敛
5.k-均值算法的数学解释
·代价函数收敛性的证明
·两两数据点的距离的平方和等价于每一个数据点到这一群数据的质心的距离的平方和
6.实践:真实数据集上应用k-均值算法:
·随机初始化簇中心
·初始化的聚类结果
·反复迭代,直到收敛
如果你是
·如果你想了解一些大数据算法的基本思想和原理,及数据挖掘的基本过程
·如果你对有监督和无监督学习、聚类和分类概念不了解
·如果你想理解k-均值算法的深刻内涵、数学描述以及实现方式
学习安排
你可以在学习一遍本课程后,利用K均值的算法做一些场景下的数据挖掘练习,在练习过程中体会周涛教授讲述的算法内涵,看自己在数据挖掘时对于K-均值算法是否更加得心应手了。
了解导师
周涛
DC发起人 电子科技大学教授
电子科技大学教授、大数据研究中心主任,在Physics Reports、PNAS、Nature Communications等国际 SCI期刊发表300余篇学术论文,引用超过17000次,H 指数为63。2009年获教育部自然科学一等奖,2011年获第十二届中国青年科技奖(系我国最年轻的获奖者), 2015年当选全国十大科技创新人物,2017年获全国创新争先奖。超级畅销书《大数据时代》译者,畅销书 《为数据而生:大数据创新实践》作者。