在计算不同元素的相异度上我们采用欧几里得距离来作为相异度,其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。 欧几里得距离的定义如下: 在真实应用中,经常会出现元素项的取值问题,取值范围大的属性对距离的影响高于取值范围小的属性,比如在RFM模型的属性中,,这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。
规格化的意思就是将各个属性值按比例映射到相同的取值区间通常将各个属性均映射到[,]区间,这样是为了平衡各个属性对距离的影响。 映射公式为: 表示所有元素项中i个属性的最大值和最小值,x是集合中的一个属性指标。 、k-mens聚类 波兰 whatsapp 数据 算法 把近两年内还有订购记录的客户设定为一个元素集合D,其中每个元素有个具有可观察的属性:R近度、F频度、M值度。 元素集合D按照K-mens聚类算法把他分为个聚类子集: 把集合D中每一个元素客户的RFM属性进行规格化,是基于按照映射公式把各个属性均映射到[,]区间的。
结果; 对集合的各个属性进行加权处理,加权属性权重H法确定的权向量中对应的权重,加权后的集合; 从集合中随机选取K个元素k ,作为作为k个簇的各自的中心; 分别计算剩下的元素到k个簇中心的相异度按照欧几里得距离度量,将这些元素分别划归到相异度最低的簇; 根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数; 将集合中全部元素按照新的中心重新聚类; 重复第步,直到聚类结果跟最近一次的聚类结果一致,不再变化; 输出最终的聚类结果; 、划分客户类别。