大数据分析相似性，数据相似性

头条共创 2024-06-27

现实应用中广泛使用的推荐系统通常基于协同过滤算法。此类算法通常需要计算具有不同数据量或数据类型的数据源的相似性。为了提高推荐性能，Mahout 提供了许多用于计算相似度的组件。这些组件实现不同的相似度计算方法。下面我们简单介绍一下主要的相似度计算方法。

皮尔逊相关系数

这个类比不是最好的选择，但也不是最糟糕的，因为它更容易理解。使用皮尔逊线性相关系数时，假设数据来自成对正态分布，并且数据必须均匀分布，至少在逻辑范围内。在Mahout 中，通过添加枚举（加权）参数来扩展Pearson 相关性计算，使重复次数成为影响相似性计算的因素。

53fe00026cdf4fcc1a98~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720083958&x-signature=PoLuiAg1%2FDmAJtFXFb1S4u6A97A%3D

欧氏距离相似度

与Pearson 相似度类似，这种相似度没有考虑重复次数对结果的影响。类似地，Mahout 添加了一个枚举（加权）参数来影响相似度计算。

53fe00026d216d0c3901~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720083958&x-signature=H8aLaaGN6E975RM7iMSUwJbsA8M%3D

余弦相似度

公式中，如果两个项目的属性以数据为中心，则计算出的余弦相似度和皮尔逊相似度相同。由于mahout实现了以数据为中心的处理，因此Pearson相似度值也可以理解为余弦。数据集中后的相似性。较新版本的Mahout 提供UncenteredCosineSimilarity 类来计算非中心数据的余弦相似度。