相似性度量在机器学习中起着至关重要的作用。本文介绍四种常用的相似度度量:余弦相似度、点积、曼哈顿距离(L1)和欧几里得距离(L2)。
余弦相似度范围从-1到+1,+1表示完全相似,-1表示完全不相似。点A(1.5, 1.5)与点B(2.0, 1.0)的余弦相似度为0.948,表明两者非常相似。点A与点C(-1.0, -0.5)的余弦相似度为-0.948,两者方向相反,不相似。
要计算余弦相似度,将两个向量的点积除以它们长度的乘积即可。余弦相似度主要考虑两个向量之间的角度,忽略向量的长度。
在Python中,可以简单地将余弦相似值cos(θ)转换为两个向量之间的角度θ。
点积范围从负无穷到正无穷,正值表示方向相同,负值表示方向相反,当向量垂直时为0。点积可以从余弦方程推导出来,通过将两个向量之间夹角的余弦值乘以两个向量的长度。
点积受向量嵌入长度影响,这在选择相似性度量时是一个关键因素。例如,在计算一组科学研究论文的相似度时,使用余弦相似度或点积,论文之间的相似性会如何变化?
余弦相似度考虑向量的方向和大小,适用于向量的长度与其相似度不直接相关的情况。点积只有考虑向量的大小,方向对结果的贡献较小。
曼哈顿距离通过将每个维度的绝对差相加计算距离,而欧几里得距离计算点之间的直线距离。曼哈顿距离适用于网格状运动的场景,或当单个维度具有不同重要性时。欧几里得距离适用于测量最短路径或所有维度对距离贡献相等的场景。
曼哈顿距离常用于计算城市街道的距离,也用于特征选择和聚类等数据分析任务。欧几里得距离广泛用于空间中的距离测量,机器学习、数据挖掘和图形处理等领域。
点积距离和余弦相似度通常用于向量或文本数据的相似性度量。在文本挖掘、自然语言处理、信息检索和推荐系统等领域,用于向量相似性的度量。
温馨提示:答案为网友推荐,仅供参考