公式介绍
余弦相似度(Cosine Similarity):
余弦相似度是用于衡量两个向量方向之间夹角的相似性。它忽略了向量的大小,只关注向量之间的夹角。余弦相似度的值范围在 -1 到 1 之间,值越接近 1 表示越相似,值越接近 -1 表示越不相似,值为 0 表示正交。
欧几里德距离(Euclidean Distance):
欧几里德距离是测量两个向量在多维空间中的直线距离。它计算各维度之间差值的平方和的平方根。欧几里德距离越小,表示两个向量越相似。
曼哈顿距离(Manhattan Distance):
曼哈顿距离,也称为城市街区距离或 L1 距离,计算两个向量在多维空间中沿坐标轴的绝对差值之和。它类似于在城市中行走时只能沿着道路走的情况,需要转弯走到目标点。
切比雪夫距离(Chebyshev Distance):
切比雪夫距离衡量两个向量之间在各个维度上的最大差值。它表示两个向量在所有维度中最大的差异。切比雪夫距离对异常值非常敏感。
计算公式
余弦相似度(Cosine Similarity)
cosine_similarity(A, B) = (A · B) / (||A|| * ||B||)
其中,A · B 表示向量 A 和向量 B 的点积(内积),||A|| 和 ||B|| 分别表示向量 A 和向量 B 的范数(欧几里德范数或 L2 范数)。
欧几里德距离(Euclidean Distance)
euclidean_distance(A, B) = √((a₁ - b₁)² + (a₂ - b₂)² + ... + (aₙ - bₙ)²)
其中,a₁, a₂, ..., aₙ 和 b₁, b₂, ..., bₙ 分别是向量 A 和向量 B 在各维度上的坐标。
曼哈顿距离(Manhattan Distance)
manhattan_distance(A, B) = |a₁ - b₁| + |a₂ - b₂| + ... + |aₙ - bₙ|
切比雪夫距离(Chebyshev Distance)
chebyshev_distance(A, B) = max(|a₁ - b₁|, |a₂ - b₂|, ..., |aₙ - bₙ|)
其中,|x| 表示取绝对值。