1、余弦相似度
余弦相似度衡量的是2個(gè)向量間的夾角大小,通過(guò)夾角的余弦值表示結(jié)果,因此2個(gè)向量的余弦相似度為:
余弦相似度的取值為[-1,1],值越大表示越相似。
向量夾角的余弦公式很簡(jiǎn)單,不在此贅述,直接上代碼:
def cosVector(x,y):
if(len(x)!=len(y)):
print('error input,x and y is not in the same space')
return;
result1=0.0;
result2=0.0;
result3=0.0;
for i in range(len(x)):
result1+=x[i]*y[i] #sum(X*Y)
result2+=x[i]**2 #sum(X*X)
result3+=y[i]**2 #sum(Y*Y)
#print(result1)
#print(result2)
#print(result3)
print("result is "+str(result1/((result2*result3)**0.5))) #結(jié)果顯示
cosVector([2,1],[1,1])
一個(gè)計(jì)算二維數(shù)組余弦值的例子:
#求余弦函數(shù)
def cosVector(x,y):
if(len(x)!=len(y)):
print('error input,x and y is not in the same space')
return;
result1=0.0;
result2=0.0;
result3=0.0;
for i in range(len(x)):
result1+=x[i]*y[i] #sum(X*Y)
result2+=x[i]**2 #sum(X*X)
result3+=y[i]**2 #sum(Y*Y)
#print("result is "+str(result1/((result2*result3)**0.5))) #結(jié)果顯示
return result1/((result2*result3)**0.5)
#print("result is ",cosVector([2,1],[1,1]))
#計(jì)算query_output(60,20)和db_output(60,20)的余弦值,用60*1的向量存儲(chǔ)
cosResult= [[0]*1 for i in range(60)]
for i in range(60):
cosResult[i][0]=cosVector(query_output[i], db_output[i])
print(cosResult)
--------------------------------------------------------------------------------------------
#計(jì)算query_output和db_output的余弦值,用60*1的向量存儲(chǔ)
rows=query_output.shape[0] #行數(shù)
cols=query_output.shape[1] #列數(shù)
cosResult= [[0]*1 for i in range(rows)]
for i in range(rows):
cosResult[i][0]=cosVector(query_output[i], db_output[i])
#print(cosResult)
#將結(jié)果存入文件中,并且一行一個(gè)數(shù)字
file=open('cosResult.txt','w')
for i in cosResult:
file.write(str(i).replace('[','').replace(']','')+'\n') #\r\n為換行符
file.close()
補(bǔ)充:python實(shí)現(xiàn)余弦近似度
方法一:
def cos(vector1,vector2):
dot_product = 0.0
normA = 0.0
normB = 0.0
for a,b in zip(vector1,vector2):
dot_product += a*b
normA += a**2
normB += b**2
if normA == 0.0 or normB==0.0:
return None
else:
return 0.5 + 0.5 * dot_product / ((normA*normB)**0.5) #歸一化 span style="font-family: Arial, Helvetica, sans-serif;">從[-1,1]到[0,1]/span>
方法二:
num = float(A.T * B) #若為行向量則 A * B.T
denom = linalg.norm(A) * linalg.norm(B)
cos = num / denom #余弦值
sim = 0.5 + 0.5 * cos #歸一化 從[-1,1]到[0,1]
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
您可能感興趣的文章:- Python 余弦相似度與皮爾遜相關(guān)系數(shù) 計(jì)算實(shí)例
- python代碼如何實(shí)現(xiàn)余弦相似性計(jì)算
- 余弦相似性計(jì)算及python代碼實(shí)現(xiàn)過(guò)程解析
- Python繪制正余弦函數(shù)圖像的方法
- Python使用matplotlib繪制余弦的散點(diǎn)圖示例
- Python使用matplotlib繪制正弦和余弦曲線的方法示例
- python實(shí)現(xiàn)余弦相似度文本比較的示例