
vec模型
lingo教程-财务部
2023年2月20日发(作者:计量单位英文)Word2vec模型的常⽤⽅法枚举
词向量的维度(631,50)模型有631个不重复的词汇,维度为50
_similar(positive=['⽂本挖掘','汽车'],negative=['内容'],topn=20)
获取词汇相关的前n个词语,当positive和negative同时使⽤的话,就是词汇类⽐
r_by_word('social_listening',topn=10,restrict_vocab=30))
_similar('social_listening')
找到前N个最相似的单词,注意其中的参数restrict_vocab,它是可选的整数,
它限制了向量的范围,搜索最相似的值。例如,restrict_vocab=10000会
,只检查词汇顺序(按降序频率对词汇表进⾏排序会更有有意义)中的前10000个词汇向量
_match("舆情互联⽹媒体商业场景咨询".split())
找出与其他词差异最⼤的词汇
_than('微博','社会化媒体')#'微博'是词汇A,'社会化媒体'是词汇B
接近词汇A更甚于词汇B接近词汇A的【所有】词汇,按相似度由⾼到低降序排列
就是找到⽐b词汇更接近a单词的词汇
rity('social_listening','社会化媒体')
基于cosine余弦计算词汇之间的相似度,数值越⼤代表相似度越⾼
ance((),())
wmdistance⽐较语句之间的相似度,数值越⼤代表越不相似
t_output_word(['social_listening','⼝碑','情报'],topn=20)
给定上下⽂词汇(thecontextwords)作为输⼊,你可以获得中⼼词汇的概率分布
8使⽤乘法组合对象(multiplicativecombinationobjective)找到前N个最相似的单词
print("使⽤most_similar_cosmul进⾏相似度计算的结果:n{}".format(_similar_cosmul(positive=['⽂本挖掘','数
据','语义相关性'],negative=['商业','社交','社交媒体平台'],topn=10)))
print('-----------------------------------------------------------------------------------------------------------------------------------------------------------
-----------------')
print("使⽤most_similar进⾏相似度计算的结果:n{}".format(_similar(positive=['⽂本挖掘','数据','语义相关性'],
negative=['商业','社交','社交媒体平台'],topn=10)))
['⽂本挖掘']
查询到某个词汇的词向量稠密表⽰它是我们做后续⾼阶⽂本挖掘,即⽂本聚类、⽂本分类、情感分析以及⽂本相似度的基础
s将其扩展为2D的NumPy矩阵
_latest_training_loss()
训练损失计算(TrainingLossComputation)
当训练Word2Vec模型时,将其中的参数compute_loss设置为True,
则可计算训练Word2Vec模型时所得到的损失(TrainingLoss),它可以衡量模型的训练质量。
计算出的损失存储在模型的属性running_training_loss中,
可以调⽤get_latest_training_loss⽅法进⾏查询