vec模型

发布时间：2023-06-06 作者：admin 来源：文学

vec模型

lingo教程-财务部

2023年2月20日发(作者：计量单位英文)

Word2vec模型的常⽤⽅法枚举

词向量的维度(631,50)模型有631个不重复的词汇，维度为50

_similar(positive=['⽂本挖掘','汽车'],negative=['内容'],topn=20)

获取词汇相关的前n个词语，当positive和negative同时使⽤的话，就是词汇类⽐

r_by_word('social_listening',topn=10,restrict_vocab=30))

_similar('social_listening')

找到前N个最相似的单词，注意其中的参数restrict_vocab，它是可选的整数，

它限制了向量的范围，搜索最相似的值。例如，restrict_vocab=10000会

，只检查词汇顺序（按降序频率对词汇表进⾏排序会更有有意义）中的前10000个词汇向量

_match("舆情互联⽹媒体商业场景咨询".split())

找出与其他词差异最⼤的词汇

_than('微博','社会化媒体')#'微博'是词汇A,'社会化媒体'是词汇B

接近词汇A更甚于词汇B接近词汇A的【所有】词汇,按相似度由⾼到低降序排列

就是找到⽐b词汇更接近a单词的词汇

rity('social_listening','社会化媒体')

基于cosine余弦计算词汇之间的相似度，数值越⼤代表相似度越⾼

ance((),())

wmdistance⽐较语句之间的相似度，数值越⼤代表越不相似

t_output_word(['social_listening','⼝碑','情报'],topn=20)

给定上下⽂词汇（thecontextwords）作为输⼊，你可以获得中⼼词汇的概率分布

8使⽤乘法组合对象(multiplicativecombinationobjective)找到前N个最相似的单词

print("使⽤most_similar_cosmul进⾏相似度计算的结果：n{}".format(_similar_cosmul(positive=['⽂本挖掘','数

据','语义相关性'],negative=['商业','社交','社交媒体平台'],topn=10)))

print('-----------------------------------------------------------------------------------------------------------------------------------------------------------

-----------------')

print("使⽤most_similar进⾏相似度计算的结果：n{}".format(_similar(positive=['⽂本挖掘','数据','语义相关性'],

negative=['商业','社交','社交媒体平台'],topn=10)))

['⽂本挖掘']

查询到某个词汇的词向量稠密表⽰它是我们做后续⾼阶⽂本挖掘，即⽂本聚类、⽂本分类、情感分析以及⽂本相似度的基础

s将其扩展为2D的NumPy矩阵

_latest_training_loss()

训练损失计算(TrainingLossComputation)

当训练Word2Vec模型时，将其中的参数compute_loss设置为True，

则可计算训练Word2Vec模型时所得到的损失（TrainingLoss），它可以衡量模型的训练质量。

计算出的损失存储在模型的属性running_training_loss中，

可以调⽤get_latest_training_loss⽅法进⾏查询

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章