1. 首页
  2. 数据库
  3. 其它
  4. inf368 exercise 3 cord 19:INF368 2020年Spring练习3 COVID 19开放研究数据集挑战(CORD 19) 源码

inf368 exercise 3 cord 19:INF368 2020年Spring练习3 COVID 19开放研究数据集挑战(CORD 19) 源码

上传者: 2021-04-17 19:05:46上传 ZIP文件 257.47KB 热度 6次
INF368练习3 2020年Spring 在卑尔根大学进行的机器学习精选主题(主题为“深度学习”)课程( )的第三次练习中,我们被要求参加 。 Kaggle挑战 我们决定为使用TF-IDF的CORD-19数据集中的文章和使用Word2Vec的词嵌入创建一个搜索引擎。 特遣部队 代表术语“频率-文档频率” 。 它是经常用于信息检索和文本挖掘的权重。 给定一系列文档,TF-IDF是一种统计量度,用于确定单词相对于所有其他文档与特定文档的关联程度。 给定集合中的一个单词和一个文档,我们计算TF(词频)并将其与IDF(文档反频率)相乘以获得其TF-IDF权重。 计算如下: TF =(单词在文档中出现的次数)/(所述文档中单词的总数) IDF =日志(集合中的文档/其中包含单词的文档数量) Word2Vec 我们使用词嵌入通过添加相似的词来增强搜索。 例如,如果我们搜索“ covid-19”
下载地址
用户评论