DuplicateQuestionPairs:预测在线论坛中的两个问题是否重复。 然后比较几种分类算法以找到最佳模型 源码
Udacity_MachineLearningEngineer_Capstone Udacity的机器学习纳米学位的Capstone项目 介绍 Quora是一个受欢迎的网站,人们可以在其中提问和回答各种问题。 但是,很多时候人们会遇到相似或几乎相同的问题,这使得寻找最佳答案变得困难。 在这个项目中,我开发了一种监督学习算法来检测Quora上的重复问题。 所需库 麻木 大熊猫 词云 斯克莱恩 matplotlib 操作系统 馆藏 xgboost Graphviz 跑步 所有运行脚本都在capstone.ipynb文件中。 数据 培训数据和测试数据均可在。 它们太大,无法存储在此存储库中。 最后结果 使用具有6个功能的XGboost模型,我的对数损失约为0.39。
下载地址
用户评论