文档分类太繁杂?MIT 和 IBM 联手,解决了这一难题

阿里云创新中心> 创业资讯> 文档分类太繁杂?MIT 和 IBM 联手,解决了这一难题
0
0

文档分类太繁杂?MIT 和 IBM 联手,解决了这一难题

伍文靓 2019-12-22 15:05:00 162
导语:按照你的偏好来分类资料。
雷锋网注:【 图片来源:venturebeat  所有者:venturebeat  】即使是最好的文本解析推荐算法也会受到一定大小的数据集的阻碍。为了提供比大多数现有方法更快,更好的分类性能,MIT-IBM Watson AI 实验室和  MIT 的 Geometric Data Processing Group  的团队设计了一种结合了嵌入式和最优传输等流行人工智能工具的技术。他们认为,这个方法只需要考虑一个人的历史偏好,或一群人的偏好,就可以覆盖数百万的可能性。这项研究的主要作者、麻省理工学院的助理教授  Justin Solomon 在一份声明中表示,互联网上有大量文字,任何有助于贯穿这些材料的东西都是非常有用的。为此, Justin  Solomon 和他的同事使用算法将文本集合归纳成基于集合中常用单词的主题。紧接着,它将每个文本分成 5 到 15  个最重要的主题,并通过排名显示每个主题对整个文本的重要性。另外,嵌入(雷锋网按,在这种情况下为单词的数据表示形式)有助于使单词之间的相似性显而易见,而最佳传输则有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。同时,嵌入能够让“利用两次最优传输”成为可能:首先是比较集合中的主题,然后度量公共主题重叠的程度。研究人员称,这种方法在扫描大量书籍和文件时尤其有效。在  Gutenberg Project 数据集中的 1720 个标题的评估工作中,该算法成功地在一秒钟内比较完所有标题,比第二名快了近 800  倍。此外,与其他方法相比,该算法在分类文档方面做得更好。例如,按作者对古腾堡数据集中的书籍进行分组;或是按部门对亚马逊上的产品评论进行分组。同时,该算法还提供了主题列表,能够向用户解释推荐给定文档的原因,便于用户理解。不过,研究人员并未满足于现有的技术水平。他们还将继续开发一种端到端的培训技术,这种技术可以联合优化嵌入、主题模型和最优传输,而不是像当前实现那样单独优化。在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用。在论文总结工作报告中, Justin  Solomon 表示,(我们的算法)捕捉差异的方式似乎与让一个人比较两个文档的方式相同:先将每个文档分解成容易理解的概念,然后比较概念······对于更近一步的想法,Justin  Solomon 说道:让单词嵌入提供全局语义语言信息,主题模型提供特定于语料库的主题和主题分布。从经验上看,这些因素结合在一起,可以在各种基于度量的任务中提供优异的性能。雷锋网注:文章编译自 venturebeat
                                                 本文转自雷锋网,如需转载请至雷锋网官网申请授权。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问