全国统一服务热线
当前位置:主页 > 永利娱乐 >

概率主题模型简介 Introduction to Probabilistic Topic …

文章出处:澳门永利平台 人气:发表时间:2018-08-26 12:43

如今公开的知识日益以新闻、博客、网页、科学论文、书籍、图像、声音、视频和社交网络的形式被数字化存储,巨大的信息量同时也增加了人们寻找和发现自己所需要的知识的难度。人们需要新的计算工具以组织、搜索和理解这些庞大的信息量。现在的在线信息挖掘使用两种主要的工具搜索和链接。向搜索引擎提交关键词就可以找到相关的文档和其它相链接的文档。这种与在线文档的交互方式虽然有效,但却丢失了某些信息。假设所要搜索和寻找的文档由各类主题组成。这样,通过对文章进行放大和缩小就可以得到较具体或者较粗略的主题;在文档中就可以看到这些主题是如何随着时间变化,或者说是如何相互联系的。搜索文档就不只是通过关键词寻找,取而代之的是先找到相关的主题,然后再查找与这一主题相关的文档。拿纽约时报所记载的历史举例。从较广的层次来看,报纸中的主题就对应着报纸各个版块对外政策、国内事务、体育,再拿对外政策进行放大,就可以得到其不同方面中国对外政策、中东冲突、英国与俄罗斯的关系。接下来,我们跟踪这些专题是如何随着时间演变的,例如过去50年里的中东冲突。如此这般探索就能找到与主题相关的原始文档。可见,这种主题结构是探索和理解文档的新窗口。但以这种方法与电子文档进行交互是不现实的,因为随着网上文本的数量越来越多,单单仅靠人力已经无法全部阅读和研究所有的文本。由此,概率主题建模应运而生。机器学习领域的研究人员们开发出了一套旨在发现和标记大规模文档的主题信息的算法。主题建模算法是一种统计方法,它通过分析原文本中的词以发现蕴藏于其中的主题,主题间的联系,以及主题随时间的演变(就比如后面图3,通过分析耶鲁法律找到主题),而且不需要事前对文档进行标记。也就是说,人力所无法完成的文档标记,主题建模算法能够进行组织和归纳。LDA的第三个假设是主题的数量已知且固定。贝叶斯非参数主题模型[34]提供了:在后验推断中文档集决定了主题数量,而且新文档中会有前面文档所没有的主题。贝叶斯非参数主题模型可以通过数据推断,扩展成一系列从较通用到较具体的主题层次,就像一棵主题树一样。LDA还有弱化其它假设的扩展。相关主题模型[6]和弹球分配机器[24]将同时出现的主题视作相关(例如与地理有关的文档可能运动相关,但它更可能与化学相关);球状主题模型[28]允许词不太可能在主题中出现(例如,扭伤显然不太可能出现有关猫的主题里);稀疏主题模型进一步强化了主题分布的结构[37];而稠密主题模型则是词数的一个更符合实际的模型[15]。主题模型是机器学习的新兴领域,有很多新方向亟待探索。评价和模型验证 主题模型的评测和有效性脱节。一般的评价过程如下,首先取一部分语料做为测试集,然后从剩下的语料中训练不同的主题模型,并在测试集上度量其近似性(例如概率),最后选择性能最好的模型。但主题模型通常是用于组织、总结和帮助研究者探索大规模语料,技术上无法保证,准确性越高,组织性就越好或者解释得就越简单。主题建模的一个开放课题是与算法使用相匹配的评测方法。那么如何基于主题的解释性来比较主题模型呢?这就是模型验证问题,当面对一个新语料和新问题时,应该如何选择主题模型呢?哪些建模假设对问题是重要的,哪些是不重要的?该如何试验众多已经开发的主题模型呢?这些问题引起了统计学家的兴趣[9,30],但他们对机器学习处理的问题的规模认识不足。这些计算问题的新答案将是对主题模型的重要贡献。可视化和用户接口 主题模型另一个充满希望的未来方向是开发与主题和语料库交互的新方法。主题模型提供了探索大规模文本的新结构,那么如何使用这一结构呢?一个问题就是如何展示主题。主题一般通过列举其最常出现的词来展示(如图2),但选择不同的词展示或者以不同的方式来标记主题,可能会更有效。更进一步,如何更好地展示一个文档中的主题模型呢?从文档上来看,主题模型提供了文档结构的潜在的有用信息。结合有效的主题标记,读者可以辨认出文档中最感兴趣的部分。此外,隐藏的主题直方图隐式地将各个文档相互连接(考虑文档直方图的距离)。如何显示这些连接?整个语料与其推断的主题结构的有效接口是什么?这些用户接口问题对主题建模非常重要。主题建模算法很有希望提示大规模文档的有意义的主题结构,但要让它有用需要在信息可视化和用户接口上多下工夫。用主题模型进行数据发现 主题模型伴随着信息工程应用而来,主题模型作为统计模型应该能提供关于数据的信息或者帮助建立假设。主题模型的后验分布提供了什么信息?这一问题已经出现在政治科学[19]、生物学[17]和心理学[32]等领域,这类研究使用主题模型来度量所关注的外部变量,是非监督学习中的难题,必须小心验证。这个问题通常可由计算机科学家与其它领域的学者合作使用主题模型来助力数据的探索、可视化和抽象假设。除了遗传学和神经学等科学应用系统,主题模型还可以应用于历史、社会、语言、政治学、法律学和比较文学等其它以文本作为研究媒介的领域。通过与各学科的学者进行合作,计算机科学家们开始开发出新的跨学科的计算方法,来处理大量的文本,并从中提取潜在内涵。

此文关键字:

推荐产品

免费时时彩计划软