话题识别与追踪作为一项旨在帮助人们应对信息过载问题的研究,现阶段主要以网络新媒体中的信息流为处理对象,自动发现话题并把话题相关的内容联系在一起,其实现过程涉及5个子任务,分别是报道切分、首报道检测、关联检测、话题追踪和话题检测。话题识别与追踪技术可用来监控各种语言信息源,在新话题出现时发出警告。在早期研究中,考虑到话题识别与追踪和信息检索的共性,研究者们尝试将信息检索领域的相关技术应用于该领域。但二者之间亦存在不同,例如信息检索一般具备背景知识和先验需求,而话题识别与追踪是在对话题毫无了解的情况下进行识别与追踪,所以完全将信息检索技术移植到话题识别与追踪是不合理的,但是二者的本源性——模型构建基本相通。
针对话题模型的前瞻性研究来自Allan等,他们借用信息检索领域广泛采纳的向量空间模型描述话题的特征空间。虽然向量空间模型是目前常用的话题模型之一,但该模型的缺点是不能很好地融合静态话题模型和动态话题模型的优点从而成功解决二者孰优孰劣的问题,且在解决话题漂移问题时能力有限。信息检索领域主要包括三个模型:布尔模型、向量空间模型和概率模型。向量空间模型在话题识别与追踪领域中的成功应用,从理论上验证了概率模型亦可应用于话题识别与追踪。贝叶斯网络模型是重要的概率模型之一,包括推理网络模型、信念网络模型和BNR模型。在过去几十年,贝叶斯网络模型已成功应用于信息检索领域,但目前尚未有人将其应用于话题识别与追踪,本书在这方面做了相关研究,试图为该领域提出新的研究方法。
本书结合信念网络模型和新闻报道的特点,给出四个基于信念网络的话题模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三类节点:新报道节点、术语节点和话题节点,弧体现节点间的隶属关系。BSTM-II在BSTM-I的基础上加入事件节点,弧的指向和意义不变,为体现核心报道、核心事件的重要性,BSTM-II对核心报道、核心事件中的术语权重进行了两次线性提高调整。BDTM-I属于动态话题模型,节点类型和弧的意义与上述模型相同,不同的是在话题追踪过程中,其术语层会随着话题的发展而不断更新,重复出现的术语权重采用求和平均的方法更新,新出现的术语作为新的节点插入术语层。以上三个话题模型沿用传统建模思想,具备和以往模型相同的优缺点。BDTM-II打破传统建模的思想,运用信念网络模型提供了一个灵活框架的优势,将术语节点分为两类:初始核心术语节点和更新术语节点,并采用析取手段将它们作为两类证据进行归并。依据模型的拓扑结构、贝叶斯概率及条件独立性假设,本书给出了上述四个模型计算新闻报道和话题相似度的概率推导过程,用于判断新的新闻报道是否和话题相关。
为进一步提高话题识别与追踪系统的综合性能,本书进行了系统的优化研究。特征选择是话题模型构建的基础,互信息是文本处理领域一种有效的特征选择方法。在基本互信息的基础上,将出现相同高频词的新闻报道进行聚类,计算聚类后术语的互信息,将追踪到的相关报道的发生时间和话题的发生时间量化为时间距离,使其反比影响互信息的动态更新,得到基于聚类的动态互信息计算方法,用于计算新闻报道中术语的权重。为了获得TDT4语料中每个话题的初始特征子集规模,给出基于类内距离最小、类间距离最大的目标函数,并采用坐标下降法对其求解,最终完成新闻语料的特征选择。
动态话题模型的典型缺点是误报率较高,优点是其可以体现话题的动态演化过程。如果能在保持动态话题模型优点的同时,降低其误报率,将是该领域的一个新的突破点。本书通过系统分析动态话题追踪的误报原因,提出动态话题追踪中的误报检测。该方法首先分析时间距离、相似度差值、相似话题分布及与核心内容相似度分别如何影响误报检测,然后通过将这四项内容线性调和得到误报检测因子的计算方法,用于判断追踪到的相关报道是否属于误报,若属于误报,则对部分特征权重进行衰减,并确定模型结构是否需要调整。实验采用TDT4语料,结合DET曲线验证以上研究内容的合理性和有效性。
专著的出版受到如下项目经费支持:河北大学双一流专项资金项目、河北大学中西部提升综合实力专项资金项目、河北省教育厅青年基金项目“话题特征选择方法研究(QN2015099)”、河北省自然科学基金项目“基于贝叶斯网络的话题识别与追踪方法研究(F2015201142)”、河北省社会科学基金项目“京津冀协同发展网络热点话题发现及其应用研究(HB15SH064)”。
感谢我的博士生导师徐建民先生,是他最初帮我选定了这个研究方向,并在研究工作中对我做出了悉心的指导;感谢本书第二作者中央司法警官学院朱杰博士;感谢我的领导及同事杨会良教授、宛玲教授、杨秀丹教授、郭子雪教授,他们给我提供了进行科研的条件及工作支持;感谢我的师弟王丹青、张猛、武晓波、粟武林、李腾飞,师妹刘畅、孙晓磊等,他们帮我搜集了部分材料并协助我完成了大量的实验。
由于本人水平所限,所做研究尚有不足,欢迎相关研究者批评指正。
收起全部↑