【网店勿用!此为申报选题所填信息,网店请调用*终版】
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。
本书是一本论文专辑,致力于探索自然语言处理和认知科学之间的关系,以及计算机科学对于这两个领域的贡献。根据Poibeau和Vasishth[POI 16]所述,对认知问题的研究兴趣可能较少受到关注。因为在认知科学领域,研究者往往无力应对自然语言处理技术的复杂性;同样,自然语言处理的研究者也没有认识到认知科学对于他们工作的贡献。我们相信,2004年启动的自然语言处理和认知科学国际研讨会(NLPCS)提供了一个强大的平台,支持新的研究课题的多样性,并且能帮助研究者建立共识。与此同时,这个平台还认可跨学科方法的重要性,并将计算机科学家、认知学和语言学的研究者聚集到一起来推动自然语言处理研究。
本书包含10章,都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章,Philippe Blache阐述了理解语言的过程在理论上是非常复杂的,该过程必须实时进行,且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上,而这些单元构成了“尽可能解释”原则的支柱,该原则负责推迟理解过程,直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章,Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表,然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析(LSA)和潜在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一个过程,用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系,而这种释义之间的关联有自己的方向,并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章,Rapp探索了人类语言生成是否是由关联控制的,以及话语的下一个实词是否可被视为该实词表示的一种关联,而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念,讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据,并将其与机器生成的结果进行了比较。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此,他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础,以及词义的学习和心理表征具有重要意义。他们得出的结论是,语言使用者只有掌握用于理解词的定义的词汇表中的单词,才能够从语言(口头)定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家,每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明,该方法的性能优于传统方法,并且只需要少量标记点就能胜过有监督系统。
在第7章中,Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务:构思、文本结构、表达和修订。他们专注于文本结构,涉及消息的分组(分块)、排序和链接。其目的是研究文本生成的哪些部分可以自动化,以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性(POS)标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明,虚词和词性n元组(n-gram)的频率优于序贯规则。
第9章讨论了基频检测(F0),它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小,并且在使用有限的存储和计算资源的情况下,其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中,手动收集的完形填充概率(CCP)用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样,在所有新的激励上泛化该模型是很难的。
在第10章中,Hofmann、Biemann和Remus提出应用语言模型,这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图(EEG)和眼球运动(EM)数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明,当直接计算CCP、EEG和EM数据时,n元语言模型和递归神经网络(RNN)的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献
---作者简介---
伯纳黛特•夏普(Bernadette Sharp) 英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来,她一直担任NLPCS的主席和审稿人。
弗洛伦斯•赛德斯(Florence Sèdes) 法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫•卢巴泽斯基(Wiesław Lubaszewski) 波兰雅盖沃大学计算语言学系教授,克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
---译者简介---
徐金安 北京交通大学计算机学院教授、博士生导师,研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学,曾任日本电气株式会社中央研究院研究员。
译者序
前言
作者名单
第1章延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1
1.1引言 1
1.2延迟处理 2
1.3工作记忆 5
1.4如何识别语块:分词操作 7
1.5延迟架构 10
1.5.1分段和存储 11
1.5.2内聚聚集 12
1.6结论 15
1.7参考文献 16
第2章人类关联规范能否评估机器制造的关联列表 19
2.1引言 19
2.2人类语义关联 20
2.2.1单词关联测试 20
2.2.2作者的实验 21
2.2.3人类关联拓扑 22
2.2.4人类关联具有可比性 24
2.3算法效率比较 26
2.3.1语料库 26
2.3.2LSA源关联列表 27
2.3.3LDA源列表 28
2.3.4基于关联比率的列表 28
2.3.5列表比较 29
2.4结论 33
2.5参考文献 34
第3章文本词如何在人类关联网络中选择相关词 37
3.1引言 37
3.2网络 40
3.3基于文本的激励驱动的网络提取 42
3.3.1子图提取算法 42
3.3.2控制流程 43
3.3.3最短路径提取 44
3.3.4基于语料库的子图 46
3.4网络提取流程的测试 46
3.4.1进行测试的语料库 46
3.4.2提取子图的评估 46
3.4.3有向和无向子图提取:对比 48
3.4.4每个激励产生的结果 49
3.5对结果和相关工作的简要讨论 54
3.6参考文献 57
第4章反向关联任务 59
4.1引言 59
4.2计算前向关联 63
4.2.1步骤 63
4.2.2结果和评估 65
4.3计算反向关联 67
4.3.1问题 67
4.3.2步骤 67
4.3.3结果和评估 71
4.4人类的表现 73
4.4.1数据集 73
4.4.2测试流程 75
4.4.3评估 76
4.5机器性能 77
4.6讨论、结果和展望 78
4.6.1人类的反向关联 78
4.6.2机器的反向关联 80
4.7致谢 82
4.8参考文献 82
第5章词汇的隐藏结构与功能 85
5.1引言 86
5.2方法 86
5.2.1词典图 86
5.2.2心理语言学变量 90
5.2.3数据分析 91
5.3内核、卫星、核心、MinSet以及词典余下部分的心理语言学属性 93
5.4讨论 96
5.5未来工作 99
5.6参考文献 101
第6章用于词义消歧的直推式学习博弈 103
6.1引言 103
6.2基于图的词义消歧 104
6.3半监督学习方法 107
6.3.1基于图的半监督学习 107
6.3.2博弈论和博弈动态 108
6.4词义消歧博弈 110
6.4.1图构造 110
6.4.2策略空间 111
6.4.3收益矩阵 111
6.4.4系统动力学 112
6.5评估 113
6.5.1实验设置 113
6.5.2评估结果 114
6.5.3对比先进水平算法 116
6.6结论 117
6.7参考文献 117
第7章用心学写:生成连贯文本的问题 121
7.1问题 121
7.2次优文本及其相关原因 123
7.2.1缺乏连贯性或凝聚力 124
7.2.2错误引用 125
7.2.3无动机的主题转移 126
7.3如何解决任务的复杂性 127
7.4相关研究 128
7.5关于构建辅助写作过程的工具的假设 130
7.6方法论 133
7.6.1句法结构的识别 135
7.6.2语义种子词的识别 135
7.6.3单词对齐 137
7.6.4确定对齐单词的相似性值 137
7.6.5确定句子之间的相似性 141
7.6.6基于句子相似性值的聚类 142
7.7实验结果和评估 142
7.8展望和总结 145
7.9参考文献 146
第8章面向著述属性的基于序贯规则挖掘的文体特征 149
8.1引言和研究动机 149
8.2著述属性过程 151
8.3著述属性的文体特征 152
8.4针对文体分析的时序数据挖掘 154
8.5实验设置 155
8.5.1数据集 156
8.5.2分类方案 157
8.6结果和讨论 158
8.7结论 162
8.8参考文献 162
第9章一种并行的、面向认知的基频估计算法 165
9.1引言 165
9.2语音信号分割 167
9.2.1语音和停顿段 168
9.2.2浊音和清音区 169
9.2.3稳定和不稳定区间 170
9.3稳定区间的F0估计 171
9.4F0传播 173
9.4.1控制流 174
9.4.2峰值传播 175
9.5不稳定的浊音区域 178
9.6并行化 178
9.7实验和结果 179
9.8结论 180
9.9致谢 181
9.10参考文献 182
第10章基于完形填充、脑电图和眼球运动数据对n元语言模型、主题模型和循环神经网络的基准测试 185
10.1引言 186
10.2相关工作 187
10.3方法 188
10.3.1人类绩效评估 188
10.3.2语言模型的三种风格 189
10.4实验设置 192
10.5结果 193
10.5.1可预测性结果 193
10.5.2N400振幅结果 196
10.5.3单一注视时延结果 198
10.6讨论和结论 200
10.7致谢 202
10.8参考文献 202
术语表 207