开放鉴定是档案开放利用的重要前置工作,决定了档案开放水平。本书结合近年来人工智能技术与档案开放鉴定的实践进展,对档案开放鉴定的前沿进展、模型构建、关键环节、可解释性问题以及大语言模型在档案开放鉴定中的应用展开讨论,尝试拓展档案开放鉴定的相关理论知识,丰富档案开放鉴定的实践方向,以期为档案开放鉴定现代化发展提供参考与借鉴。
随着人工智能技术的发展,人工智能的应用场景越来越广泛,著者结合档案领域的开放鉴定工作实践,从理论和实践两方面,详细介绍人工智能在档案领域的应用场景构建,本书的亮点在于适用档案开放鉴定的语言大模型构建、关键环节的智能化流程设计探索。
杨建梁,中国人民大学信息资源管理学院讲师,中国人民大学“杰出学者“青年学者,中国人民大学与麻省理工学院联合培养博士。在数字化与数据化、数字人文、自然语言处理、电子文件管理等领域发表国内外高水平期刊及会议论文20余篇。主持国家社科基金项目、中国博士后科学基金一等面上项目,参与多项国家社科基金重大、重点项目,国家自科基金重点项目及各类横向委托课题。兼任中国人民大学数字人文研究中心研究员,中国人民大学电子文件管理研究中心研究员,中国人民大学档案事业发展中心研究员,担任多个期刊和会议论文审稿人。
第1章人工智能技术与档案管理的交叉融合
1.1人工智能的起源与发展
1.1.1早期概念与理论
1.1.2中期瓶颈与遇冷
1.1.3现代发展与突破
1.1.4前沿领域与未来
1.2人工智能的场景与应用
1.2.1金融领域:摩根大通集团的COiN平台
1.2.2医疗领域:IBM公司的Watson for Oncology系统
1.2.3交通领域:Apollo平台的自动驾驶汽车
1.2.4科学研究:MindSpore在蛋白质结构预测中的应用
1.2.5政务领域:北京市政务服务智能个性化系统
1.2.6教育领域:奥克兰大学的人工智能聊天机器人系统
1.2.7未来趋势
1.3国内外人工智能发展政策
1.3.1中国
1.3.2美国
1.3.3英国
1.3.4欧盟
1.3.5加拿大
1.4档案管理的智能化演进
1.4.1萌芽起步阶段
1.4.2渐进发展阶段
1.4.3全面探索阶段
1.5档案智能技术创新态势
1.5.1档案智能技术专利分析
1.5.2国家档案局科技立项分析
1.6档案业务的主要智能技术
1.6.1光学字符识别
1.6.2自然语言处理
1.6.3机器学习
1.6.4知识图谱
1.6.5图像识别
1.6.6语音识别
第2章档案开放鉴定的前沿进展
2.1档案开放鉴定的机制
2.1.1理论基础与国际经验借鉴
2.1.2档案开放审核协同机制
2.1.3自由裁量权与尽职免责制度
2.1.4研究启示
2.2档案开放鉴定的流程
2.2.1融合人工智能技术的鉴定流程
2.2.2审核结果分类与标准化体系构建
2.2.3解密与开放鉴定实施策略
2.2.4研究启示
2.3智能开放鉴定的技术
2.3.1人工智能技术的应用模式
2.3.2语义分析与自然语言处理
2.3.3有监督的机器学习
2.3.4研究启示
2.4智能开放鉴定的实践进展
2.4.1福建省档案馆
2.4.2江苏省档案馆
2.4.3江西省档案馆
2.4.4广东省珠海市档案馆
2.4.5案例启示
第3章智能开放鉴定的模型构建
3.1基于文本分类的开放鉴定模型
3.1.1文本分类算法
3.1.2文本特征表示
3.1.3开放鉴定的文本分类建模
3.2基于敏感实体的开放鉴定模型
3.2.1敏感实体识别
3.2.2开放鉴定的敏感实体识别建模
3.3基于档案关联的开放鉴定模型
3.3.1档案关联网络
3.3.2网络的学习与表示
3.3.3开放鉴定的档案关联建模
3.4背景知识增强
3.4.1档案背景知识图谱
3.4.2档案背景知识表示
3.5开放鉴定模型效果的评价
3.5.1分类模型效果评估
3.5.2开放鉴定模型评估
3.6智能开放鉴定模型的实证研究
3.6.1基于文本分类的实证研究
3.6.2敏感实体识别的实证研究
3.6.3基于档案关联的实证研究
3.6.4背景知识增强的实证研究
第4章智能开放鉴定的关键环节/
4.1档案数据化环节/
4.1.1档案数据化任务框架/
4.1.2档案数据化方法体系/
4.2规则设计环节/
4.2.1自底向上的规则设计/
4.2.2自顶向下的规则设计/
4.2.3鉴定规则的算法化/
4.3模型设计环节/
4.3.1训练数据集构建/
4.3.2模型训练环节/
4.3.3模型测试环节/
4.4系统建设环节/
4.4.1档案检索查询/
4.4.2档案开放二次鉴定/
4.4.3开放鉴定规则管理/
4.4.4鉴定结果分析及可视化/
4.4.5用户界面与交互/
4.5持续优化环节/
4.5.1非学习型模型的持续优化/
4.5.2学习型模型的持续优化/
第5章大语言模型与档案开放鉴定/
5.1现有技术路线的问题/
5.1.1智能开放鉴定规则构建的依据不清/
5.1.2智能开放鉴定训练数据的可获取性不强/
5.1.3智能开放鉴定结论的可解释性不足/
5.2大语言模型的特点与优势/
5.2.1大模型具备理解复杂开放鉴定规则的能力/
5.2.2大模型具备低资源场景下的问题解决能力/
5.2.3大模型具备档案开放鉴定结果的解释能力/
5.3基于大语言模型的档案开放鉴定任务框架/
5.3.1制度建设层/
5.3.2档案资源层/
5.3.3大模型技术层/
5.3.4信息系统层/
5.3.5人机交互层/
5.4基于大语言模型提示工程的档案开放鉴定技术路径/
5.4.1开放鉴定规则构建/
5.4.2档案数据化/
5.4.3面向开放鉴定的提示设计/
5.4.4档案大模型应用/
5.4.5形成审核结果/
5.5基于大语言模型的开放鉴定实验/
5.5.1测试数据集说明/
5.5.2评估指标说明/
5.5.3实验环境设置/
5.5.4实验结果/
5.6大语言模型在智能档案开放鉴定的应用实践/
5.6.1大语言模型检测个人敏感信息的效果/
5.6.2智能档案开放鉴定系统的构建/
5.7大语言模型存在的问题/
5.7.1泛化能力有待突破/
5.7.2AI幻觉有待消除/
5.7.3运行成本居高不下/
5.7.4社会争议亟待解决/
第6章智能开放鉴定的可解释性/
6.1档案智能开放鉴定的可解释性困境/
6.1.1人工智能效能与可解释性的固有斥力/
6.1.2档案智能开放鉴定可解释性挑战凸显/
6.2档案智能开放鉴定的可解释性要求/
6.2.1可解释性的法律要求/
6.2.2可解释性的实践要求/
6.2.3可解释智能鉴定的技术可行性/
6.3档案智能开放鉴定的可解释性框架/
6.3.1总体逻辑/
6.3.2算据可解释/
6.3.3算法可解释/
6.3.4置信可解释/
6.3.5决策可解释/
6.4面向可解释的档案智能开放鉴定的启示与建议/
6.4.1优化档案智能开放鉴定的体制机制/
6.4.2健全档案开放鉴定可解释性的法规/
6.4.3优化开放业务流程以提高可解释性/
第7章智能开放鉴定的挑战与对策/
7.1智能开放鉴定面临的挑战/
7.1.1体制机制方面的挑战/
7.1.2智能技术方面的挑战/
7.1.3资源层面的挑战/
7.1.4人才层面的挑战/
7.1.5设备层面的挑战:智能技术需要算力/
7.1.6目标定位层面的挑战:目标定位不清晰/
7.2推进智能开放鉴定的对策/
7.2.1优化体制机制/
7.2.2研发智能技术/
7.2.3提高资源可用性/
7.2.4强化人才建设/
7.2.5提升算力水平/
7.2.6明确开放鉴定目标/
整体而言,档案智能化的思想实则由来已久,并在演变中不断扩充其智能的内涵;其应用场景也从发端并聚焦于检索环节到逐渐延伸至档案管理全流程。在档案智能化的发展历程中,整体的研究涵盖理论、方法和实践多个方面,显示出一定的认知与行动基础,并呈现出国外先于国内的特点。其中,面向档案智能化的管理及应用凸显为实践的重要组成部分,本书通过综合梳理我国相关实践内容,以观照档案智能化管理及应用的整体图景,以期为实际工作以及未来档案智能化的发展提供参考。