在金融领域中,时间序列是非常重要的一种数据类型,例如证券市场中的股票价格和交易量、外汇市场上的汇率、期货和黄金的交易价格等,这些数据都形成了持续不断的时间序列。金融市场中的时间序列主要使用基础分析和技术分析方法进行分析,这两种方法使用简单,但是无法对数据中隐含的更深层次的规律和特征进行挖掘。数理统计分析方法是目前金融时间序列分析中比较常用的方法,随着数据量的不断增加,这种方法的分析能力存在一定的缺陷,各种数理统计分析方法都无法有效地处理较大规模的数据集,也不适合从大量数据中主动地发现各种潜在的规则。因此面对金融行业不断涌现的海量数据,需要寻找新的数据分析和挖掘的方法。
《金融时间序列的分析与挖掘》将数据挖掘技术运用到金融时间序列研究中,使用关联规则、聚类分析等数据挖掘方法对金融时间序列中的隐含模式进行挖掘,本文的创新点主要基于以下几个方面:
(1)针对金融时间序列需要保留形态特征与趋势特征的特点,提出了适合金融时间序列的多层次极值点分段表示法(MEPS),此方法能在多个层次上很大限度地保留关键特征点信息,从而能更好地捕捉和表示时间序列的形态和走势。
(2)针对金融时间序列需要保留形态特征与趋势特征的特点,在MEPS算法的基础上提出了分层的动态时间弯曲相似性度量方法(HDTW)及其改进方法IHDTW,将时间序列在不同层次上进行分段,然后计算对应分段层次中子序列间的相似性,最后汇总得到序列间的相似度,在算法中对动态时间弯曲算法(DTW)进行了改进,并且考虑到了分层的均匀因素及趋势因素,实验结果证明能大大提高相似性度量的效果和效率。
(3)金融市场的运行非常复杂,其中人的因素也非常重要,为了在金融时间序列挖掘的过程中更好地体现用户的实际需求,提出了基于事件的时间序列相似性度量方法(SMBE),此算法通过对事件的定义引入用户在相似性度量时的偏好与需求,并设计了基于SMBE的层次聚类算法,完全以事件的相似性为中心进行聚类,定义了类间相似度和类间一般距离两个参数,并以它们之间的比较作为判断类间距离的依据,使得时间序列相似性度量及其聚类的结果更加符合实际金融市场的状态与需求。
在金融领域中,时间序列是非常重要的一种数据类型,例如证券市场中的股票价格和交易量、外汇市场上的汇率、期货和黄金的交易价格等,这些数据都形成了持续不断的时间序列。金融市场中的时间序列主要使用基础分析和技术分析方法进行分析,这两种方法使用简单,但是无法对数据中隐含的更深层次的规律和特征进行挖掘。数理统计分析方法是目前金融时间序列分析中比较常用的方法,随着数据量的不断增加,这种方法的分析能力存在一定的缺陷,各种数理统计分析方法都无法有效地处理较大规模的数据集,也不适合从大量数据中主动地发现各种潜在的规则。因此面对金融行业不断涌现的海量数据,需要寻找新的数据分析和挖掘的方法。本书将数据挖掘技术运用到金融时间序列研究中,使用关联规则、聚类分析等数据挖掘方法对金融时间序列中的隐含模式进行挖掘,本文的创新点主要基于以下几个方面:
(1)针对金融时间序列需要保留形态特征与趋势特征的特点,提出了适合金融时间序列的多层次极值点分段表示法(MEPS),此方法能在多个层次上最大限度地保留关键特征点信息,从而能更好地捕捉和表示时间序列的形态和走势。
(2)针对金融时间序列需要保留形态特征与趋势特征的特点,在MEPS算法的基础上提出了分层的动态时间弯曲相似性度量方法(HDTW)及其改进方法IHDTW,将时间序列在不同层次上进行分段,然后计算对应分段层次中子序列间的相似性,最后汇总得到序列间的相似度,在算法中对动态时间弯曲算法(DTW)进行了改进,并且考虑到了分层的均匀因素及趋势因素,实验结果证明能大大提高相似性度量的效果和效率。
(3)金融市场的运行非常复杂,其中人的因素也非常重要,为了在金融时间序列挖掘的过程中更好地体现用户的实际需求,提出了基于事件的时间序列相似性度量方法(SMBE),此算法通过对事件的定义引入用户在相似性度量时的偏好与需求,并设计了基于SMBE的层次聚类算法,完全以事件的相似性为中心进行聚类,定义了类间相似度和类间一般距离两个参数,并以它们之间的比较作为判断类间距离的依据,使得时间序列相似性度量及其聚类的结果更加符合实际金融市场的状态与需求。
第一章 引言
第一节 金融市场信息化的发展
第二节 金融市场的传统分析方法
一、基础分析与技术分析
二、数理统计分析
第三节 数据挖掘技术的兴起与发展
第四节 本书的研究目的与内容
一、本书的研究对象
二、本书的研究内容
第二章 时间序列数据挖掘研究及其应用
第一节 时间序列的分段与表示
一、基于时域的分段与表示
二、基于变换域的分段与表示
三、其他方法
第二节 时间序列的相似性度量
一、欧式距离
二、动态时间弯曲距离
三、其他方法
第三节 时间序列的关联规则挖掘
一、关联分析概述
二、时态关联规则挖掘
三、动态关联规则挖掘
第四节 时间序列的聚类分析
一、时间序列的模式发现与聚类
二、数据流聚类
第五节 时间序列挖掘在金融行业的应用
第三章 金融时间序列的分段与表示
第一节 时间序列的分段与表示方法
第二节 金融时间序列的特性
第三节 基于重要极值点特征的分段表示法
一、绝对极值点分段表示法
二、均匀极值点分段表示法
三、多层次极值点分段表示法
四、距离的度量
第四节 三种极值点分段法的实验对比与分析
一、实验对比方案与框架
二、实验结果分析与评价
第五节 本章小结
第四章 金融时间序列的相似性度量
第一节 时间序列的相似性度量方法
一、欧式距离
二、动态时间弯曲距离
三、最长公共子串
第二节 分层的动态时间弯曲相似性度量方法
一、分层动态时间弯曲相似性度量(HDTW)算法的主要思想
二、分层动态时间弯曲相似性度量(HDTW)算法的具体描述
三、DTW算法与HDTW算法的实验对比与分析
第三节 改进的分层动态时间弯曲相似性度量方法
一、对HDTW算法改进的主要思想
二、对HTDW算法的具体改进方法
三、改进的HTDW算法(IHDTW)的具体描述
四、HTDW算法与IHDTW算法的实验对比与分析
第四节 基于事件的时间序列相似性度量方法
一、相关定义
二、基于事件的时间序列相似性度量(SMBE)算法的具体描述
三、DTW算法与SMBE算法的实验对比与分析
第五节 本章小结
第五章 金融时间序列的关联规则分析
第一节 关联规则的基本知识
一、关联规则的基本概念
二、时间序列关联规则分析
三、关联规则的方法
第二节 基于0-Aproiri算法的多元时间序列跨事务关联规则挖掘
一、0-Apriori算法的相关定义与具体描述
二、基于可变支持度的0-Apriori算法
三、0-Apriori算法在时间序列跨事务关联分析中的应用
四、0-Apriori算法与VSO-Apriori算法的实验对比与分析
第三节 基于滑动挖掘区间的动态关联规则挖掘算法
一、算法的主要思想与具体描述
二、在多元时间序列关联分析中的应用
三、SI-DARM算法和DSAT算法的实验对比与分析
第四节 本章小结
第六章 金融时间序列的聚类分析
第一节 聚类方法介绍
一、K均值聚类算法
二、层次聚类算法
三、基于SNN密度的聚类
第二节 基于改进的分层动态时间弯曲技术的聚类
一、基于IHDTW的聚类算法的主要思想
二、基于IHDTW的聚类算法的具体描述
三、基于IHDTW的聚类算法的实验分析与评价
第三节 基于事件相似性度量的层次聚类
一、基于SMBE的层次聚类算法的具体描述
二、基于SMBE的层次聚类算法的实验分析与评价
第四节 基于形态特征的数据流聚类
一、基于形态特征的数据流聚类算法的主要思想
二、初始化阶段
三、在线更新阶段
四、用户触发的聚类
五、实验分析与评价
第五节 本章小结
第七章 金融股票时间序列的预测
第一节 预测算法描述
一、股票时间序列的价格区间预测
二、股票时间序列的短期趋势预测
第二节 股票时间序列的预测实例
一、股票数据集
二、股票时间序列价格的预测
三、股票时间序列短期趋势的预测
第三节 股票时间序列的预测效果评价
第四节 本章小结
第八章 结论
参考文献
附录