《数据分析概论》研究对象是社会科学的研究数据。数据分析可以赋予事实意义,好的数据分析能为所研究的社会现象提供合理的描述和解释。
本书旨在为定量研究数据分析的每一步提供统计学基础。作者讨论了数据搜集的意义、一元统计、对相关性的测量、显著性检验、简单和多元回归,并给出了大量的数学公式,使得读者能更好地理解这些内容。
《韦伯斯特大学辞典》(Websters New Collegiate Dictionary)把数据定义为一组事实。因此社会科学数据(经验观察)是关于人类行为世界的事实。与流行的看法相反,事实并不会自己说话。数据分析的任务是试图给这些事实赋予意义。我之所以说试图赋予意义是因为如果数据不好,它们就不能产生阐释,或者是一个虚假的阐释。假设数据很好,那么分析就能为所研究的社会现象提供一个合理的描述和解释。
数据分析涉及对统计工具的系统运用。我们如何能够获得这些工具并恰当的使用它们?为了有效学习分析技巧,我们需要从最简单的部分开始,以之作为构建更复杂技巧的基石。譬如,初学者经常犯的一个错误就是跳过基础知识,直接进入多元回归分析。为了学好多元回归,你必须首先扎实的掌握一元和二元统计知识。通过学习例如两个变量间的相关系数(皮尔森r系数),你就能熟悉相关、强度、线性、测量层次、推论和标准化等概念。这给理解二元回归提供了基础,二元回归有点难,但不是很难。一旦熟悉掌握了二元回归,扩展到多元回归就比较容易,读者对后者也会有更深的理解。
本书旨在为定量研究数据分析的每一步提供统计学基础。在简述数据搜集之后,作者讨论一元统计(测量集中趋势和离散)。之后又讲解了对相关的测量(皮尔森r、tau和lambda系数)和显著性检验,最后讨论了简单和多元回归。本书给出了必要的数学公式,但更注重平实的解释。同时,作者也利用图表来帮助阐释。贯穿全书的一个实用例子是基于一个大学生样本数据来探讨如何解释学业能力。
回到本丛书的标题社会科学定量方法应用,本书可以看作是其他著作的一本入门书。本丛书的其他著作都对本书讨论的主题进行了深入探讨。譬如,关于数据搜集可参阅Kalton的Introduction to Survey Sampling (No. 35), Jacob的Using Published Data (No. 42), Kiecolt & Nathan的Secondary Analysis of Survey Data (No. 53), Converse & Presser的Survey Questions (No. 63),以及Bourque & Clark的Processing Data (No. 85);关于一元统计可参阅Weisberg的Central Tendency and Variability (No. 83)和Gibbons的Nonparametric Statistics (No. 90);有关二元统计可参阅Reynolds的Analysis of Nominal Data (No. 7),Hildebrand, Laing, & Rosenthal的Analysis of Ordinal Data (No. 8),Liebetrau的Measures of Association (No. 32)和Gibbons的Nonparametic Measures of Association (No. 91);关于显著性检验可参阅Henkel的Tests of Significance (No. 4)和Mohr的Understanding Significance Testing (No. 73);关于回归可参阅Lewis-Beck的Applied Regression (No. 22),Berry & Feldman的Multiple Regression in Practice (No. 50),Jaccard, Turrisi, & Wan的Interaction Effects in Multiple Regression (No. 72),Fox的Regression Diagnostics (No. 79),Berry的Understanding Regression Assumptions (No. 92)和Hardy的Regression With Dummy Variables (No. 93)。