天嘛的作用是什么?
这个问题问得好像天哪是个什么东西,但它其实是一大堆东西的集合(在《R》里是作为因子而存在的) 首先,它是一个对数据执行统计分析的软件包; 其次,它也是一项用于绘制和数据挖掘的统计数据。 但是,天哪并不是一种图形用户界面(GUI),也不是一个命令行工具。虽然可以把它作为一个命令行工具使用,但是它的主要作用还是用来进行数据分析。 天哪最常用的功能是可以返回不同变量之间的相关系数矩阵。这些相关系数告诉我们可以从已有数据得到哪些重要的统计信息。
因为大多数软件包和语言都支持对矩阵的操作,因此这些相关的信息能够很方便地被传递给其他需要它们的程序或过程。比如,对于二阶相关系数的矩估计可以用以下公式表示为:
其中,P是样本大小,n-1是自由度,rxy是第x个和第y个体的相关系数,以及sxx是标准方差。上述公式的计算结果可以通过R语句实现: 这个简单示例需要说明几点:
第一,上面的代码输出了所有变量之间全部可能的双变量关联。如果要仅仅输出某个特定变量的多个变量间的关联,那么可以使用R语言中的filter()函数。比如说,下面这写语句展示了年龄和收入的双变量关联: 第二,上面代码使用了cor()函数的默认设定值,也就是基于整体样本计算相关的系数。如果希望对该函数进行调整,使得其基于每个类别单独计算相关系数,那么可以在调用该函数时添加上参数“by=c”,其中“c”是指分类变量。以学历为例,假设将人群分为四档,则相应的代码是: cor(height,weight,by=c(education)) 第三,如果希望更直观地查看相关系数,可以结合plot()函数画出相应的散点图。这里需要注意,plot()函数会根据相关系数的正负、大小来设置散点的颜色和形状,因此在观察散点图时需要特别留意这一点: plot(height,weight,main='Height and weight',sub='correlation')