2 min read

Steem 和 R 语言:跟大鹏学 R 语言(8)懒人起手式

Links: steemit.com, cnsteem.com, busy.org, steemdb.com, steemd.com

前情回顾:

本文选自《学 R:零基础学习 R 语言》(研究出版社,大鹏、李怡著,2018)第二章,有改动。

2.2 计算:数据处理和作图

R把数据读入脑子后,就可以开始干活儿了。

我们先让R对数据画个图,看起来更直观(图 2.1):

plot(mydata2)

图 2.1: 多张小图一次完成(局部展示).

Bingo!多张小图一次完成!这就是事半功倍的效果。

    你想多懒就多懒,并不耽误高效率。

— Kevin Murphy, September 2003

这是任意两列的散点图。画的小图表示的是什么呢?比如从上数第2行第4列的小图,跟它排在同一行的文字是左边的Jan,这是小图的纵坐标标签;跟小图排在同一列的文字是下方的Mar,这是小图的横坐标标签。所以这个小图展示的是以3月的二氧化碳浓度x,1月份的二氧化碳浓度为y的散点图。其他小图可以类推。那么,第1列小图,展示的就是各月二氧化碳浓度的逐年变化。

这么复杂的图,简单一条指令就轻松做出来了。追求高效人士的利器!

思考 2.2 使用Excel或其他你常用的作图软件,如何做出图 2.1?

我们一般在读入数据文件后的第一件事就是plot()一下,对数据有个整体的感觉。第二件事,一般是用summary()看看这个文件的总结报告,这个函数我们在前面已经打过照面了:

summary(mydata2)
##        X             Jan             Feb       
##  Min.   :1959   Min.   :315.4   Min.   :316.3  
##  1st Qu.:1968   1st Qu.:323.1   1st Qu.:323.6  
##  Median :1978   Median :334.8   Median :335.2  
##  Mean   :1978   Mean   :336.4   Mean   :337.2  
##  3rd Qu.:1988   3rd Qu.:349.0   3rd Qu.:349.9  
##  Max.   :1997   Max.   :363.2   Max.   :364.1  
##       Mar             Apr             May       
##  Min.   :316.5   Min.   :317.6   Min.   :318.1  
##  1st Qu.:324.6   1st Qu.:325.7   1st Qu.:326.3  
##  Median :336.5   Median :337.6   Median :337.8  
##  Mean   :338.1   Mean   :339.3   Mean   :339.9  
##  3rd Qu.:350.6   3rd Qu.:352.1   3rd Qu.:352.9  
##  Max.   :364.6   Max.   :366.4   Max.   :366.8  
##       Jun             Jul             Aug       
##  Min.   :318.0   Min.   :316.4   Min.   :314.6  
##  1st Qu.:325.9   1st Qu.:324.9   1st Qu.:322.7  
##  Median :337.7   Median :336.4   Median :334.5  
##  Mean   :339.3   Mean   :337.9   Mean   :336.0  
##  3rd Qu.:352.3   3rd Qu.:350.8   3rd Qu.:349.1  
##  Max.   :365.7   Max.   :364.5   Max.   :362.6  
##       Sep             Oct             Nov       
##  Min.   :313.7   Min.   :313.2   Min.   :314.7  
##  1st Qu.:321.2   1st Qu.:320.9   1st Qu.:321.9  
##  Median :332.6   Median :332.4   Median :333.8  
##  Mean   :334.2   Mean   :334.2   Mean   :335.5  
##  3rd Qu.:347.4   3rd Qu.:347.4   3rd Qu.:348.8  
##  Max.   :360.2   Max.   :360.8   Max.   :362.5  
##       Dec       
##  Min.   :315.4  
##  1st Qu.:323.3  
##  Median :334.8  
##  Mean   :336.7  
##  3rd Qu.:350.0  
##  Max.   :364.3

得到的是每一列数据(也就是各年各月二氧化碳浓度)的最大值、最小值、中位数、平均值函数,顺便还附送了四分位数(1st Qu., 3rd Qu.)。什么是四分位数?试试猎狗。

    放狗去搜。

— 谢益辉