对于保存在文本文件中的电子表格数据, R可以用read.csv()
, read.table()
, read.delim()
, read.fwf()
等函数读入, 但是建议在readr包的支持下用read_csv()
, read_table2()
, read_delim()
, read_fwf()
等函数读入, 这些将读入的数据框保存为tibble类型, tibble是数据框的一个变种, 改善了数据框的一些不适当的设计。 readr的读入速度比基本R软件的read.csv()
等函数的速度快得多, 速度可以相差十倍, 也不自动将字符型列转换成因子, 不自动修改变量名为合法变量名, 不设置行名。
对于中小规模的数据, CSV格式作为文件交换格式比较合适, 兼容性强, 各种数据管理软件与统计软件都可以很容易地读入和生成这样格式的文件, 但是特别大型的数据读入效率很低。
CSV格式的文件用逗号分隔开同一行的数据项, 一般第一行是各列的列名(变量名)。 对于数值型数据, 只要表示成数值常量形式即可。 对于字符型数据, 可以用双撇号包围起来, 也可以不用撇号包围。 但是, 如果数据项本身包含逗号, 就需要用双撇号包围。 例如,下面是一个名为testcsv.csv
的文件内容, 其中演示了内容中有逗号、有双撇号的情况。