正则表达式(regular expression)是一种匹配某种字符串模式的方法。 用这样的方法,可以从字符串中查找某种模式的出现位置, 替换某种模式,等等。 这样的技术可以用于文本数据的预处理, 比如用网络爬虫下载的大量网页文本数据。 R中支持perl语言格式的正则表达式, grep()和grepl()函数从字符串中查询某个模式, sub()和gsub()替换某模式。
grep()
grepl()
sub()
gsub()