Shell正则表达式学习笔记
正规表示法(或称为常规表示法)是透过一些特殊字符的排列,用以搜寻/取代/删除一列或多列文字字符串,简单的说,正规表示法就是用在字符串的处理上面的一项『表示式』。正规表示法并不是一个工具程序,而是一个字符串处理的标准依据,如果您想要以正规表示法的方式处理字符串,就得要使用支持正规表示法的工具程序才行,这类的工具程序很多,例如vi,sed,awk等等。
一、正则表达式是什么?
正则表达式是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。
二、正则表达式与通配符
1.正则表达式
用来在文件中匹配符合条件的字符串,正则表达式是“包含匹配”。grep、awk、sed等命令可以支持正则表达式。
2.正则表达式元字符
正则表达式是通过元字符来进行字符串匹配的,具体请参考:http://www.cnblogs.com/refine1017/p/5011522.html
3.通配符
用来匹配符合条件的文件名,通配符是“完全匹配”。ls、find、cp这些命令不支持正则表达式,所以只能使用shell自己的通配符来进行匹配了。
4.通配符包括
*匹配任意字符
?匹配任意一个字符
[]匹配中括号中的任意一个字符
三、cut命令
cut命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
1.常用参数
-b:以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了-n标志。
-c:以字符为单位进行分割。
-d:自定义分隔符,默认为制表符。
-f:与-d一起使用,指定显示哪个区域。
-n:取消分割多字节字符。仅和-b标志一起使用。
2.示例1:打印出用制表符分割的文件的某一行
[root@localhostshell]#catstudent.txt IDNameGenderMark 1mingF85 2zhangF70 3wangM75 4liM90 [root@localhostshell]#cut-f4student.txt Mark 85 70 75 90
3.示例2:打印csv文件的某一行
[root@localhostshell]#catstudent.csv ID,Name,Gender,Mark 1,ming,F,85 2,zhang,F,70 3,wang,M,75 4,li,M,90 [root@localhostshell]#cut-d","-f4student.csv Mark 85 70 75 90
4.示例3:打印一个字符串的第几个字符
[root@localhostshell]#echo"abcdef"|cut-c3 c
5.示例4:截取中文字符的某一个文字
[root@localhostshell]#echo"Shell编程"|cut-nb1 S [root@localhostshell]#echo"Shell编程"|cut-nb2 h [root@localhostshell]#echo"Shell编程"|cut-nb3 e [root@localhostshell]#echo"Shell编程"|cut-nb4 l [root@localhostshell]#echo"Shell编程"|cut-nb5 l [root@localhostshell]#echo"Shell编程"|cut-nb8 编 [root@localhostshell]#echo"Shell编程"|cut-nb11 程
四、printf命令
1.命令格式
printf '输出类型输出格式' 输出内容
2.输出类型
%ns:输出字符串。n代表输出几个字符,n省略则代表全部字符
%ni:输出整数。n是指输出几个数字,n省略代表所有数字
%m.nf:输出浮点数。m和n是数字,指代输出的整数位数和小数位数。如%8.2f则代表共输出8位数,其中2位是小树,6位是整数。
3.输出格式
\a:输出警告声音
\b:输出退格键(Backspace)
\f:清除屏幕
\n:换行
\r:回车(Enter)
\t:水平输出退格键
\v:垂直输出退格键
4.示例
[root@localhost~]#printf'%i%s%i%s%i\n'1"+"2"="3 1+2=3 [root@localhost~]#printf'%i-%i-%i%i:%i:%i\n'2015123215630 2015-12-321:56:30
五、awk命令
1.命令格式
awk'条件1{动作1}条件2{动作2}...'文件名
条件:一般使用关系表达式作为条件,如x>10
动作:格式化输出、流程控制语句
2.示例1:提取制表符分割的文件的某一行
[root@localhostshell]#catstudent.txt IDNameGenderMark 1mingF85 2zhangF70 3wangM75 4liM90 [root@localhostshell]#awk'{print$1"\t"$4}'student.txt IDMark 185 270 375 490
3.示例2:获取磁盘利用率
[root@localhostshell]#df-h FilesystemSizeUsedAvailUse%Mountedon /dev/sda218G2.4G14G15%/ /dev/sda1289M16M258M6%/boot tmpfs411M0411M0%/dev/shm [root@localhostshell]#df-h|grep"sda1"|awk'{print$5}' 6%
六、sed命令
sed是一种几乎包括在所有UNIX平台(包括Linux)的轻量级流编辑器。sed主要是用来将数据进行选取、替换、删除、新增的命令。
1.命令格式
sed[选项]'[动作]'文件名
2.选项
-n:一般sed命令会把所有数据都输出到屏幕,如果加入此选择,则只会把经过sed命令处理的行输出到屏幕。
-e:允许对输入数据应用多条sed命令编辑。
-i:用sed的修改结果直接修改读取数据的文件,而不是由屏幕输出。
3.动作
a:追加,在当前行后添加一行或多行
c:行替换,用c后面的字符串替换原数据行
i:插入,在当前行前插入一行或多行。
d:删除,删除指定的行
p:打印,输出指定的行
s:字符串替换,用一个字符串替换另一个字符串。格式为“行范围/s/旧字符串/新字符串/g”(和vim中的替换格式类似)
4.示例
[root@localhostshell]#catstudent.txt IDNameGenderMark 1mingF85 2zhangF70 3wangM75 4liM90#测试-n参数 [root@localhostshell]#sed-n'2p'student.txt 1mingF85#测试单行删除 [root@localhostshell]#sed'2d'student.txt IDNameGenderMark 2zhangF70 3wangM75 4liM90#测试多行删除 [root@localhostshell]#sed'2,4d'student.txt IDNameGenderMark 4liM90#测试追加 [root@localhostshell]#sed'2atestappend'student.txt IDNameGenderMark 1mingF85 testappend 2zhangF70 3wangM75 4liM90#测试插入 [root@localhostshell]#sed'2itestinsert'student.txt IDNameGenderMark testinsert 1mingF85 2zhangF70 3wangM75 4liM90#测试行替换 [root@localhostshell]#sed'2ctestreplace'student.txt IDNameGenderMark testreplace 2zhangF70 3wangM75 4liM90#测试内容替换 [root@localhostshell]#sed'2s/ming/replace/g'student.txt IDNameGenderMark 1replaceF85 2zhangF70 3wangM75 4liM90
下面看看简单的正则表达式的匹配范例,通过这些范例,相信可以比较熟练的掌握基本的正则表达式的使用:
HelloWorld 匹配任意一行任何位置上的10个字母:HelloWorld
^HelloWorld 匹配出现在行首的10个字母:HelloWorld
HelloWorld$ 匹配出现在行尾的10个字母:HelloWorld
^HelloWorld$ 匹配只包括这10个字母:HelloWorld的一行
[Hh]elloWorld 匹配HelloWorld或者helloworld
Hello.World 匹配含有Hello这5个字母,再加上任何一个字符,再加上world
Hello*World 匹配含有Hello这5个字母,再加上任意个字母,再加上world
在上面的例子中利用“.”或者“*”,可以匹配0个或者多个字符,但是如果要匹配的字符是一个范围,这时候就要用到“{}”,因为shell中的"{"和"}"有特殊含义,所以需要使用转移字符“\”,例如:
[kouyang@kouyang kouyang]# grep-n'o\{2\}' hello.txt
在hello.txt文件中找出出现两个连续的"o"的那一行
[kouyang@kouyangkouyang]#grep -n'go\{2,5\}g'hello.txt
在hello.txt文件中找到go后面出现2~5个"o"后面再紧接着一个"g"的单词的那一行