OpenResty中正则模式匹配的2种方法详解
前言
本文介绍OpenResty的两种正则模式匹配。
首先需要说明的是,OpenResty套件中包含了两种语法:一种是主要基于FFIAPI实现的OpenResty语法,一种是类原生Lua脚本语言的语法。
在本文所介绍的内容中,对应以上两种语法的正则模式匹配分别是ngx.re.find和string.find。
这两种规则起到完全相同的作用:在subjectstring中搜索指定的模式的串,若找到匹配值就返回它的开始位置和结束位置的位数,否则返回两个nil空值。需要注意的是,当查找到模式时才会产生两个值,当例如只有一个变量时只会产生开始位置位数或一个nil空值。
即使你对Lua比较熟悉,也已不再建议使用string.find等Lua的正则语法。一是因为由于实现不同,Lua提供的正则表达式的性能相比ngx.re.*的表现要逊色不少,二是Lua的正则语法并不符合POSIX规范,而ngx.re.*则由标准POSIX规范进行实现,后者明显更具备通用性和现在意义。
还有一个很重要的原因,相比string.*的每次都需重新编译一遍,OpenResty提供的ngx.re.*规范能够在编译完成后对Pattern进行缓存(使用“o”参数),并且也能通过“j”参数启用JIT来进一步提升性能(需pcreJIT支持)。
string.find
虽说已经实在没什么要用string.find的必要(前浪死在沙滩上),不过我还是打算简单介绍下,因为我现在就是用的这个(原因我在后文会提到)。
--syntax from,to,err=string.find(s,pattern,start,[plain]) --context init_worker_by_lua*,set_by_lua*,rewrite_by_lua*,access_by_lua*,content_by_lua*,header_filter_by_lua*,body_filter_by_lua*,log_by_lua*,ngx.timer.\*,balancer_by_lua*,ssl_certificate_by_lua*,ssl_session_fetch_by_lua*,ssl_session_store_by_lua* --example string.find(ngx.var.http_user_agent,"360")
以上示例的作用就是包含有“360”的UA进行匹配,匹配命中时返回的值为匹配串的开始位置和结束位置的位数(从左往右)。举个例子,使用ngx.say对输出值进行显示,先完成以下代码:
--定义变量 var=string.find(ngx.var.http_user_agent,"360") --输出 ngx.say("var="..var)
把它放到Nginx网站的/example路径下:
location=/example{ access_by_lua_block{ var=string.find(ngx.var.http_user_agent,"360") ngx.say("var="..var) } }
然后使用curl测试响应:
#发个请求,顺便指定UA为360 curlexample.com-A"360" #返回响应会看到由ngx.sayecho回来的字符串 #这里匹配到的"360"字符串位于字首,位数是1 var=1
ngx.re.find
ngx.re.find规范的优势已经在上文介绍过了,这里介绍下它的基本语法(更多说明可以参看官方文档),以及要发挥它的优势(使用“o”参数缓存和使用pcreJIT)的所需要求。
--syntax from,to,err=ngx.re.find(subject,regex,options?,ctx?,nth?) --context init_worker_by_lua*,set_by_lua*,rewrite_by_lua*,access_by_lua*,content_by_lua*,header_filter_by_lua*,body_filter_by_lua*,log_by_lua*,ngx.timer.\*,balancer_by_lua*,ssl_certificate_by_lua*,ssl_session_fetch_by_lua*,ssl_session_store_by_lua* --example ngx.re.find(ngx.var.http_user_agent,"360","jo")
要使用ngx.re.*规范,并且要实现更高性能的话,需要满足三个条件:编译时使用–with-pcre-jit参数以启用pcreJIT支持;编译时需要lua-resty-core支持(直接使用OpenResty安装即可);以及使用Lua代码时,需要在init_by_lua段引入require'resty.core.regex'语句(引入lua-resty-coreAPI支持),并在构建代码时将使用"jo"参数作为你的习惯,这两个参数提供pcreJIT和PatternCache开关。正如上面example中所用的那样。
同样作为前面举例的实现,Lua代码变成了这样:
--定义变量 var=ngx.re.find(ngx.var.http_user_agent,"360","jo") --输出 ngx.say("var="..var)
我的坑
最后来解释下我为什么还在用string.find语法。原因比较尴尬,不是我不想用,而是我不能用。我使用了以下代码:
if(ngx.re.find(ngx.var.request_uri,"^/admin/","jo")~=nilorngx.re.find(ngx.var.request_uri,"^/tools/","jo")~=nil)then returnngx.exit(ngx.HTTP_CLOSE) end
然后我就发现,这个匹配坑我了,我把这段代码单独拿出来时访问/admin/xxx或/tools/xxx就会被拒,但是我一把它放进代码构筑后就形同虚设。当然我能肯定不是我其它代码的问题,因为换成string.find后就好了。
为了确认是不是正则写错的锅,我也做过以下测试:
if(ngx.var.request_uri=="/test1/")then if(ngx.re.find("/admin/test/","^/admin/","jo")~=nil)then ngx.say("1="..ngx.re.find("/admin/test/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test2/")then if(ngx.re.find("/admintest/","^/admin/","jo")~=nil)then ngx.say("2="..ngx.re.find("/admintest/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test3/")then if(ngx.re.find("/artic/","^/admin/","jo")~=nil)then ngx.say("3="..ngx.re.find("/artic/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test4/")then if(ngx.re.find("/artic","^/admin/","jo")~=nil)then ngx.say("4="..ngx.re.find("/artic","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test5/")then if(ngx.re.find("/offline/admin/","^/admin/","jo")~=nil)then ngx.say("5="..ngx.re.find("/offline/admin/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test6/")then if(ngx.re.find("/offline/","^/admin/","jo")~=nil)then ngx.say("6="..ngx.re.find("/offline/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test7/")then if(ngx.re.find("/admin/","^/admin/","jo")~=nil)then ngx.say("7="..ngx.re.find("/admin/","^/admin/","jo")) end elseif(ngx.var.request_uri=="/test8/")then if(ngx.re.find("/adm/in","^/admin/","jo")~=nil)then ngx.say("8="..ngx.re.find("/adm/in","^/admin/","jo")) end else if(ngx.var.request_uri=="/test9/")then if(ngx.re.find("/admin","^/admin/","jo")~=nil)then ngx.say("9="..ngx.re.find("/admin","^/admin/","jo")) end end end
测试结果却表明我的写法并没有错,根据echo的结果作出的判断是,^/admin/的确对/admin/xxx进行了唯一匹配。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对毛票票的支持。