java读取html文件,并获取body中所有的标签及内容的案例
这里的获取的是html文件中body中的所有标签以及内容
packagecom.lmt.service.file; importjava.io.BufferedReader; importjava.io.File; importjava.io.FileInputStream; importjava.io.InputStreamReader; importjava.io.Reader; importorg.springframework.stereotype.Component; importcom.lmt.config.UrlConstants; @Component publicclassParseFile{ /** *解析html文件 *@paramfile *@return */ publicStringreadHtml(Filefile){ Stringbody=""; try{ FileInputStreamiStream=newFileInputStream(file); Readerreader=newInputStreamReader(iStream); BufferedReaderhtmlReader=newBufferedReader(reader); Stringline; booleanfound=false; while(!found&&(line=htmlReader.readLine())!=null){ if(line.toLowerCase().indexOf("的前面可能存在空格 found=true; } } found=false; while(!found&&(line=htmlReader.readLine())!=null){ if(line.toLowerCase().indexOf("元素,则分行进行替代 String[]splitLines=line.split("元素 *@return文件名 */ publicstaticStringextractFilename(StringhtmlLine){ intsrcIndex=htmlLine.toLowerCase().indexOf("src="); if(srcIndex==-1){//图片不存在,返回空字符串 return""; }else{ StringhtmlSrc=htmlLine.substring(srcIndex+4); charsplitChar='\"';//默认为双引号,但也有可能为单引号 if(htmlSrc.charAt(0)=='\''){ splitChar='\''; } String[]firstSplit=htmlSrc.split(String.valueOf(splitChar)); Stringpath=firstSplit[1];//第0位为空字符串 String[]secondSplit=path.split("[/\\\\]");//匹配正斜杠或反斜杠 returnsecondSplit[secondSplit.length-1]; } } }
补充知识:StandardEngine[Catalina].StandardHost[localhost].StandardContext[]
jar包没有正确导入
1、在buildpath中添加
2、如果这里不添加在编译的时你的jar包将不会被导入
3、如果依然没有成功请删除userjar包重新导入
以上这篇java读取html文件,并获取body中所有的标签及内容的案例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。