好资源导航 » 文章资讯 » java读取html文件,并获取body中所有的标签及内容的案例

java读取html文件,并获取body中所有的标签及内容的案例

2023-07-18 13:24:03 77

这里的获取的是html文件中body中的所有标签以及内容

packagecom.lmt.service.file;

importjava.io.BufferedReader;
importjava.io.File;
importjava.io.FileInputStream;
importjava.io.InputStreamReader;
importjava.io.Reader;

importorg.springframework.stereotype.Component;
importcom.lmt.config.UrlConstants;

@Component
publicclassParseFile{

/**
*解析html文件
*@paramfile
*@return
*/
publicStringreadHtml(Filefile){
Stringbody="";
try{
FileInputStreamiStream=newFileInputStream(file);
Readerreader=newInputStreamReader(iStream);
BufferedReaderhtmlReader=newBufferedReader(reader);

Stringline;
booleanfound=false;
while(!found&&(line=htmlReader.readLine())!=null){
if(line.toLowerCase().indexOf("的前面可能存在空格
found=true;
}
}

found=false;
while(!found&&(line=htmlReader.readLine())!=null){
if(line.toLowerCase().indexOf("元素，则分行进行替代
String[]splitLines=line.split("元素
*@return文件名
*/
publicstaticStringextractFilename(StringhtmlLine){
intsrcIndex=htmlLine.toLowerCase().indexOf("src=");
if(srcIndex==-1){//图片不存在，返回空字符串
return"";
}else{
StringhtmlSrc=htmlLine.substring(srcIndex+4);
charsplitChar='\"';//默认为双引号，但也有可能为单引号
if(htmlSrc.charAt(0)=='\''){
splitChar='\'';
}
String[]firstSplit=htmlSrc.split(String.valueOf(splitChar));
Stringpath=firstSplit[1];//第0位为空字符串
String[]secondSplit=path.split("[/\\\\]");//匹配正斜杠或反斜杠
returnsecondSplit[secondSplit.length-1];
}
}

}

补充知识：StandardEngine[Catalina].StandardHost[localhost].StandardContext[]

jar包没有正确导入

1、在buildpath中添加

2、如果这里不添加在编译的时你的jar包将不会被导入

3、如果依然没有成功请删除userjar包重新导入

以上这篇java读取html文件,并获取body中所有的标签及内容的案例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
514930285
czq8825@qq.com

java读取html文件,并获取body中所有的标签及内容的案例

热门推荐

随机推荐