C ++中的HTML实体解析器
假设我们有一个字符串;我们必须设计一个HTML解析器,它将HTML语法的特殊字符替换为普通字符。HTML实体解析器是将HTML代码作为输入并将特殊字符的所有实体替换为字符本身的解析器。这些是HTML的特殊字符及其实体-
引号-实体为“,符号字符为”。
单引号-实体为',符号字符为'。
&符-实体为&,符号字符为&。
大于符号-实体为>,符号字符为>。
小于符号-实体为<,符号字符为<。
斜线-实体为⁄,符号字符为/。
因此,如果输入就像“&已更改,但&ambassador;未更改。”,则输出将为“&已更改但&ambassador;未更改”。
为了解决这个问题,我们将遵循以下步骤-
定义数组v=通过使用空格分割字符串来初始化v
ret:=空字符串
定义一个映射m,它将所有HTML符号作为键,并将相应的特殊字符作为值
对于初始化i:=0,当i<v的大小时,更新(将i增加1),执行-
ret:=ret串联空白
ret:=ret串联温度
ret:=ret连接m[temp]
如果v[i,k]与'&'相同,则-
除此以外
ret:=ret+温度
ret:=ret+m[temp]
温度:=温度+v[i,k]
(将k增加1)
温度:=温度+v[i,k]
(将k增加1)
而(k<n和v[i,k]不等于';'),则执行-
温度:=温度+v[i,k]
(将k增加1)
如果temp是m的成员,则-
除此以外
temp:=空字符串
ret:=ret+v[i,k]
(将k增加1)
s:=v[i]
temp:=空字符串
n:=v[i]的大小
k:=0
当k<n时,-
如果temp的大小不为0并且temp是m的成员,则-
否则,当temp大小时,则-
如果我不等于v的大小,则-
返回ret
例
让我们看下面的实现以更好地理解-
#include <bits/stdc++.h>
using namespace std;
class Solution {
public:
vector <string> split(string& s, char delimiter){
vector <string> tokens;
string token;
istringstream tokenStream(s);
while(getline(tokenStream, token, delimiter)){
tokens.push_back(token);
}
return tokens;
}
void out(vector <string> v){
for(string s : v) cout << s << endl;
}
string entityParser(string text) {
vector<string> v = split(text, ' ');
string ret = "";
map<string, string> m;
m["""] = "\"";
m["'"] = "\'";
m["&"] = "&";
m[">"] = ">";
m["<"] = "<";
m["⁄"] = "/";
for (int i = 0; i < v.size(); i++) {
string s = v[i];
string temp = "";
int n = v[i].size();
int k = 0;
while (k < n) {
if (v[i][k] == '&') {
temp += v[i][k];
k++;
while (k < n && v[i][k] != ';') {
temp += v[i][k];
k++;
}
temp += v[i][k];
k++;
if (m.count(temp))
ret += m[temp];
else
ret += temp;
temp = "";
}
else {
ret += v[i][k];
k++;
}
}
if (temp.size() && m.count(temp)) {
ret += m[temp];
}
else if (temp.size())
ret += temp;
if (i != v.size() - 1)
ret += " ";
}
return ret;
}
};
main(){
Solution ob;
cout << (ob.entityParser("& is changed but &ambassador; is not."));
}输入值
"& is changed but &ambassador; is not."
输出结果
& is changed but &ambassador; is not.