HTML
HTML节点用于解析HTML内容并提取特定元素。
输入
- payload (string): 要解析的HTML字符串
输出
- payload (object|array): 提取的HTML元素内容
详细说明
HTML节点可以从HTML文档中提取特定的元素内容。它使用CSS选择器来定位要提取的元素。
配置选项
- 选择器: CSS选择器,用于指定要提取的HTML元素
- 输出: 选择输出格式
- 仅文本内容: 只输出元素的文本内容
- HTML元素: 输出完整的HTML元素
- 属性: 输出指定属性的值
CSS选择器示例
p
- 选择所有段落元素.class-name
- 选择具有特定类名的元素#element-id
- 选择具有特定ID的元素div > p
- 选择div元素的直接子段落元素a[href]
- 选择所有具有href属性的链接
示例
提取网页标题
javascript
// 输入消息
msg.payload = "<html><head><title>示例页面</title></head><body><h1>欢迎</h1></body></html>";
// 配置选择器: title
// 输出: 仅文本内容
// 输出消息
msg.payload = "示例页面";
提取所有链接
javascript
// 输入消息
msg.payload = '<div><a href="http://example.com">链接1</a><a href="http://test.com">链接2</a></div>';
// 配置选择器: a
// 输出: 属性 (href)
// 输出消息
msg.payload = ["http://example.com", "http://test.com"];
提取表格数据
javascript
// 输入消息
msg.payload = '<table><tr><td>姓名</td><td>年龄</td></tr><tr><td>张三</td><td>25</td></tr></table>';
// 配置选择器: td
// 输出: 仅文本内容
// 输出消息
msg.payload = ["姓名", "年龄", "张三", "25"];
应用场景
- 网页数据抓取: 从网页中提取特定信息
- HTML内容解析: 处理HTML格式的数据
- 数据清洗: 从HTML中提取纯文本内容
- 链接提取: 获取页面中的所有链接地址
注意事项
- 输入必须是有效的HTML字符串
- CSS选择器语法需要正确
- 如果没有匹配的元素,输出将为空数组
- 对于大型HTML文档,解析可能需要一些时间