Skip to content

HTML

HTML节点用于解析HTML内容并提取特定元素。

输入

  • payload (string): 要解析的HTML字符串

输出

  • payload (object|array): 提取的HTML元素内容

详细说明

HTML节点可以从HTML文档中提取特定的元素内容。它使用CSS选择器来定位要提取的元素。

配置选项

  • 选择器: CSS选择器,用于指定要提取的HTML元素
  • 输出: 选择输出格式
    • 仅文本内容: 只输出元素的文本内容
    • HTML元素: 输出完整的HTML元素
    • 属性: 输出指定属性的值

CSS选择器示例

  • p - 选择所有段落元素
  • .class-name - 选择具有特定类名的元素
  • #element-id - 选择具有特定ID的元素
  • div > p - 选择div元素的直接子段落元素
  • a[href] - 选择所有具有href属性的链接

示例

提取网页标题

javascript
// 输入消息
msg.payload = "<html><head><title>示例页面</title></head><body><h1>欢迎</h1></body></html>";

// 配置选择器: title
// 输出: 仅文本内容

// 输出消息
msg.payload = "示例页面";

提取所有链接

javascript
// 输入消息
msg.payload = '<div><a href="http://example.com">链接1</a><a href="http://test.com">链接2</a></div>';

// 配置选择器: a
// 输出: 属性 (href)

// 输出消息
msg.payload = ["http://example.com", "http://test.com"];

提取表格数据

javascript
// 输入消息
msg.payload = '<table><tr><td>姓名</td><td>年龄</td></tr><tr><td>张三</td><td>25</td></tr></table>';

// 配置选择器: td
// 输出: 仅文本内容

// 输出消息
msg.payload = ["姓名", "年龄", "张三", "25"];

应用场景

  • 网页数据抓取: 从网页中提取特定信息
  • HTML内容解析: 处理HTML格式的数据
  • 数据清洗: 从HTML中提取纯文本内容
  • 链接提取: 获取页面中的所有链接地址

注意事项

  • 输入必须是有效的HTML字符串
  • CSS选择器语法需要正确
  • 如果没有匹配的元素,输出将为空数组
  • 对于大型HTML文档,解析可能需要一些时间

蜀ICP备2025139593号