# 文本选择器

文本选择器用于从选中元素以及元素内所有子元素中提取出文本,HTML 代码会被去除,只保留文本。文本选择器会忽略掉 <script><style> 标签内的文本,<br> 会被替换成换行字符,此外还可以对返回数据应用正则表达式(regex)。

# 正则表达式

文本选择器有一个正则表达式(regex)配置选项,通过它可以抽取文本选择器所提取文本中的部分内容,返回结果是完整匹配的字符串(即 group 0 ),如果你完全看不懂前面在说什么的话,可以访问 w3cschool (opens new window) 学习下正则表达式的相关知识。

几个栗子:

原始文本 正则表达式 提取结果
price: 14.99$ [0-9]+.[0-9]+ 14.99
id: H83JKDX4 [A-Z0-9]{8} H83JKDX4
date: 2014-08-20 [0-9]{4}-[0-9]{2}-[0-9]{2} 2014-08-20

# 用例

# 文章详情

新闻网站的文章详情页面包含标题、发布日期和作者,先使用一个链接选择器导航到每一篇文章的详情页面,然后用多个文本选择器分别提取标题、发布日期、作者和正文,不需要勾选多选,因为每一页只会提取出一条记录。

文本选择器抓取文章详情

# 商品列表

电商网站通常有一个商品列表页面,在单个页面中列出了多个商品的简要信息,抓取时需要用一个元素选择器选中每个商品的包裹元素,然后在包裹元素下创建多个文本选择器提取商品预览图、标题和价格等信息。

文本选择器抓取商品列表

# 文章评论

文章的评论区通常有展示多条评论,如果只需要抓取评论内容,可以使用文本选择器同时选中多条评论内容并勾选多选选项;如果需要提取其他评论相关的属性(比如评论人、评论时间等),请参考上面商品列表的例子。

文本选择器抓取文章评论