一键监控提取网页内容

#软件介绍

能力牛一键监控提取网页内容是一款可以批量提取网页内容的自动化软件,可以提取网页中的文字,图片等网页内容,用户只需要设置好需要监控的元素, 当元素内容改变时,软件就可以自动提取该元素的内容。然后可以把提取到的所有内容导出到txt、excel、html等文件格式

#软件用途

软件可以用来提取文章,图片,题库等

#软件用法

1.在软件顶部文本框Ctrl+V粘贴网页地址

2.网页加载完成后,鼠标移动到需要提取的内容上面,此时该内容会出现一个红色边框

然后就会弹窗一个界面,该界面就是需要提取的内容的相关配置,比如元素的css选择器、预览、需要保存的字段名称(尽在excel中显示)、替换、、内容替换,内容前面或者后面要添加内容等等 这里需要注意个地方,就是有个列表元素,如果页面中有多个相似的元素,勾选该项,软件就会提取所有上一步中右键选中的相似元素,如果不需要提取所有相似元素,只需要提取右键设置的这个元素,则不需要勾选该项, 具体详细配置会在后面的功能介绍里面详细介绍

4.此时可以看到在软件下面的表格中会出现刚才设置的要采集的字段,点击右侧的的设置图标,可以重新打开字段设置配置

5.如果需要提取多个元素的内容,就按照的步骤右键设置就ok

6.设置完所有要提取的元素后,就可以点开始检测按钮,此时软件会提取所有内容

7.提取到所有内容后,就可以点导出数据,根据自己的需求导出txt、excel等文件类型

案例地址:http://www.nengliniu.com/1.html?id=

本案例所有内容都在一个页面,共70题,可以就一次提取到所有题目内容

8.如果需要提取的内容在很多页面,那就需要批量提取,至于怎么批量设置,会在软件模块功能里面详细介绍

#输入网址

1.在文本框按Ctrl+V可以粘贴网址(注意如果是自己手动输入需要加上http或者https)

2.粘贴网址后会自动加载网页,无需按键盘回车键

3.双击文本框可以选中全部内容

4.按键盘BackSpace或者delet键删除全部上一步选中内容

#设置字段

1.在需要提取的内容上鼠标右键(或者左键双击)就会自动弹出字段的配置信息

2.css选择器:这个是软件自动推断出的值,这个值就代表了该内容在网页的一个定位,不懂这个也无所谓,基本不需要自己设置

3.采集属性:如果是提取的文字内容,软件默认是innerText(该值代表提取文字内容),如果是图片,软件默认是src(该值代表提取图片的地址) 如果我们需要的提取的内容里面既有文字也有图片,可以手动把innerText修改为innerHTML(该值代表提取网页源代码,),此时导出文件类型建议为html类型

4.列表元素:默认勾选,勾选代表提取所以相似的元素内容,不勾选就只提取用户鼠标右键设置的字段的内容

5.预览:考虑到有些人对css选择器不熟悉,不知道右键设置的自动提取的到底是一个数据还是说多个数据,点击预览, 软件会在网页上红色框圈出到时候会提取到哪些元素内容,而且在文本框会显示数据条数以及数据内容,这样就可以一目了然了

6.字段名称:可以命名为自己需要的值,方便知道提取的是什么。当导出为excel文件时,该字段会作为字段名,别的文件类型不会出现

7.替换内容:第一个文本框为需要替换的内容,第二个文本框为替换后内容。软件默认的\s+为替换多个空格为空内容

8.前缀设置:在需要的提取的内容前面人为加上固定的内容,如果网页上提取的内容为123,我们需要的内容为能力牛123,那么前缀设置为能力牛就ok

9.后缀设置:通前缀设置一样,只不过是在提取内容后面加上固定内容

10.删除字段:如果我们不小心在网页右键或者双击了某个元素,可以通过该按钮来删除字段

11.关闭面板:关闭字段配置面板

#开始检测

当设置好需要提取的字段后,点击开始检测按钮就可以提取字段对应的内容,该按钮点击后,意味这当网页内容发生 改变后,软件会自动检测新内容并自动提取,指导点击停止检测按钮才会停止监控内容的变化

#批量设置

1.无:代表不设置任何批量行为

2.滚动页面:通过自动滚动页面来提取更改内容,可以设置滚动距离来设置每次滚动的距离

3。点击按钮:通过点击分页按钮来自动提取更多内容,比如下一页按钮、加载更改按钮等,可以设置分页按钮选择器和按钮内容来确定要点击的按钮

4.刷新页面:通过自动刷新页面来提取内容,只需要设置间隔时间来设置刷新的频率

5.批量地址:可以在地址列表设置所有页面的地址

6.滚动距离:该项对应滚动页面行为,设置每次滚动条移动的距离

7.选择器:该项对应分页按钮的css选择,可以通过在分页按钮上右键来获取,然后复制到这个文本框,记得不要勾选列表元素,因为按钮只有一个

8.按钮内容:当通过上一个的选择器还无法定位到分页按钮时,就可以设置该项。比如按钮是下一页按钮,就可以输入‘下一页’ 使用该项时需要注意:假设我们通过右键获取分页按钮的选择器是:#page > div > a:nth-child(10) > a,那么我们可以只保留最后一个>后面的内容a(重要),再再按钮内容输入“下一页”,否则可能还是找不到分页按钮

9.地址列表:对应批量地址行为,输入多个网页地址

10.间隔时间:该项所有的页面行为都可以设置,1000代表1秒钟

11.重复次数:该项代表要执行多少次,0代表无限次,会一直执行页面行为

#清空所有

点击该按钮会清空所有提取到的内容,但是如果没有点击停止检测按钮,当检测到页面内容有更新时还会自动加载数据

#停止检测

点击该按钮,意味着软件不会再监控页面的变化和提取数据

#导出数据

1.导出txt文件:导出为txt文本文件,该类型不会导出字段名称,只导出字段的真正内容

2.导出html文件:导出为html文件,当我们的内容有文字和图片混合内容时,就可以选择该类型,记得字段的属性设置为innerHTML

3.导出excel文件:导出为excel表格,会导出字段名称和字段的真正内容

4.复制到剪切板:复制到剪切板,可以复制到其他文件里面去

5添加行号:如果勾选,会在数据的前面自动添加数据对应的序号

6.保存位置:点击“选择路径”按钮可以设置保存位置

#折叠表格

就是最右侧的折叠按钮,可以折叠或者展开表格数据,折叠后方便查看网页数据

#视频教程

如若视频无法观看,请移步:https://haokan.baidu.com/v?vid=5764320073690821662