#软件介绍
#软件用途
#软件用法
1.在软件顶部文本框Ctrl+V粘贴网页地址
2.网页加载完成后,鼠标移动到需要提取的内容上面,此时该内容会出现一个红色边框
然后就会弹窗一个界面,该界面就是需要提取的内容的相关配置,比如元素的css选择器、预览、需要保存的字段名称(尽在excel中显示)、替换、、内容替换,内容前面或者后面要添加内容等等 这里需要注意个地方,就是有个列表元素,如果页面中有多个相似的元素,勾选该项,软件就会提取所有上一步中右键选中的相似元素,如果不需要提取所有相似元素,只需要提取右键设置的这个元素,则不需要勾选该项, 具体详细配置会在后面的功能介绍里面详细介绍
4.此时可以看到在软件下面的表格中会出现刚才设置的要采集的字段,点击右侧的的设置图标,可以重新打开字段设置配置
5.如果需要提取多个元素的内容,就按照的步骤右键设置就ok
6.设置完所有要提取的元素后,就可以点开始检测按钮,此时软件会提取所有内容
7.提取到所有内容后,就可以点导出数据,根据自己的需求导出txt、excel等文件类型
案例地址:http://www.nengliniu.com/1.html?id=
本案例所有内容都在一个页面,共70题,可以就一次提取到所有题目内容
8.如果需要提取的内容在很多页面,那就需要批量提取,至于怎么批量设置,会在软件模块功能里面详细介绍
#输入网址
1.在文本框按Ctrl+V可以粘贴网址(注意如果是自己手动输入需要加上http或者https)
2.粘贴网址后会自动加载网页,无需按键盘回车键
3.双击文本框可以选中全部内容
4.按键盘BackSpace或者delet键删除全部上一步选中内容
#设置字段
1.在需要提取的内容上鼠标右键(或者左键双击)就会自动弹出字段的配置信息
2.css选择器:这个是软件自动推断出的值,这个值就代表了该内容在网页的一个定位,不懂这个也无所谓,基本不需要自己设置
3.采集属性:如果是提取的文字内容,软件默认是innerText(该值代表提取文字内容),如果是图片,软件默认是src(该值代表提取图片的地址) 如果我们需要的提取的内容里面既有文字也有图片,可以手动把innerText修改为innerHTML(该值代表提取网页源代码,),此时导出文件类型建议为html类型
4.列表元素:默认勾选,勾选代表提取所以相似的元素内容,不勾选就只提取用户鼠标右键设置的字段的内容
5.预览:考虑到有些人对css选择器不熟悉,不知道右键设置的自动提取的到底是一个数据还是说多个数据,点击预览, 软件会在网页上红色框圈出到时候会提取到哪些元素内容,而且在文本框会显示数据条数以及数据内容,这样就可以一目了然了
6.字段名称:可以命名为自己需要的值,方便知道提取的是什么。当导出为excel文件时,该字段会作为字段名,别的文件类型不会出现
7.替换内容:第一个文本框为需要替换的内容,第二个文本框为替换后内容。软件默认的\s+为替换多个空格为空内容
8.前缀设置:在需要的提取的内容前面人为加上固定的内容,如果网页上提取的内容为123,我们需要的内容为能力牛123,那么前缀设置为能力牛就ok
9.后缀设置:通前缀设置一样,只不过是在提取内容后面加上固定内容
10.删除字段:如果我们不小心在网页右键或者双击了某个元素,可以通过该按钮来删除字段
11.关闭面板:关闭字段配置面板
#开始检测
#批量设置
1.无:代表不设置任何批量行为
2.滚动页面:通过自动滚动页面来提取更改内容,可以设置滚动距离来设置每次滚动的距离
3。点击按钮:通过点击分页按钮来自动提取更多内容,比如下一页按钮、加载更改按钮等,可以设置分页按钮选择器和按钮内容来确定要点击的按钮
4.刷新页面:通过自动刷新页面来提取内容,只需要设置间隔时间来设置刷新的频率
5.批量地址:可以在地址列表设置所有页面的地址
6.滚动距离:该项对应滚动页面行为,设置每次滚动条移动的距离
7.选择器:该项对应分页按钮的css选择,可以通过在分页按钮上右键来获取,然后复制到这个文本框,记得不要勾选列表元素,因为按钮只有一个
8.按钮内容:当通过上一个的选择器还无法定位到分页按钮时,就可以设置该项。比如按钮是下一页按钮,就可以输入‘下一页’ 使用该项时需要注意:假设我们通过右键获取分页按钮的选择器是:#page > div > a:nth-child(10) > a,那么我们可以只保留最后一个>后面的内容a(重要),再再按钮内容输入“下一页”,否则可能还是找不到分页按钮
9.地址列表:对应批量地址行为,输入多个网页地址
10.间隔时间:该项所有的页面行为都可以设置,1000代表1秒钟
11.重复次数:该项代表要执行多少次,0代表无限次,会一直执行页面行为
#清空所有
#停止检测
#导出数据
1.导出txt文件:导出为txt文本文件,该类型不会导出字段名称,只导出字段的真正内容
2.导出html文件:导出为html文件,当我们的内容有文字和图片混合内容时,就可以选择该类型,记得字段的属性设置为innerHTML
3.导出excel文件:导出为excel表格,会导出字段名称和字段的真正内容
4.复制到剪切板:复制到剪切板,可以复制到其他文件里面去
5添加行号:如果勾选,会在数据的前面自动添加数据对应的序号
6.保存位置:点击“选择路径”按钮可以设置保存位置
#折叠表格
#视频教程
如若视频无法观看,请移步:https://haokan.baidu.com/v?vid=5764320073690821662