网页辅助

XPath2Doc(网站数据采集工具) V1.0.0.0 官方版
  • XPath2Doc(网站数据采集工具) V1.0.0.0 官方版

  • 类别:网页辅助系统: WinAll
  • 大小:14.66M时间:2019-06-24 13:39:46

应用简介

  XPath2Doc 是一个半自动采集网页生成Word docx文件的工具,带企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登录,并找到需要的数据页面,然后点击程序按钮进行采集,所以是个半自动的网页数据填充Docx工具。

XPath2Doc

【工作原理】

  网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过XPath语句得到网页元素中的文本。

  XPath语句的获取办法:

  通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的XPath语句。

  这里需要说明一点:如果拷贝出来的XPath语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。

【配置说明】

  1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。

  General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。

  自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。

  2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)

  需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。

XPath2Doc

【使用方法】

  启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。

  如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。

  列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。

  如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。

  需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。

展开 收起

相关文章

猜你喜欢

热门专题

热门推荐

  • Via浏览器 V6.0.0 安卓版

    Via浏览器 V6.0.0 安卓版

  • 360浏览器APP V10.1.5.750 安卓官方版

    360浏览器APP V10.1.5.750 安卓官方版

  • 夸克2024版本 V7.4.6.681 安卓版

    夸克2024版本 V7.4.6.681 安卓版

  • 夸克浏览器 V7.4.6.681 安卓官方版

    夸克浏览器 V7.4.6.681 安卓官方版

  • 悟空浏览器手机版 V12.6.1 安卓版

    悟空浏览器手机版 V12.6.1 安卓版

  • QQ浏览器手机版 V15.6.7.7030 安卓最新版

    QQ浏览器手机版 V15.6.7.7030 安卓最新版

  • ES文件浏览器 V4.4.2.17 安卓版

    ES文件浏览器 V4.4.2.17 安卓版

  • Microsoft Edge手机版 V130.0.2849.68 最新版

    Microsoft Edge手机版 V130.0.2849.68 最新版

  • UC浏览器手机版 V17.1.8.1349 安卓最新版

    UC浏览器手机版 V17.1.8.1349 安卓最新版

  • 百度手机版 V13.72.0.10 安卓最新版

    百度手机版 V13.72.0.10 安卓最新版

  • 360极速浏览器APP V3.5.4.400 安卓版

    360极速浏览器APP V3.5.4.400 安卓版

  • 欧朋浏览器APP V12.96.0.1 安卓最新版

    欧朋浏览器APP V12.96.0.1 安卓最新版

推荐排名

  • 视频下载神器 V1.0.7 官方版 183K2.8万人在用 视频下载神器是一款可以帮助用户下载网页视频的工具,该软件能够提取优酷、爱奇艺、搜狐、乐视等主流视频网站的音乐、视频地址,并能在获取之后轻松下载提取出的视频、MP3或Flash媒体文件,无需会员也能够免费观看VIP视频。

    详情
  • baidudl插件(百度网盘限速解除插件) V1.3.5 官方版 409K1.1万人在用 baidudl插件是一款可以帮助用户破解百度网盘限速的工具,使用者可以在插件窗口中自动获取页面中所有文件的下载链接,并且由该插件生成的文件下载链接不受百度网盘的下载限制,

    详情
  • 美编助手 V2.6.2 官方版 4.24M5千人在用 美编助手官方版是一款专业的公众号运营管理软件,能够帮助用户轻松经营管理自己的公众号,为用户的公众号运营工作提供了便利。

    详情
  • Proxy SwitchyOmega V2.3.16 官方版 759K5千人在用 Proxy SwitchyOmega是一款专门针对Chrome浏览器的辅助插件,它可以帮助用户可以让你方便的浏览国外的网站,不需要一直切换代理,能够自动帮你把设置好的代理进行合适的切换。

    详情
  • 百度网盘秒传链接提取插件 V2.4.5 油猴版 18K3千人在用 秒传链接提取插件用于提取百度网盘秒传链接,能够将度盘秒传链接批量提取过来保存到你的网盘中,插件使用了仓库用度盘投稿助手中的秒传链接代码,有需要的可以下载来使用。

    详情
  • 风越网页批量填表工具 V5.2.0 绿色免费版 5.66M1千人在用 风越网页自动填表破解版是一款可以帮助用户进行网页批量填表的工具,用户只需要调用自己设置的填表规则即可在网页中自动进行填写表单、点击网页元素、抓取网页文本内容或是下载指定的网页链接文件等功能。

    详情
  • 万能cookie提取工具 V1.0 免费版 2.08M2千人在用 万能cookie提取工具是款功能非常强大的网页cookies数据提取工具。他可以帮助用户将网页中记录的各种信息采集提取出来,有喜欢的用户不要错过了。

    详情
  • BT之家专用网址查询工具 V1.2 绿色版 391K1千人在用 BT之家专用网址查询工具是款功能强大的网址查询工具。它可以帮助用户快速搜索BT之家的有效网址,让大家再也不用担心因为找不到网址而发愁了。软件界面简洁,操作简单,方便快捷,非常好用。

    详情

网友评论