简数采集器是新一代的网站文章采集和发布平台,完全在线配置和使用云采集,功能强大,操作简单,配置快捷高效。
简数不仅提供网页文章采集、数据批量处理、定时采集、定时定量自动发布等基本功能,还集成强大的SEO工具与接入多家原创AI,并创新实现了采集规则智能生成引擎特色功能:只需输入网址,系统自动完成采集规则配置,大幅提升了采集配置和发布效率。
采集简单,发布也很轻松:支持一键发布到WorpPress、帝国、织梦、ZBlog、Discuz、Destoon、Typecho、Emlog、Mipcms、米拓、易优CMS、苹果CMS、PHPCMS、PbootCMS和迅睿等CMS网站系统,还可以发布到自定义Http接口,基本所有网站都能发布!
下面详细介绍一下使用简数进行文章采集,原创AI处理并发布的网站的方法。
详细使用步骤:
第一步:创建采集任务
第二步:完善列表页的智能抽取结果
第三步:完善详情页的智能抽取结果
第四步:启动运行
第五步:接入AI原创API
第六步:数据发布到网站
第一步:创建采集任务
左侧菜单 “创建采集任务” ,输入任务名和要采集的 “列表页” 网址,详情页链接非必填,系统会自动识别。
输入后点击 “下一步”。
第二步:完善列表页的智能抽取结果
系统会先采用智能算法获取列表页中的详情页链接(多个),用户可以双击打开检查,如果非所需链接,可以打开 “列表提取器” 自定义修改,只需要在可视化界面上用鼠标点选。
智能获取结果如下图:
补充:列表页采集页数,在完成任务配置后的 “基本信息&入口网址” --》“采集起始网址” 中进行配置。
列表提取器可视化操作界面 如下图所示:
第三步:完善详情页的智能抽取结果
获取了多个详情页链接后,系统会使用首个详情页链接为模板进行智能抽取主要数据内容(如:标题,作者,发布日期,内容,标签等)
详情页智能抽取结果如下:
如果智能抽取的内容非所需的,可打开 "详情提取器" 自定义修改。如下图:
可以对左侧的各字段进行修改、增加和删除等。
还可以对每个字段进行数据处理:替换,提取,过滤,设置默认值等等,如下图:
第四步:启动采集
采集规则配置完成后,即可启动运行,进行数据采集了:
采集后的数据结果,在该采集任务的“结果数据&发布”里面,您可以在这里对数据进行修改或者直接导出excel或发布你的网站(WordPress,Zblog,HTTP接口,数据库等)。
第五步:接入AI原创API
简数采集器支持调用第三方AI原创API接口,分析处理采集数据内容。
目前支持的第三方API接入:
- DeepSeek
- 豆包
- 文心一言
- Kimi
- 通义千问
- 星火、智谱和混元等
第六步:数据发布到网站
采集结果数据可以发布到:各种CMS系统(WordPress,织梦,帝国,zblog,Destoon,Discuz,Typecho,Emlog,Mipcms,苹果cms,Phpcms,易优cms,米拓cms,云优cms,Phpwind,PbootCMS等)、自定义http接口等。
数据导出格式目前支持Excel、Word、Json、Sql、CSV、TXT、Html等格式。
发布到CMS主要三个步骤:
一、在用户网站安装发布插件(插件市场安装或复制文件到目录即可)
二、在简数控制台任务的“发布目标配置”项中添加发布目标
三、在任务的“结果数据&发布”列表中对数据进行发布
完成,数据采集+原创处理+发布到网站就这么简单!!!