织梦、帝国及PHPCMS对比(11):采集功能

[复制链接]
1561 0
djyuzi 发表于 2017-5-28 10:35:31 | 只看该作者 |阅读模式 打印 上一主题 下一主题
  提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?
  本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。
  我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。
  1.采集设置流程:
  整体体验:
  PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。帝国CMS  中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。
  其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。
  网址采集:
  PHPCMS网址采集通过列表页分页通配符实现列表页网址批量添加,然后设置所需采集的网址区域,很多时候,对不熟悉HTML采集规则查找技巧的朋友可以通过直接设置“网址中必须包含”和“网址中不得包含”这两项来实现内容页网址的采集。DEDECMS也用*作分页通配符,不过DEDE中的优点在于可以启用多栏目通配规则,针对不同的栏目页批量设置采集规则,这样可以方便对有相同URL规则的多个栏目同时采集。帝国中则也只是一般的以为通配符的多分页获取,相对表现平平。
织梦、帝国及PHPCMS对比(11):采集功能,三色源码网   PHPCMS中提供通过填写COOKIES信息对需要登陆的网站的采集,不过只对深度用户有用,一般用不着,DEDECMS中则提供了防盗链模式的设置,通过填入目标站内容页地址,采集时伪造来源来达到破解简单防盗链采集的目的,这点还是挺不错的。帝国CMS对相对路径的处理提供了填写“内容页地址前辍”的字段,但其实本应该做到URL自动扩充补全的。
  内容规则的设置:
  内容页规则的设置一般是针对每个字段提供设置匹配规则,同时进行一些格式过滤和信息替换。对比三款CMS,PHPCMS中的字段设置更人性化些,很清晰的实现了匹配信息的提取、信息替换、格式过滤的功能,而DEDECMS和帝国CMS中都直接一个textarea给出,让用户填写正则内容,体验上稍差些。DEDECMS中也以弹出窗口的方式给出了常用格式的过滤的勾选框,直接勾选可以生成过滤规则,表现方式不够明显,不适合新手使用,帝国则似乎完全是针对正则高手的,而实际用帝国的新手用户居多,我很为帝国担心,“有人用他的采集功能么?”
织梦、帝国及PHPCMS对比(11):采集功能,三色源码网   2. 采集稳定性与效率:
  采集效率受限于服务器本身及网络环境,各CMS在技术上的差异不大,而稳定性则处决于采集流程及出错处理。这块PHPCMS的优势很明显,支持多线程采集,并以进展条方式展示,在采集中断时可刷新界面断点续采,效率和稳定性个人觉得挺不错。对已采集过的网址记录方式也仿照火车头的方式进行记录,防止重复采集。
织梦、帝国及PHPCMS对比(11):采集功能,三色源码网   DEDE则仍体现在他的细致上,每一步做过很多细节提示,优点的可以清楚知道怎样操作,缺点是太多需要让我思考的地方,帝国CMS似乎对得重复采集未作判断,即使刷新或后退都存在得复采集的情况。
  3. 采集完入库:
  帝国CMS在采集设置流程中即设置好了所采集的信息所对应入库的栏目,采集过程字段设置也完全与栏目的字段匹配,PHPCMS在采集前设置好了对应的栏目,但各字段并没有绑定,在采集完进行发布时,可以重新选择字段的对应关系,并可对一些字段如关键词、摘要、缩略图、时间等在发布时自动使用函数处理后填充。DEDECMS中在采集时未绑定栏目,发布时选择栏目导入,比较方便,但不支持字段选择。总体,落叶个人还是偏向于PHPCMS的地导入方式。
织梦、帝国及PHPCMS对比(11):采集功能,三色源码网   系列文章:
        织梦、帝国及PHPCMS对比(1):自定义模型功能分析
        织梦、帝国及PHPCMS对比(2):支持SQL调用的标签
        织梦、帝国及PHPCMS对比(3):自定义URL规则
        织梦、帝国及PHPCMS对比(4):碎片功能分析
        织梦、帝国及PHPCMS对比(5):标签解析方式分析
        织梦、帝国及PHPCMS对比(6):专题功能对比分析
        织梦、帝国及PHPCMS对比(7):自定义表单功能分析
       织梦、帝国及PHPCMS对比(8):SEO辅助功能及个性化调用分析
        织梦、帝国及PHPCMS对比(9):关联类别属性
        织梦、帝国及PHPCMS对比(10):推荐位功能
温馨提示:资源转载网络个人收藏,如有侵权或下载链接失效或密码不对请联系站长

1、在论坛里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、论坛的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,论坛均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,论坛不负任何责任。
5、注册会员通过任何手段和方法针对论坛进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。
收藏
收藏0
回复

使用道具 举报

*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

专注源码资源免费分享
只要有下载币全站均可下

私人收藏网站非买卖网站

周一至周日9:00-23:00

反馈建议

282865654@qq.com 在线QQ咨询

赞助我们享尊贵分享

Powered by X3.3© 2019-2029 3se.cc Inc.( 京ICP备14050279号-2