Quick Search
Categories
DPreview lastest news
- Just posted: Olympus OM-D E-M5 hands-on preview (and video)
- Sigma DP series reinvented as DP1M and DP2M with 15MPx3 sensor from SD1
- Sigma SD1 becomes SD1 Merrill and gains (much) keener price tag
- Cosina announces Nokton 17.5mm F0.95 lens for Micro Four Thirds
- Olympus announces OM-D E-M5 weather-sealed Micro Four Thirds camera
- Olympus adds 75mm F1.8, 60mm F2.8 Macro and flash to Micro Four Thirds lineup
- Olympus announces SZ-31MR iHS high-end compact superzoom
- Olympus announces TG-820 back-lit CMOS rugged camera
- Nikon D800 preview updated with side-by-side comparisons
- Pentax gets tough with Optio WG-2 and WG-2 GPS rugged cameras
- Pentax Ricoh shows off lenses in development for K, Q and 645 mounts at CP+
- Pentax adds tethered shooting to 645D medium-format DSLR
- Just Posted: Nikon D800 hands-on preview
- Canon renews full-frame lenses with 24-70mm F2.8 II and stabilized wide-angle primes
- Canon unveils ELPH 530 HS and ELPH 320 HS Wi-Fi touchscreen models
[转] 如何制作SUPERSITE资讯采集器
- 2010-02-02
- Categorized in: Other Entries
首先简单说一下制作采集器的基本原理和思路:
1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址(图4和5)”;
2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;(图4和5)
3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)
4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。
5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。
以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。
接下来介绍采集器的基本原理和步骤:
第一:打开后台的采集器,点击“添加新机器人”。(图1)

第二:填写基本设置:(图2)

这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采集网页的编码,并不是您站点的编码。这里切记!!
查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“<meta http-equiv="Content-Type" c />” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)

第三:列表页面采集设置:(图4)和(图5)


这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
采集页面的url地址有两种设置方法:手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。
采集内容的范围代替,采集文章的标题用[url]代替。
第四:内容页面采集设置:(图6)

这里需要设置的采集规则有:文章标题,文章来源(选填),文章作者(选填),文章内容,分页设置(选填)。文章标题用[subject]代替,文章来源用[from]代替,文章作者用[author]代替,文章内容用[message]代替,分页区域用[pagearea]代替,分页链接用[page]代替。
之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。
设置完毕之后点击提交,然后点击“开始采集”(图7)
![]()

图8是采集的过程

采集完毕之后点击“查看结果”(图9),如果您的采集规则正确,可以得到图10的页面,最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。

http://homepage.yesky.com/145/3057645.shtml
Latest Blogs
- Asus Z7S WS manual
- No Beep No Video
- How to configure APN for iphone OS4 to access internet using gophone sim card
- Give Your Old iPhone New Life With Prepaid Data and Minutes
- What to shoot in Sedona?
- How to set film base color
- Scan 6x6 with Vuescan and 9000ED
- Complete Olympus lenses for OM system
- 戏说乾隆主题歌-问情
- Fuji GF670