heritrix下载及配置

    技术2022-05-13  7

    一、下载:到www.sourceforge.net网站搜索heritrix,然后分别下载下来heritrix-1.14.0-RC1.zip,heritrix-1.14.0-RC1-src.zip

    二、配置

         .在非开发环境下配置的步骤

            1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件夹命名为heritrix

            2.进入c:/heritrix/conf复制文件jmxremote.password.templatec:/heritrix下并把文件重新命名为jmxremote.password

              然后修改其内容为下:

               monitorRole  @123456789@ ->monitorRole admin (@@之间设置的是密码,后面是->用户角色用户名)

               controlRole  @123456789@ ->controlRole shi 

              并设置文件jmxremote.password的属性为只读

            3.进入c:/heritrix/conf打开文件heritrix.properties,修改其中的几项key-value

              heritrix.cmdline.admin = admin:770629 (用户名:密码)

              heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)

            4.打开cmd,切换目录到c:/heritrix/bin

              然后敲入命令:heritrix --admin=admin:123456789

     

          .eclipe中配置并启动的步骤 

           1.首先解压heritrix-1.14.0-RC1.zip得到heritrix-1.14.0-RC1.jar,然后解压jar包,再解压heritrix-1.14.0-RC1-src.zip

            2.我把两个解压后的jar文件和heritrix-1.14.0-RC1-src.zip分别放在了E:/MyWork/heritrix/heritrix-1.14-jar目录下和

                    E:/MyWork/libs/heritrix/heritrix-1.14.0-RC1-src/heritrix-1.14.0-RC1目录下

            3.创建一个动态Web工程

            4. E:/MyWork/heritrix/heritrix-1.14.0-RC1/lib目录下的所有jar文件导入工程,并且复制到工程下面的

                WebContent/WEB_INF下面,工程会自动把这些jar放在Web App Libraries里面

            5.E:/MyWork/libs/heritrix/heritrix-1.14.0-RC1-src/heritrix-1.14.0-RC1/src/java下的com,org,st这三个目录都拷贝到

             工程src下面

            6. E:/MyWork/heritrix/heritrix-1.14-jar下的modulesarcMetaheaderBody.xslheritrix.properties,其修该内容是:

                 heritrix.cmdline.admin = admin:770629 (用户名:密码)

                 heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)

                 然后将其拷贝到工程src下面

            7. E:/MyWork/libs/heritrix/heritrix-1.14.0-RC1-src/heritrix-1.14.0-RC1/src下的webapps拷贝到工程目录下面

            8.在工程下面新建一个jobs文件夹,heritrix抓取的内容默认是放在该文件夹下面

            9.现在就可以运行主类Heritrix.java了,然后就可以以web的形式访问服务器了:http://localhost:8080/登录就ok

    1.登录界面:

     

    2.登录后你会看到这个界面:

     

    3.下面开始建立一个简单的抓取测试点击Jobs进入新建job界面

     

     

     

    4点击defaul建立一个缺省抓取

     

    5.点击Modules进行参数设置

     

     

    除了以上两个组件外,还有五个队列要配置,这5个队列依次heritrix的处理器链


    最新回复(0)