在编写网络爬虫(spider)过程中遇到的各种难题(持续更新中)

    技术2022-05-20  47

    最近在写一个网络爬虫,参考书籍为《网络机器人java编程指南》,一本7,8年前的老书了,不过对于我这种菜鸟来说其中仍然包含着大量的知识。

    我从2011年2月24日开始动手写自己的spider,基本参照书上的程序来写,当然会删除一些太难理解或者很少用到的类,并对部分地方做一些优化。

    下面将开始记录我在编写spider过程中遇到的各种难题与困难。

    --------------------------------

    2月24日

    java的IO流问题。

    IO流分为inputstream/outputstream与reader/writer。前者是读取字节码,后者是读取字符码。

    简单说来,前者能够处理各种类型的数据,而后者在读取文字处理文本尤其是中文等语言方面有良好的性能。

    input/output流采用修饰结构。一般读取文件我们用的层次是:bufferedReader(bufferedInputStream(FileInputStream(InputStream)));

    IO流问题其实是一个难点,而且往往被忽略,要好好掌握。

     

    2月24日一共完成了3个最最基本的类:Attribute、AttributeList、Log。

    Attribute用来记录信息,类成员有name、value、delim。

    所有类函数都是Synchronized,这样给方法加锁避免两个线程同时访问产生Bug。

    AttributeList当然就是Attribute的队列咯。

    Log类用来做记录。这个类不是很重要,不赘述了。

    对了,忘记说了,尽管这个Log类不重要,但是它却体现了一种设计模式:单例模式。Log类的所有成员及方法都是静态的,因为Log类是唯一的,不能被实例化。而且Log类的构造函数是private的。这样可以防止其他类创建Log类实例。(这个设计模式还是挺重要的一part,大家有空一定要好好学啊~~~)

    -------------------------------

    2月25日

    动手写基础类。

    书中讲到访问https的问题。https可以简单的理解为http的安全版,拥有自己的编码机制对信息加密。这个地方我不太懂,这个涉及到其他两个类:SSL与Base64OutputStream。Base64是一种加密机制,一般的下载工具都会用到(比如迅雷等),SSL就不了解了。(唉,这个地方没学过,有空好好学一下~)

    爬虫涉及到的基础类包括了html与URL等的解析类,当然还有专门处理URL与html的类,这些也算是一个难点,先放着吧。。。(唉,技术不过硬造成的直接后果~~~)

    -------------------------------

    2月27日

    本来是想通过自底向上方法开发爬虫的,发现自己对这个爬虫的构造还是不够熟悉,思路不够清晰,今天换着自顶向下方法来搞这个小爬虫……

    分析一下整个爬虫的结构(庖丁解虫。。。)

    该爬虫的类应该分为几个类组:

    1.通用类组:基本用途,一开始可以忽略,包括Base64码的转换以及连接等用途;

    2.HTTP类组:主要负责向服务器发送HTTP请求,包括HTTP以及HTTPSocket类;

    3.解析类组:用于分析网页的HTML及cookies等;

    4.Spider类组:即核心类组,用一个线程池来管理各个线程。

    当然咯,做为一只强大的爬虫,必然是多线程的,这样才能够爬遍全球!那就先掌握以下多线程技术。

    我的爬虫使用线程池技术解决问题。一篇很好的关于线程池技术的文章:http://www.ibm.com/developerworks/cn/java/l-threadPool/

    从这篇文章我们可以了解到,这个爬虫包括几个部分:线程池管理器、工作线程、任务接口、任务队列。

    今天的经验:不要一开始就去追求细节,还是从框架入手先写一个最最简单的框架再一步步细化,迭代式开发总是没有错的!!!


    最新回复(0)