因为对名人很感兴趣,我经常用百度查阅他们的资料。
渐渐地我发现,百度百科上绝大部分名人的资料都没有实效性,即有关名人的近况他们并没有及时更新。虽然近况一般都可以通过查阅新闻得知,但起码说明百度百科有一个缺陷。
所以我想编一个软件,让它对那些有关名人的新闻自动搜集并更新到百度百科上。以我目前的水平,还无法判断做这样一个软件的难度。但思考的了几天后,我发现了一个问题,这个程序必须会注明编译文段的来源,必要时还要付给对方稿酬。
那问题又有了。如果对于名人的同一件事情,一个人将它发表在一家杂志上,另一个也知道的人将它发表在另一家杂志上,而且内容略有不同,那计算机将如何处理呢,只采集其中一家会引来另一家可能的指责,而两家都采集则会造成内容的重复。做个问题好像可以通过判断相似度来解决。
若撇开版权的问题 单从新闻编译的角度来讲,将别人整段的新闻直接照搬过来显然是可笑而且不现实的,而计算机要如何整理茉段文章呢,才会让资料显得条理清晰,或者最起码的语句通顺。好像可以用谁在什么地方什么地点干了些什么事情这样最简单的语句结构去解决。但这样的资料无异于流水帐,让查阅者感到乏味无趣。
哦,太难了。记得李开复事后对他读博时有关语音识别系统的构想评价说,如果按照那篇论文的思路去想,一切会显得完美无缺,但若换一个角度,则会发现那个构想是不现实的,甚至可以说是漏洞百出。
不由地想起了比尔盖茨,还有他那造价高达一亿美元的未来之屋。据说未来之屋实现了信息化和自动化,其中很多系统都是比尔盖茨亲自设计的。嗯,不得不佩服那个家伙的脑袋是怎么长的,居然能够做那么多的人工智能系统。
但是,那个家伙已经过去了,而我们还在努力。“江山代有才人出,各领风骚数百年”,送给自己和千千万万学软件的同学们!