第43章 搜索引擎(1 / 2)

回到1997造芯片 牧狼童 2427 字 2022-07-28

搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。

搜索引擎这门生意讲究的是个先来后到。如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。

要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。

现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。

实际上做一个搜索引擎并没有看上去那么轻松。首先是代码问题,()的时代,先暂且不提ajax(asynchronojavascriptandxl,异步javascript和xl)这种动态页面刷新机制,就连javascript(一种eb页面脚本语言)都还尚未出现。

接下来就是数据的爬取和存储问题。这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。

将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。

再接下来便是数据的存储问题。ysql(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。&29233&30475&200703333&68&100

索引可以给一条数据给予定义。举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书名和作者姓名。

这个书名和作者姓名,就是一本书的“索引”,当你想要找一本书的时候,显然不可能将每本书都打开细细查阅一番,这无疑是在浪费时间。而通过书名和作者名,你可以轻松地找到自己想要的那本书。

假设一本书是一条数据,那么通过索引功能,便可以轻松地将它从数据库中调取出来,而不必辛苦地逐行逐字分析书本的内容。

至于数据库访问优化,还是属于暂时不必要考虑的问题。这个时代,互联网上存在的网站还不算太多,不到1tb的硬盘便可以解决问题。

剩下的域名购买、网站报备申请等环节,则就是行政工作了,只要抽个时间便可以将它们全部搞定。

如此估算下来,王向中还需要一台服务器,一个小机房用于存放设备,以及网络费用成本。

按照目前王向中的赚钱速度,想要快速攒到所需要的钱,还需要一些时日。

不过现在他已经可以开始着手代码的框架建立了,尽管在当年那个世界,代码这一步是最难的事情,然而在王向中身上,代码是最简单的事情……

但凡是不用掏钱的事情,都是最简单的事情。

短短三天内,电信公司便派了人来,将电话线给拉好了,与此同时,王向中也向蒋红月借出重金,咬紧牙关买了一部固定电话。