一家公司有使搜索引擎能够更完整地对互联网进行“编目”的主意,另一家公司则相信它能够更好地预测搜索用户的需求,还有一家公司正在试图将搜索与用户的思维同步。
这些新秀与包括Google在内老牌搜索厂商都在探索对信息进行分类的新方法,这可能引发搜索的新一轮革命。澳大利亚的搜索新秀Mooter公司的CEO卡普表示,由于信息正在爆炸性地增长,如果我们不能理顺这些信息,互联网的使用将非常困难。
当前的技术给辛西娅这样的私人投资者带来了困难。当怀疑某家澳大利亚公司最近是否有欺诈行为时,她会首先求助于Google,然后会转到澳大利亚证券和投资委员会等机构的网站。但专家表示,认为Google的资料非常详尽的用户是在自欺欺人。目前的搜索引擎只能发现互联网上不到1%的信息,主要原因与它们搜索和对互联网上资源索引的方式有关。辛西娅说,这是令人沮丧的,就象我们来到图书馆查阅资料,却只从书架上拿了一本书一样。
搜索领域的分析师沙利文认为解决这些问题是大有希望的,他认为未来的搜索引擎将在各方面达到最好。但他同时警告说,互联网上有许多没有获得投资或用户青睐的搜索创新。
目前,所有的搜索引擎都不能够捕获“无形Web”的大量资源━━被锁在数据库中和搜索引擎的爬虫找不到的内容,其中包括美国证监会的监管文件和大多数报纸的完整文档。有时,访问“隐形”数据库需要付费,即使数据库是免费的,网站也可能要求注册,这就将爬虫挡在了外面。特别是,动态网页给爬虫也造成了障碍。
为了解决这些问题,Dipsie公司正在开发能够填写Cars.com网站简单表格的稿子,并预计将在今年夏季发布测试版本。其它公司也在开发能够捕获音频和视频文件的软件,这一直困扰着基于文本的爬虫。StreamSage公司使用语音识别技术转录提供的资料,使搜索引擎能够从较长的表达中找出相关联的部分。该公司的总裁默里表示,哈哈佛大学医学院和NASA已经使用了这项技术,但设计人员必须提高这一技术的速度,使它能够被广泛使用。雅虎公司则采取了一条非技术的、倍受争议的策略:企业通过付费保证其“隐形网页”被索引。
但索引更多的内容也带来了另一个问题━━在数以十亿计的网页中找到与搜索关健字最相关的网页,因此一些搜索引擎开发商将目光放在了个性化和组织化的搜索方面。今年1月份刚成立的Eurekster公司将搜索与社会网络结合了起来,它根据用户的社会网络中其它成员的搜索情况来猜测用户想找到哪方面的内容。因此,如果低眉的社会网络成员与娱乐界相关,对“casting”搜索的结果可能是电影网络,而如果社会网络成员喜欢周末郊游,则搜索结果可能是与钓鱼相关的网站。
各大搜索引擎还在努力对搜索进行本地化处理。由于已经拥有大量用户的收费和注册信息,在这方面雅虎、AOL比Google有优势。而SuperPages.com等网站还对数据添加标志,使客户能够不仅仅按城市还能够按逛商店的时间和信用卡号码进行搜索。在Google搜索中添加“星期六”会使用户得到周六不营业的商店名称。
标记还有助于Factiva对其9000个新闻源的文档进行个性化处理,使工程师获得偏重技术内容的搜索结果,而营销部门则能够获得更与它们相关的内容。该公司的CEO克莱尔说,人们不愿意在查找资料上花费时间,他们愿意花时间对资料进行分析。
在微软公司,研究人员正在探索返回特定事实而非整个文档的技术。例如“玛莉莲梦露生日”的查询将返回“1926年7月1日”这样的结果,而不会返回许多与此相关的网站。微软公司AskMSR项目的资深研究人员埃立克说,借用图书馆借书的过程比喻,搜索引擎目前的理念仍然是,“让我给您找一些对您有用的书”,而不是“我来为您查找您所需要的资料”。
通过识别基本主题和组合网站,Mooter公司希望能够模仿人类大脑对信息的组织方法,它还试图根据用户访问的链接对搜索结果进行“精益求精”。开发这样的技术的成本是很高的,一些专家认为最好的工具可能是由Factiva和ChoicePoint等付费服务开发的。
这些新秀与包括Google在内老牌搜索厂商都在探索对信息进行分类的新方法,这可能引发搜索的新一轮革命。澳大利亚的搜索新秀Mooter公司的CEO卡普表示,由于信息正在爆炸性地增长,如果我们不能理顺这些信息,互联网的使用将非常困难。
当前的技术给辛西娅这样的私人投资者带来了困难。当怀疑某家澳大利亚公司最近是否有欺诈行为时,她会首先求助于Google,然后会转到澳大利亚证券和投资委员会等机构的网站。但专家表示,认为Google的资料非常详尽的用户是在自欺欺人。目前的搜索引擎只能发现互联网上不到1%的信息,主要原因与它们搜索和对互联网上资源索引的方式有关。辛西娅说,这是令人沮丧的,就象我们来到图书馆查阅资料,却只从书架上拿了一本书一样。
搜索领域的分析师沙利文认为解决这些问题是大有希望的,他认为未来的搜索引擎将在各方面达到最好。但他同时警告说,互联网上有许多没有获得投资或用户青睐的搜索创新。
目前,所有的搜索引擎都不能够捕获“无形Web”的大量资源━━被锁在数据库中和搜索引擎的爬虫找不到的内容,其中包括美国证监会的监管文件和大多数报纸的完整文档。有时,访问“隐形”数据库需要付费,即使数据库是免费的,网站也可能要求注册,这就将爬虫挡在了外面。特别是,动态网页给爬虫也造成了障碍。
为了解决这些问题,Dipsie公司正在开发能够填写Cars.com网站简单表格的稿子,并预计将在今年夏季发布测试版本。其它公司也在开发能够捕获音频和视频文件的软件,这一直困扰着基于文本的爬虫。StreamSage公司使用语音识别技术转录提供的资料,使搜索引擎能够从较长的表达中找出相关联的部分。该公司的总裁默里表示,哈哈佛大学医学院和NASA已经使用了这项技术,但设计人员必须提高这一技术的速度,使它能够被广泛使用。雅虎公司则采取了一条非技术的、倍受争议的策略:企业通过付费保证其“隐形网页”被索引。
但索引更多的内容也带来了另一个问题━━在数以十亿计的网页中找到与搜索关健字最相关的网页,因此一些搜索引擎开发商将目光放在了个性化和组织化的搜索方面。今年1月份刚成立的Eurekster公司将搜索与社会网络结合了起来,它根据用户的社会网络中其它成员的搜索情况来猜测用户想找到哪方面的内容。因此,如果低眉的社会网络成员与娱乐界相关,对“casting”搜索的结果可能是电影网络,而如果社会网络成员喜欢周末郊游,则搜索结果可能是与钓鱼相关的网站。
各大搜索引擎还在努力对搜索进行本地化处理。由于已经拥有大量用户的收费和注册信息,在这方面雅虎、AOL比Google有优势。而SuperPages.com等网站还对数据添加标志,使客户能够不仅仅按城市还能够按逛商店的时间和信用卡号码进行搜索。在Google搜索中添加“星期六”会使用户得到周六不营业的商店名称。
标记还有助于Factiva对其9000个新闻源的文档进行个性化处理,使工程师获得偏重技术内容的搜索结果,而营销部门则能够获得更与它们相关的内容。该公司的CEO克莱尔说,人们不愿意在查找资料上花费时间,他们愿意花时间对资料进行分析。
在微软公司,研究人员正在探索返回特定事实而非整个文档的技术。例如“玛莉莲梦露生日”的查询将返回“1926年7月1日”这样的结果,而不会返回许多与此相关的网站。微软公司AskMSR项目的资深研究人员埃立克说,借用图书馆借书的过程比喻,搜索引擎目前的理念仍然是,“让我给您找一些对您有用的书”,而不是“我来为您查找您所需要的资料”。
通过识别基本主题和组合网站,Mooter公司希望能够模仿人类大脑对信息的组织方法,它还试图根据用户访问的链接对搜索结果进行“精益求精”。开发这样的技术的成本是很高的,一些专家认为最好的工具可能是由Factiva和ChoicePoint等付费服务开发的。