摘要:开始文章之前呢,我们首先看一个搜索。很明显,我们如果用是没发实现这种功能的,这里就用到了我们今天要聊的分词搜索。项目是从一个爬虫开始的,毋容置疑我们想做搜索,肯定要有数据呀,这里我选用了半糖这个网站的商品信息。
开始文章之前呢,我们首先看一个搜索。
很明显,我们如果用like是没发实现这种功能的,这里就用到了我们今天要聊的分词搜索。
项目是从一个爬虫开始的,毋容置疑我们想做搜索,肯定要有数据呀,这里我选用了半糖这个网站的商品信息。
第二步,我们开始建立索引,我建索引的方式比较简单,是通过字符转unicode码拼接成文件路径的方式,这里也期待你用更好的方式做,比如说存在内存中(这里要做数据持久化),那实际上我最新的一个开源项目gosearch就用了这种方式,当然如果你想追求更有意思的事情,你可以尝试一下分布式,你可以自己设计一套分布式的方案,就会很酷了。
最后,就是用Flask展现我们的数据了,这一步就简单一些了,但是我这里用了一些AOP的全局处理方案,还是挺有意思了,有兴趣的可以看一下。
github地址: https://github.com/apple-han
B站视频: https://www.bilibili.com/video/av54618033
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44054.html
摘要:本文以为例来介绍如何打造自己的搜索引擎。其官方网站是可以说支持包括英文中文等所有语言的搜索。默认把中文按字拆分的,但这样就会产生搜索出不相干的内容来。因此,有人就给打了中文分词的补丁。 Google搜索引擎建立至今已经快20年了,之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大,搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟,同时也就出现了很多开源的...
摘要:貌似很少全文搜索的插件有一个但试了几次都用不了所以参考自己写了一个插件基于纯编写使用上很简单创建更新删除索引如果要对已存在的数据创建索引全部创建更新删除如果只想要为指定的表创建索引自定义比如使用的中文分词项目地址演示 flask 貌似很少全文搜索的插件,有一个 Flask-WhooshAlchemy , 但试了几次都用不了,所以参考 Flask-WhooshAlchemy 自己写了一个...
摘要:先看效果环境位目标抓取一篇报纸,并提取出关键字,然后按照出现次数排序,用在页面上显示出来。首先要抓取网页,但是网页在控制台输出的时候,中文总是乱码。但是不得不承认,上有很多非常优秀的库。例如但是这些包我在上安装的时候总是报错。 先看效果: showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 环境 win7 64位 pyt...
摘要:前言我想分享快速打造博客的详细教程,可是发现网易课堂已经有相应的免费课堂了,所以就不打算一点一滴的在这里做笔记,分享这些东西了。所以我主要集中在使用上的讲解。可我还是录了一套视频效果不是很好,稍后想分享给大家。 前言: 我想分享flask+flask-admin快速打造博客的详细教程,可是发现网易课堂已经有相应的免费课堂了,所以就不打算一点一滴的在这里做笔记,分享这些东西了。所以我主要...
阅读 636·2021-11-23 09:51
阅读 3582·2021-11-15 11:38
阅读 903·2021-10-14 09:42
阅读 3114·2021-09-29 09:35
阅读 2073·2021-09-03 10:33
阅读 749·2021-07-30 16:33
阅读 1542·2019-08-30 15:55
阅读 1827·2019-08-30 14:04