摘要:根据算法的思路,手动复现算法。根据窗口大小,组合共现词和频率,频率代表共现权重。正反双向共现词。根据每个词的权重的迭代公式,采用冒泡排序的方法,将一个词的所有共现词的权重代入公式。迭代次,使每个词的权重收敛。根据权重排序,输出。 根据jieba textrank算法的思路,手动复现textrank算法。思路:1.分词,确定窗口大小。 2.根据窗口大小,组合共现词和频率,频率代表共现...
摘要:访问需求示例需要访问如下服务端目录结构问题我们习惯配置的服务为单入口,即多入口配置利用变量动态配置,实现多入口访问 访问需求示例 需要访问如下 url:localhost/info.phplocalhost/detail.php 服务端 server-root 目录结构: ➜ ~ tree public public ├── detail.php └── info.php 问题 我们...
摘要:所以建立并维护好一个有效的代理池也是爬虫的一个准备工作。网上提供免费代理的网址很多,下面我们以西刺网站为例来建立一个有效的代理池。 在爬取网站信息的过程中,有些网站为了防止爬虫,可能会限制每个ip的访问速度或访问次数。对于限制访问速度的情况,我们可以通过time.sleep进行短暂休眠后再次爬取。对于限制ip访问次数的时候我们需要通过代理ip轮换去访问目标网址。所以建立并维护好一个有效...
摘要:我们在日常开发中希望访问文件以域名的形式访问本地文件。一配置文件中的配置文件是打开配置文件如果文件是只读,则需要利用文件名来修改文件模式修改文件权限,只需要添加下面的权限即可。 我们在日常开发中希望访问文件以域名的形式访问本地文件。而mac自带apache,我们只需要简单地配置apache配置文件及host配置文件,便可以实现用url的形式来访问文件了。 一 apche配置文件 Mac...
摘要:自取上传到这里内核剖析深入理解最佳良品鸟哥的私房菜可能有点历史久远了,中文版学习新的好书设计模式设计模式,可以更好的自己去实现一个框架,或者读懂框架的源码,实现高性能全球开发者大会上推荐的一本书,感觉内容很前卫新鲜。 https://github.com/guanhui07/... 自取 上传到这里 《PHP7内核剖析》 深入理解PHP最佳良品 《鸟哥的Linux私房菜》 可能有点历史...