再次感谢各位捧场,什么google、youtube、fackbook,不再是神话。以下设置都是基于修改dns为42.120.21.30, PC ...
编程茶楼
XPath与正则表达式在文本数据提取时该如何选择?
从互联网上下载到网页,只是我们迈向成功的第一步。拿到网页数据以后,我们需要从中提取我们想要的具体信息,比如标题、内容、时间、作者等。最常见的的提取方式有两种:XPath和正则表达式。 先简单介绍一下...
Python
python中的正则表达式(re模块)
一、简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执...
XPath 运算符
XPath 运算符XPath 表达式可返回节点集、字符串、逻辑值以及数字。XPath 运算符下面列出了可用在 XPath 表达式中的运算符:运算符描述实例返回值|计算两个节点集//book ...
TF-IDF模型关键词抽取
模型:gensim工具包TF-IDF模型维基百科语料数据(30万词条)利用jieba分词,加入行业词,去除停止词下面用维基百科中文数据来做测试1.数据预处理1.1 数据集采用分好词的维基百科中文数据,...
系统文档
TF-IDF与余弦相似性的应用(三):自动摘要
作者: 阮一峰日期: 2013年3月26日有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算...
系统文档
TF-IDF与余弦相似性的应用(二):找出相似文章
作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他...
系统文档
TF-IDF与余弦相似性的应用(一):自动提取关键词
作者: 阮一峰日期: 2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphra...
2018.10.20更新
1、解决了长期以来由于图片过大或者内容标签问题导致的页面被撑破问题。(1)过大图片默认微缩,http://vulsee.com/archives/vulsee_2018/0119_5175.html(...
Apache服务的安装与卸载
我们产品的安装版本中是默认带Apache2.2,然后一位同事去前场,不小心又安装了一个Apache,还卸了。结果,本身的的那个Apache都跑不起了了。这时候,一定不能慌。问题,是绝对有办法解决的。首...
