Java学习者论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

恭喜Java学习者论坛(https://www.javaxxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,购买链接:点击进入购买VIP会员
JAVA高级面试进阶视频教程Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java架构师3期(课件+源码)

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

深度学习(CNN RNN GAN)算法原理

Java亿级流量电商系统视频教程

互联网架构师视频教程

年薪50万Spark2.0从入门到精通

年薪50万!人工智能学习路线教程

年薪50万!大数据从入门到精通学习路线年薪50万!机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程 MySQL入门到精通教程
查看: 587|回复: 0

[框架技术] 爬虫搜索基础篇(一)

[复制链接]

该用户从未签到

发表于 2015-11-18 09:27:46 | 显示全部楼层 |阅读模式
一.目的
首先,我们要明确,蜘蛛爬虫的目的是什么?每天网上都会更新大量的咨询,爬虫就是将这些网站、应用的精华部分提取出来。就内容的形式而言,文本结构化和非文本结构化是比较常见的两种形式。
1.非文本结构化
1.1 HTML文本
目前主流的文本信息,大部分都基于此。其实它理应属于结构化文本,但是因为搜索引擎在提取内容的时候需要解析它的内部语言,甚至某些字符串才能得到结果,所以还是将其归类为非文本结构化信息。
列举一些常见的解析方式:
.CSS
这是TX首页财经部分的代码,一目了然,是用CSS来排版的。这也是目前主流的网页布局语言,里面id=finance,为了获取这块代码的内容,我们将finance标记为“#finance”,就得到了这块的HTML代码。用这种方法也可以获得其他内容。
.XPATH
利用chrome浏览器,基于XPATH的路径选择方法,可以快速得到所需内容,如图。
.正则表达式
在碰到小片段文本、字符串、或者是包含JS代码,就需要使用到这种方法,通过标准正则解析,用指定的格式匹配相关文本,一般适用于纯文本信息,可以很好的获取到有用的纯文本信息。
.字符串分隔
不建议经常使用,这个方法跟正则表达式差不多,因为比较偷懒。
1.2 一段文本
对于纯文本信息,我们也是需要提取其中有用的内容,例如一篇文章或者是一段简短的文字,如果是滞后处理,我们可以先把这些信息存储,如果需要实时提取的,可以使用以下方式处理:
.分词
将抓取到的文本信息进行分段分析,获取关键语句后进行分词处理,然后进行分词统计,类似于向量的表达方式。
.NLP
NLP的意思是词义分析,将获取到的文本信息用正负面的结果形式表示出来。



刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|Java学习者论坛 ( 声明:本站资料整理自互联网,用于Java学习者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

GMT+8, 2024-4-25 17:35 , Processed in 0.437211 second(s), 50 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表