网站优化要做好哪些方面的事情
网站优化要做好哪些方面的事情?具体有以下几个:
1
、离线剖析
在离线分析阶段主要是对
Web日志进行挖掘,详细可分为以下四个基础过程:收集、预处置、模式发明跟模式分析。
2
、收集
教学资源网站中用于挖掘的主要有两类:静态和动态,静态主要是学生的基本情形,其收集绝对简略,学生在教学网站注册时,即可将其基本情况存人相应的库文件,是结构化的,便于处理,静态正常不随学生学习状态的改变而转变
}动态信息反映学生网上学习情况,普通记录在服务器的日志文件中,也可记录在客户端的Cookie文件中,但一方面客户端的Cookie可能会被学生删除,另一方面学生使用的客户端不固定,所以这局部的主要起源仍是服务器真个日志文件。‘司
因而需要挖掘的对象主要包含:
Web服务器的日志文件、Web站点的拓朴结构、学生的注册信息等。这些极为丰盛,但它们是无结构化或是半构造化的,不能作为直接挖掘的对象,需要先对其进行预处理,放人仓库后,再利用挖掘方法对事务库进行挖掘,得到相关模式。
3
、预处理
预处理是
Web挖掘中最要害的一个环节,其品质关系到模式发现过程和模式分析过程的质量。预处理包括荡涤、用户识别、会话识别、路径补充和事件识别。
(1)
清洗
其目的在于把日志文件中一些与分析、发掘无关项肃清掉,如剔除
CS Uri Stem项。此外,还可剔除用户要求访问失败的记录,及用户请求办法中不是GET的记载。
(2)
用户识别
这是预处理的第
=步,由于日志文件只是记录了主机或daiban服务器的IP地址,而要识别每一个用户,则可采用Cookie技术,或用一些启示规则来赞助识别。
(3)
会话识别
在时光区段较大的
Web服务器日志中,用户有可能屡次拜访该站点。会话辨认的目标就是将用户的访问记载划分成单个的会话。个别采取超时识别,假如用户恳求页面之间的时间超过必定距离,则以为用户开端了一个新的会话。
(4)
门路弥补
确认
Web日志中是否有重要的页面访问记录被遗漏,这个问题的发生是因为Cache的存在所致。路径补充的义务就是将这些漏掉的请求补充到用户会话文件之中,也可以根据援用日志的网络拓扑结构提供的信息把路径补充完全。
(5)
事件识别
事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。识别事件的方法有两种,一种是
Reference Lengrh,另一种是Maximal Forward Reference。