当用户访问Web服务器时,Web服务器会自动建立访问日志信息。随着WWW技术的快速发展和时间的积累。Web服务器中Web日志文件将越来越大,基于Web的电子商务服务器将保存大量的Web访问日志记录。如何对这些大量的Web日志记录进行自动分析清理存储并从中发现有用的、重要的知识。包括模式、规则和可视化结构等是目前Web日志挖掘的主要任务。中山网站优化

面向电子商务的Web挖掘系统模型包括数据采集、数据处理、数据存储、模式发现、模式分析利用及客户6个层次。数据采集层所采集的数据对象即为Web挖掘的源数据Web挖掘的源数据有:Web服务器日志、客户登记信息和交易数据库。Web服务器日志是客户访问所产生的服务器日志数据。客户登记信息必须和访问日志集成,以提高数据挖掘的准确度。交易数据库存储用户在商务网站上购买商品的信息,其内容随数据库结构的不同而有所不同,一般包括:用户名、时间、商品ID、采购数量及价格等。中山网站优化

模式发现层次包括:路径分析、关联规则挖掘、序列模式挖掘以及聚类和分类分析。数据处理层实现对数据采集层所采集的源数据进行处理,包括日志文件的处理和数据仓库的建立。

日志文件处理得好坏直接影响挖掘算法产生的结果,其处理过程是保证Web挖掘质量的关键。经过处理后的数据由数据存储层进行保存和管理。Web挖掘应用系统主要有3类存储方式:关系数据库、数据仓库和事务数据库。事务数据库一般由一个文件组成,其中每个记录代表一个事务。中山网站优化

本文原创来自:http://www.bafangcn.com   所有标签 网站地图 内容订阅