博客社区研究中的数据挖掘初探(大纲)
盛振中
一、统计数据:
1. 博客(Blogger)信息:
(1)性别;
(2)地区;
(3)年龄;
(4)教育程度;
(5)注册时间;
(6)好友数量;
2、日志(Blog)信息:
(1)访问量;
(2)文章数;
(3)留言数;
(4)评论数;
(5)短信息数;
说明:数据按一定时期统计,初步选择的时间间隔为一个月。
二、数据挖掘:
1. 预测。
根据历史统计数据,采用回归分析、灰色理论等建立数学模型,可以预测短期和中长期内的:
1)博客的注册数量和增长趋势;
2)文章数量;
3)留言数量;
4)评论数量;
5)短信息数量;
1) 和2)可以反映出博客群体的发展情况,3)、4)和5)可以反映博客之间的互动交流情况。
2. 分类分析。
2.1 博客(Blogger)
2.1.1总量分析:
对统计数据分别从性别、性别、地区、年龄、教育程度、注册时间等方面进行分析,可以分析已注册博客的组成结构;属于静态分析。
2.1.2增量分析:
根据统计数据,得出每月(或季度、年份等)博客的增长数量,从以上几个方面分析,可以监测博客的发展情况,以及组成结构变化情况;属于动态分析。
2.2 日志(Blog)
2.2.1总量分析:
根据统计数据对日志按照目前的分类统计分析,可以了解不同栏目的发展情况;属于静态分析。
2.2.2增量分析:
通过监测各类日志数的增长速度和趋势,了解博客群体关注的话题等等情况;属于动态分析。
3. 聚类分析
3.1博客(Blogger);
根据分项统计数据作为指标,对注册博客进行聚类分析,由此进一步分析博客群的组成结构,为进一步针对性的研究提供依据。
3.2日志(Blog)
对日志从访问量、回复量等方面进行聚类分析,了解博客群体关心的话题。可以分别对总量数据和增量数据进行聚类,由此分别了解长时期和特定阶段博客关注话题。
4. 关联分析
根据博客的文章数量、文章分类、好友情况等进行关联分析,可能发现博客的行为特点,等等。因为关联分析往往可能发现隐藏的模式和规律,具体将得到什么结论,需要对数据进行关联分析之后方可定论。
三、数据挖掘工具:
1. SQLServer;
2. SPSS;
四、预期成果:
1.博客群分析及发展动态监测报告;
2.日志增长动态监测报告;
3.博客发展相关规律;
以上只是初步的思路,因为目前对博客进行系统研究处于初期阶段,在博客研究中引入数据挖掘更多属于尝试,缺乏相关资料和标准,具体的内容有待于根据研究进展及时补充、修正、更新和完善。
真诚地期待志同道合的朋友的交流和指点!
盛振中
Blog http://aash.blogchina.com
MSN/Emai:up3213@hotmail.com;
你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=2190441
[2005-07-06] BLOG前景看好!
[2005-07-01] 国内数据挖掘团体调研
[2005-07-05] Dreamweaver构建Blog全程实录
[2005-07-06] 搜狐IT第一届中文Blog大型摸底调查
[2005-07-06] 文明社会
没有数据就谈不上什么成果了,个人观点.
有数据么?
很严谨的一个报告大纲。乍一看,不错,再一看,还是不错。
很好!这样博客网就有了发展的检测和研究的基础.希望能够适当的扩大挖掘范围.对于各个栏目和板块也介入检测的范围.
因为博客网正如肖容所说是BSP+BCP+ICP.数据挖掘要涉及这三个方面.