我真是无聊啊。今天有一大堆事要做,就是静不下心来。偏偏干点别的闲事聚精会神。刚才居然花了点时间写了个小程序,把CSDN有关CSDN圈子的数据抓到Excel里,做了点统计。CSDN没有提供API,所以抓数据只好“刮页”了。还好,CSDN的网页程序员相当不错(反正比我牛多了),做的网页干净,全用DIV+CSS排版。Table就是用来放数据的。圈子列表的URL是http://blog.csdn.net/grouplist.aspx?keyword=&O=ViewCount&IsDesc=1&p=1, 要翻页,改动最后那个p的值就行了。每页就一个表,用来装关于圈子的数据。这样我的程序简单多了。运行了一下,耗时1404秒,抓了131页,得到2463个圈子。平均每页10秒多,看来网速还是很慢。比较有意思的数据。我把一些有意思的数据加黑了。80%以上的群没有一篇文章。79.8%的群没有一个成员。不到1%的群发了超过30%的帖子。不到1%的圈子拥有超过46%的成员。长尾巴啊长尾巴。另一方面,看来圈子的利用率一般。平均访问/人才65。
Statistic |
成员数 |
文章数 |
访问数 |
访问/人 |
文章/人 |
访问/文章 |
No. of observations |
2462 |
2462 |
2462 |
2462 |
2462 |
2462 |
No. of missing values |
0 |
0 |
0 |
0 |
0 |
0 |
Sum of weights |
2462 |
2462 |
2462 |
2462 |
2462 |
2462 |
Minimum |
0.000 |
0.000 |
1.000 |
0.000 |
0.000 |
0.000 |
Maximum |
202.000 |
172864.000 |
8734.000 |
605.000 |
21247.000 |
229.000 |
Freq. of minimum |
1965 |
2027 |
18 |
1965 |
2029 |
2027 |
Freq. of maximum |
1 |
1 |
1 |
1 |
1 |
1 |
Range |
202.000 |
172864.000 |
8733.000 |
605.000 |
21247.000 |
229.000 |
1st Quartile |
0.000 |
0.000 |
6.000 |
0.000 |
0.000 |
0.000 |
Median |
0.000 |
0.000 |
13.000 |
0.000 |
0.000 |
0.000 |
3rd Quartile |
0.000 |
0.000 |
24.000 |
0.000 |
0.000 |
0.000 |
Sum |
2375.000 |
562812.000 |
161978.000 |
32795.892 |
161380.151 |
3119.706 |
Mean |
0.965 |
228.600 |
65.791 |
13.321 |
65.548 |
1.267 |
Variance (n) |
44.860 |
16742560.226 |
133050.839 |
1619.698 |
593022.322 |
82.830 |
Variance (n-1) |
44.878 |
16749363.380 |
133104.902 |
1620.356 |
593263.290 |
82.864 |
Standard deviation (n) |
6.698 |
4091.767 |
364.761 |
40.245 |
770.079 |
9.101 |
Standard deviation (n-1) |
6.699 |
4092.599 |
364.835 |
40.254 |
770.236 |
9.103 |
Variation coefficient |
6.943 |
17.899 |
5.544 |
3.021 |
11.748 |
7.182 |
Skewness (Pearson) |
18.821 |
34.254 |
14.711 |
6.269 |
18.691 |
16.768 |
Skewness (Fisher) |
18.832 |
34.275 |
14.720 |
6.273 |
18.702 |
16.779 |
Skewness (Bowley) |
|
|
0.222 |
|
|
|
Kurtosis (Pearson) |
452.389 |
1341.878 |
266.442 |
57.855 |
402.560 |
344.779 |
Kurtosis (Fisher) |
453.311 |
1344.610 |
266.986 |
57.975 |
403.381 |
345.483 |
Standard error of the mean |
0.135 |
82.464 |
7.351 |
0.811 |
15.520 |
0.183 |
Lower bound on mean (95%) |
0.700 |
66.893 |
51.376 |
11.730 |
35.115 |
0.907 |
Upper bound on mean (95%) |
1.229 |
390.306 |
80.207 |
14.911 |
95.982 |
1.627 |
Mean absolute deviation |
1.540 |
424.966 |
91.693 |
21.461 |
120.736 |
2.174 |
Median absolute deviation |
0.000 |
0.000 |
8.000 |
0.000 |
0.000 |
0.000 |
Geometric mean |
|
|
14.289 |
|
|
|
Geometric standard deviation |
|
|
3.721 |
|
|
|
Harmonic mean |
|
|
7.781 |
|
|
|
下面是一些图:
分享到:
相关推荐
统计指数
本文档详细讲述了SAS统计软件的使用,以及经常使用的功能及其注意问题。
CSDN Share 是一款出色的Android阅读工具,阅读由 CSDN社区用户分享的技术文档。 通过CSDN Share可以在线阅读或离线下载CSDN 举办的各类技术活动的精彩讲义,以及来自CSDN下载社区由用户分享的技术文档。 马上下载...
python词频统计(csdn)————程序
各种流量统计
网站访问统计
销售统计
MATLAB统计分析与应用:40个案例分析 源代码
程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。 由于生成PDF的时候需要依赖...
《数理统计与数据分析(原书第3版)》内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、随机变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较...
概率论与数理统计公式大全概率论与数理统计公式大全
Xftp6版本引入了改进的用户界面和一系列新功能,这些功能是在我们的用户面前开发的。一些更值得注意的新功能包括全新的Session Manager窗格,以方便更方便的会话管理体验,Dockable UI,便于访问和自定义频繁访问的...
经常用到数据的朋友可以下载查看下,只是为了方便大家查阅,其他地方也是可以下载到。
现代信号处理1_统计估计(CSDN_20240317)
代码为博客的实例代码,详细请参考:http://blog.csdn.net/lmj623565791/article/details/24022165 有问题请留言
pytorch目标检测yolov4目标检测各类型数目统计计数 https://blog.csdn.net/babyai996/article/details/123959712
好消息:CSDN博客下载器v2.0版本增加导出PDF文件功能,方便查看图片与文章。 在无网络环境,也可以看自己的一些文章。当然如果您发现CSDN博客的一些文章值得收藏,你也可以使用本软件轻松的下载到您的电脑。 该版本...
小巫CSDN博客客户端源码,配套博文可以到http://blog.csdn.net/wwj_748/article/details/39134151进行参考
CSDN阅读器是有个人开发的基于CSDN网站RSS功能,能够为您提供CSDN网站,高质量的资讯阅读、博文阅读。 主要功能 1、资讯阅读 2、推荐博文及分类博文阅读 3、刷新后可以离线阅读 4、达到一定积分后,可以关闭广告 ...
工作量统计