`
varsoft
  • 浏览: 2438090 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

关于CSDN圈子的统计

阅读更多
我真是无聊啊。今天有一大堆事要做,就是静不下心来。偏偏干点别的闲事聚精会神。刚才居然花了点时间写了个小程序,把CSDN有关CSDN圈子的数据抓到Excel里,做了点统计。CSDN没有提供API,所以抓数据只好“刮页”了。还好,CSDN的网页程序员相当不错(反正比我牛多了),做的网页干净,全用DIV+CSS排版。Table就是用来放数据的。圈子列表的URL是http://blog.csdn.net/grouplist.aspx?keyword=&O=ViewCount&IsDesc=1&p=1, 要翻页,改动最后那个p的值就行了。每页就一个表,用来装关于圈子的数据。这样我的程序简单多了。运行了一下,耗时1404秒,抓了131页,得到2463个圈子。平均每页10秒多,看来网速还是很慢。比较有意思的数据。我把一些有意思的数据加黑了。80%以上的群没有一篇文章。79.8%的群没有一个成员。不到1%的群发了超过30%的帖子。不到1%的圈子拥有超过46%的成员。长尾巴啊长尾巴。另一方面,看来圈子的利用率一般。平均访问/人才65。

Statistic 成员数 文章数 访问数 访问/人 文章/人 访问/文章
No. of observations 2462 2462 2462 2462 2462 2462
No. of missing values 0 0 0 0 0 0
Sum of weights 2462 2462 2462 2462 2462 2462
Minimum 0.000 0.000 1.000 0.000 0.000 0.000
Maximum 202.000 172864.000 8734.000 605.000 21247.000 229.000
Freq. of minimum 1965 2027 18 1965 2029 2027
Freq. of maximum 1 1 1 1 1 1
Range 202.000 172864.000 8733.000 605.000 21247.000 229.000
1st Quartile 0.000 0.000 6.000 0.000 0.000 0.000
Median 0.000 0.000 13.000 0.000 0.000 0.000
3rd Quartile 0.000 0.000 24.000 0.000 0.000 0.000
Sum 2375.000 562812.000 161978.000 32795.892 161380.151 3119.706
Mean 0.965 228.600 65.791 13.321 65.548 1.267
Variance (n) 44.860 16742560.226 133050.839 1619.698 593022.322 82.830
Variance (n-1) 44.878 16749363.380 133104.902 1620.356 593263.290 82.864
Standard deviation (n) 6.698 4091.767 364.761 40.245 770.079 9.101
Standard deviation (n-1) 6.699 4092.599 364.835 40.254 770.236 9.103
Variation coefficient 6.943 17.899 5.544 3.021 11.748 7.182
Skewness (Pearson) 18.821 34.254 14.711 6.269 18.691 16.768
Skewness (Fisher) 18.832 34.275 14.720 6.273 18.702 16.779
Skewness (Bowley) 0.222
Kurtosis (Pearson) 452.389 1341.878 266.442 57.855 402.560 344.779
Kurtosis (Fisher) 453.311 1344.610 266.986 57.975 403.381 345.483
Standard error of the mean 0.135 82.464 7.351 0.811 15.520 0.183
Lower bound on mean (95%) 0.700 66.893 51.376 11.730 35.115 0.907
Upper bound on mean (95%) 1.229 390.306 80.207 14.911 95.982 1.627
Mean absolute deviation 1.540 424.966 91.693 21.461 120.736 2.174
Median absolute deviation 0.000 0.000 8.000 0.000 0.000 0.000
Geometric mean 14.289
Geometric standard deviation 3.721
Harmonic mean 7.781


下面是一些图:

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics