MongoDB中强大的统计框架Aggregation使用实例解析

2024-03-23 08:52:03 37

听说项目里面Aggregation用的多，那就专门针对这个多多练习一下。

基本的操作包括：

•$project-可以从子文档中提取字段，可以重命名字段

•$match-可以实现查找的功能

•$limit-接受一个数字n，返回结果集中的前n个文档。

•$skip-接受一个数字n，丢弃结果集中的前n个文档。效率比较低，依然会遍历前n个文档。

•$unwind-可以将一个包含数组的文档切分成多个,比如你的文档有中有个数组字段A,A中有10个元素,那么经过$unwind处理后会产生10个文档，这些文档只有字段A不同

•$group-统计操作，还提供了一系列子命令

–$avg,$sum…

•$sort-排序

Python篇
实验一、学生数据统计
1、生成学生数据：

#!/usr/bin/envpython
#coding=utf-8
frompymongoimportMongoClient
fromrandomimportrandint
name1=["yang","li","zhou"]
name2=[
"chao",
"hao",
"gao",
"qigao",
"haohao",
"gaogao",
"chaohao",
"jigao",
"jihao",
"ligao",
"lihao",
]
provinces=[
"guangdong",
"guangxi",
"shandong",
"shanxi",
"henan"
]
client=MongoClient('localhost',27017)
db=client.student
sm=db.smessage
sm.remove()
foriinrange(1,100):
name=name1[randint(0,2)]+name2[randint(0,10)]
province=provinces[randint(0,4)]
new_student={
"name":name,
"age":randint(1,30),
"province":province,
"subject":[
{"name":"chinese","score":randint(0,100)},
{"name":"math","score":randint(0,100)},
{"name":"english","score":randint(0,100)},
{"name":"chemic","score":randint(0,100)},
]}
printnew_student
sm.insert_one(new_student)

printsm.count()

好了，现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄，在mongo控制台输入：

如果想到得到所有省份的平均年龄，那就更加简单了：

db.smessage.aggregate(
{$match:{province:"guangdong"}}
)

{"_id":"guangxi","age":15.19047619047619}
{"_id":"guangdong","age":16.05263157894737}
{"_id":"shandong","age":17.44}
{"_id":"henan","age":20}
{"_id":"shanxi","age":16.41176470588235}

如果想得到广东省所有科目的平均成绩：

db.smessage.aggregate(
{$match:{province:"guangdong"}},
{$unwind:"$subject"},
{$group:{_id:{province:"$province",sujname:"$subject.name"},per:{$avg:"$subject.score"}}}
)

加上排序：

db.smessage.aggregate(
{$match:{province:"guangdong"}},
{$unwind:"$subject"},
{$group:{_id:{province:"$province",sujname:"$subject.name"},per:{$avg:"$subject.score"}}},
{$sort:{per:1}}
)

实验二、寻找发帖水王
有一个保存着杂志文章的集合，你可能希望找出发表文章最多的那个作者。假设每篇文章被保存为MongoDB中的一个文档。

1、插入数据

#!/usr/bin/envpython
#coding=utf-8
frompymongoimportMongoClient
fromrandomimportrandint


name=[
'yangx',
'yxxx',
'laok',
'kkk',
'ji',
'gaoxiao',
'laoj',
'meimei',
'jj',
'manwang',
]

title=[
'123',
'321',
'12',
'21',
'aaa',
'bbb',
'ccc',
'sss',
'aaaa',
'cccc',
]

client=MongoClient('localhost',30999)
db=client.test
bbs=db.bbs
bbs.remove()
foriinrange(1,10000):
na=name[randint(0,9)]
ti=title[randint(0,9)]
newcard={
'author':na,
'title':ti,
}
bbs.insert_one(newcard)

printbbs.count()

现在我们拥有了10000条文章数据了。

2、用$project将author字段投射出来

{"$project":{"author":1}}

这个语法与查询中的字段选择器比较像：可以通过指定"fieldname":1选择需要投射的字段，或者通过指定"fieldname":0排除不需要的字段。

执行完这个"$project"操作之后，结果集中的每个文档都会以{"_id":id,"author":"authorName"}这样的形式表示。这些结果只会在内存中存在，不会被写入磁盘。

3、用group将作者名称分组

{"group":{"_id":"$author","count":{"$sum":1}}}

这样就会将作者按照名字排序，某个作者的名字每出现一次，就会对这个作者的"count"加1。

这里首先指定了需要进行分组的字段"author"。这是由"_id":"$author"指定的。可以将这个操作想象为：这个操作执行完后，每个作者只对应一个结果文档，所以"author"就成了文档的唯一标识符（"_id"）。

第二个字段的意思是为分组内每个文档的"count"字段加1。注意，新加入的文档中并不会有"count"字段；这"$group"创建的一个新字段。

执行完这一步之后，结果集中的每个文档会是这样的结构：{"_id":"authorName","count":articleCount}。

4、用sort排序

{"$sort":{"count":-1}}

这个操作会对结果集中的文档根据"count"字段进行降序排列。

5、限制结果为前5个文档

{"$limit":5}

这个操作将最终的返回结果限制为当前结果中的前5个文档。
在MongoDB中实际运行时，要将这些操作分别传给aggregate()函数：

>db.articles.aggregate({"$project":{"author":1}},
...{"$group":{"_id":"$author","count":{"$sum":1}}},
...{"$sort":{"count":-1}},
...{"$limit":5}
...)

aggregate()会返回一个文档数组，其中的内容是发表文章最多的5个作者。

{"_id":"yangx","count":1028}
{"_id":"laok","count":1027}
{"_id":"kkk","count":1012}
{"_id":"yxxx","count":1010}
{"_id":"ji","count":1007}

Java篇

我在db中造了些数据(数据时随机生成的,能用即可)，没有建索引，文档结构如下：

Document结构:

{
"_id":ObjectId("509944545"),
"province":"海南",
"age":21,
"subjects":[
{
"name"："语文",
"score":53
},
{
"name"："数学",
"score":27
},
{
"name"："英语",
"score":35
}
],
"name":"刘雨"
}

接下来要实现两个功能：

统计上海学生平均年龄
统计每个省各科平均成绩

接下来一一道来

统计上海学生平均年龄

从这个需求来讲，要实现功能要有几个步骤:1.找出上海的学生.2.统计平均年龄(当然也可以先算出所有省份的平均值再找出上海的)。如此思路也就清晰了

首先上$match,取出上海学生

{$match:{'province':'上海'}}

接下来用$group统计平均年龄

{$group:{_id:'$province',$avg:'$age'}}

$avg是$group的子命令，用于求平均值，类似的还有$sum,$max....
上面两个命令等价于

selectprovince,avg(age)
fromstudent
whereprovince='上海'
groupbyprovince

下面是Java代码

Mongom=newMongo("localhost",27017);
DBdb=m.getDB("test");
DBCollectioncoll=db.getCollection("student");

/*创建$match,作用相当于query*/
DBObjectmatch=newBasicDBObject("$match",newBasicDBObject("province","上海"));

/*Group操作*/
DBObjectgroupFields=newBasicDBObject("_id","$province");
groupFields.put("AvgAge",newBasicDBObject("$avg","$age"));
DBObjectgroup=newBasicDBObject("$group",groupFields);

/*查看Group结果*/
AggregationOutputoutput=coll.aggregate(match,group);//执行aggregation命令
System.out.println(output.getCommandResult());

输出结果：

{"serverUsed":"localhost/127.0.0.1:27017",
"result":[
{"_id":"上海","AvgAge":32.09375}
],
"ok":1.0
}

如此工程就结束了，再看另外一个需求

统计每个省各科平均成绩

首先更具数据库文档结构，subjects是数组形式，需要先‘劈'开，然后再进行统计

主要处理步骤如下：

1.先用$unwind拆数组2.按照province,subject分租并求各科目平均分

$unwind拆数组

{$unwind:'$subjects'}

按照province,subject分组，并求平均分

{$group:{
_id:{
subjname:”$subjects.name”,//指定group字段之一subjects.name,并重命名为subjname
province:'$province'//指定group字段之一province,并重命名为province(没变)
},
AvgScore:{
$avg:”$subjects.score”//对subjects.score求平均
}
}

java代码如下:

Mongom=newMongo("localhost",27017);
DBdb=m.getDB("test");
DBCollectioncoll=db.getCollection("student");

/*创建$unwind操作,用于切分数组*/
DBObjectunwind=newBasicDBObject("$unwind","$subjects");

/*Group操作*/
DBObjectgroupFields=newBasicDBObject("_id",newBasicDBObject("subjname","$subjects.name").append("province","$province"));
groupFields.put("AvgScore",newBasicDBObject("$avg","$subjects.scores"));
DBObjectgroup=newBasicDBObject("$group",groupFields);

/*查看Group结果*/
AggregationOutputoutput=coll.aggregate(unwind,group);//执行aggregation命令
System.out.println(output.getCommandResult());

输出结果

{"serverUsed":"localhost/127.0.0.1:27017",
"result":[
{"_id":{"subjname":"英语","province":"海南"},"AvgScore":58.1},
{"_id":{"subjname":"数学","province":"海南"},"AvgScore":60.485},
{"_id":{"subjname":"语文","province":"江西"},"AvgScore":55.538},
{"_id":{"subjname":"英语","province":"上海"},"AvgScore":57.65625},
{"_id":{"subjname":"数学","province":"广东"},"AvgScore":56.690},
{"_id":{"subjname":"数学","province":"上海"},"AvgScore":55.671875},
{"_id":{"subjname":"语文","province":"上海"},"AvgScore":56.734375},
{"_id":{"subjname":"英语","province":"云南"},"AvgScore":55.7301},
.
.
.
.
"ok":1.0
}

统计就此结束....稍等，似乎有点太粗糙了，虽然统计出来的，但是根本没法看，同一个省份的科目都不在一起。囧

接下来进行下加强,

支线任务：将同一省份的科目成绩统计到一起(即，期望'province':'xxxxx',avgscores:[{'xxx':xxx},....]这样的形式)

要做的有一件事，在前面的统计结果的基础上，先用$project将平均分和成绩揉到一起，即形如下面的样子

{"subjinfo":{"subjname":"英语","AvgScores":58.1},"province":"海南"}

再按省份group，将各科目的平均分push到一块，命令如下：

$project重构group结果

{$project：{province:"$_id.province",subjinfo:{"subjname":"$_id.subjname","avgscore":"$AvgScore"}}

$使用group再次分组

{$group:{_id:"$province",avginfo:{$push:"$subjinfo"}}}

java代码如下：

Mongom=newMongo("localhost",27017);
DBdb=m.getDB("test");
DBCollectioncoll=db.getCollection("student");

/*创建$unwind操作,用于切分数组*/
DBObjectunwind=newBasicDBObject("$unwind","$subjects");

/*Group操作*/
DBObjectgroupFields=newBasicDBObject("_id",newBasicDBObject("subjname","$subjects.name").append("province","$province"));
groupFields.put("AvgScore",newBasicDBObject("$avg","$subjects.scores"));
DBObjectgroup=newBasicDBObject("$group",groupFields);

/*ReshapeGroupResult*/
DBObjectprojectFields=newBasicDBObject();
projectFields.put("province","$_id.province");
projectFields.put("subjinfo",newBasicDBObject("subjname","$_id.subjname").append("avgscore","$AvgScore"));
DBObjectproject=newBasicDBObject("$project",projectFields);

/*将结果push到一起*/
DBObjectgroupAgainFields=newBasicDBObject("_id","$province");
groupAgainFields.put("avginfo",newBasicDBObject("$push","$subjinfo"));
DBObjectreshapeGroup=newBasicDBObject("$group",groupAgainFields);

/*查看Group结果*/
AggregationOutputoutput=coll.aggregate(unwind,group,project,reshapeGroup);
System.out.println(output.getCommandResult());

结果如下：

{"serverUsed":"localhost/127.0.0.1:27017",
"result":[
{"_id":"辽宁","avginfo":[{"subjname":"数学","avgscore":56.46666666666667},{"subjname":"英语","avgscore":52.093333333333334},{"subjname":"语文","avgscore":50.53333333333333}]},
{"_id":"四川","avginfo":[{"subjname":"数学","avgscore":52.72727272727273},{"subjname":"英语","avgscore":55.90909090909091},{"subjname":"语文","avgscore":57.59090909090909}]},
{"_id":"重庆","avginfo":[{"subjname":"语文","avgscore":56.077922077922075},{"subjname":"英语","avgscore":54.84415584415584},{"subjname":"数学","avgscore":55.33766233766234}]},
{"_id":"安徽","avginfo":[{"subjname":"英语","avgscore":55.458333333333336},{"subjname":"数学","avgscore":54.47222222222222},{"subjname":"语文","avgscore":52.80555555555556}]}
.
.
.
],"ok":1.0}

MongoDB中强大的统计框架Aggregation使用实例解析

热门推荐

随机推荐