pandas, 熊貓對(duì)groupby的用法有什么詳細(xì)解釋?不知道小伙伴們今天來看看邊肖的分享吧!
在熊貓中,社交領(lǐng)域根據(jù)用戶畫像(性別、年齡)對(duì)用戶進(jìn)行細(xì)分,對(duì)用戶使用和偏好的研究主要由groupby完成。
Groupby的基本原則:
在pandas中,分組操作的代碼非常簡(jiǎn)單,只需要一行代碼。這里上面的數(shù)據(jù)集是按照公司字段劃分的:in [5]: group=data。分組依據(jù)(公司)。
將上述代碼輸入ipython后,您將獲得一個(gè)DataFrameGroupBy對(duì)象。
In [6]: group
Out[6]: pandas.core.groupby.generic.DataFrameGroupBy object at0x000002B7E2650240
那么這個(gè)生成的DataFrameGroupBy是什么呢?groupby on data之后發(fā)生了什么?ipython返回的結(jié)果是它的內(nèi)存地址,不利于直觀理解。為了了解群體內(nèi)部的情況,
在這里,組被轉(zhuǎn)換成列表的形式:
In [8]: list(group)
Out[8]:
[(A, company salary age
3 A 20 22
6 A 23 33),
(B, company salary age
4 B 10 17
5 B 21 40
8 B 8 30),
(C, company salary age
0 C 43 35
1 C 17 25
2 C 8 30
7 C 49 19)]
轉(zhuǎn)換成列表后,可以看出列表由三個(gè)元組組成。在每個(gè)元組中,第一個(gè)元素是一個(gè)組(這里是按公司分組的,所以最后分為A、B、C),第二個(gè)元素是對(duì)應(yīng)組下的一個(gè)DataFrame。
整個(gè)過程可以說明如下:
總結(jié)一下,groupby的流程就是根據(jù)groupby(這里是company)的領(lǐng)域,把原來的數(shù)據(jù)幀分成若干個(gè)分組的數(shù)據(jù)幀,分組的數(shù)據(jù)幀有多少就有多少。
因此,一系列操作(如agg、apply等。)之后的groupby都是基于子數(shù)據(jù)幀操作。
pandas,以上就是本文為您收集整理的pandas最新內(nèi)容,希望能幫到您!更多相關(guān)內(nèi)容歡迎關(guān)注。