假设我的数据集
Name Num Label
0 K 10 0
1 K 21 0
2 K 31 0
3 K 41 1
4 Y 9 0
5 Y 19 0
6 Y 14 1
7 B 33 0
8 B 43 0
9 B 77 1
10 B 89 1
11 S 14 0
12 S 20 1
13 S 33 1
14 S 55 1
所以我使用了pivot表,使用count
df.pivot_table(index='Name',columns='Label', values='Num', aggfunc = 'count')
结果
COUNT
Name 0(label) 1(label)
K 3 1
Y 2 1
B 2 1
S 1 3
我需要比较两个值(标签:0,标签:1),但我想在设置计数值后进行计算
但是,许多值都试图放置中间值
例如,对于K,有3个标记为0的值和1个标记为1的值。
要与标记为“1”的值进行比较的标记为“0”的值是21(11、21、31)的中值
在dataframe上面,作为示例数据,count的值在一侧为1,但count的值可能是多个
例如,标记为“0”的值的数量可能是10,标记为“1”的值的数量可能是30
即使在这种情况下,为了比较和匹配10个值,需要在30个值中使用10个中间值(labeld数据集“1”)
*如果您不理解,请留下评论
最终结果的计数结果应如下所示。
COUNT(The median value is applied to the value with a small count.)
Name 0(label) 1(label)
K 1 1
Y 1 1
B 1 1
S 1 1
或者,当有多个值时,有可能得到我想要的数字的中位数吗
例如,值=1、2、3、4、5、6、7、8、9、10
如果我想要4个值为->;4,5,6,7
谢谢你的阅读
0条回答
目前没有回答