• 周日. 4月 28th, 2024

5G编程聚合网

5G时代下一个聚合的编程学习网

热门标签

如何适应标记数据帧中的数据数量

[db:作者]

3月 7, 2023

假设我的数据集

    Name Num Label
0   K    10    0
1   K    21    0 
2   K    31    0
3   K    41    1
4   Y    9     0
5   Y    19    0
6   Y    14    1
7   B    33    0
8   B    43    0    
9   B    77    1
10  B    89    1
11  S    14    0
12  S    20    1
13  S    33    1
14  S    55    1

所以我使用了pivot表,使用count

df.pivot_table(index='Name',columns='Label', values='Num', aggfunc = 'count')

结果

COUNT
Name   0(label)    1(label)
K      3           1
Y      2           1
B      2           1
S      1           3

我需要比较两个值(标签:0,标签:1),但我想在设置计数值后进行计算

但是,许多值都试图放置中间值

例如,对于K,有3个标记为0的值和1个标记为1的值。
要与标记为“1”的值进行比较的标记为“0”的值是21(11、21、31)的中值

在dataframe上面,作为示例数据,count的值在一侧为1,但count的值可能是多个

例如,标记为“0”的值的数量可能是10,标记为“1”的值的数量可能是30

即使在这种情况下,为了比较和匹配10个值,需要在30个值中使用10个中间值(labeld数据集“1”)

*如果您不理解,请留下评论

最终结果的计数结果应如下所示。

COUNT(The median value is applied to the value with a small count.)
Name   0(label)    1(label)
K      1           1
Y      1           1
B      1           1
S      1           1

或者,当有多个值时,有可能得到我想要的数字的中位数吗

例如,值=1、2、3、4、5、6、7、8、9、10

如果我想要4个值为->4,5,6,7

谢谢你的阅读

0条回答

目前没有回答

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注