

不是我数的,AI数的,给出的结果是1476.556884765625。驼子的照片压过,看不清后面的人,还有些只见手臂不见头的,就数不上,所以应该是数少。(好像四个驼也没数上?但远处墙上几个V也数进去了...)
翻了一圈是 Variations-of-SFANet-for-Crowd-Counting 这个组的代码最容易用,所以就用它了。不过这组的标记图不是很直观。标记清晰直观的有不少,但代码都不是即插即用...就没研究。
用的是他们给的M-SegNet模型。
arxiv.org/abs/2003.05586