Sì, ma allora dovresti "proprio" documentarti riguardo le architetture numa e come funzionano, visto i server che usate!
Su questi server immagino avrai un gran quantitativo di ram, vero? Beh, Non pensare ad esempio che se hai tutti i 4 Tb che gestiscono (con 8 socket) la ram sia gestita tutta da una CPU. Ognuna gestisce una parte della memoria, e in caso una VM nel nostro caso (o un thread di un pocesso...) richieda più memoria, oppure la stessa sia salvata su aree gestite da differenti CPU, allora dovrà attraversare il bus condiviso (QPI come lo chiama Intel) e leggere/scrivere la memoria gestita da un'altra CPU, con ovvie fluttuazioni nelle prestazioni.
Qui probabilmente lo spiegano meglio di me:
Office of the CTO | vNUMA: What it is and why it matters
E per chi possa pensare leggendo che sono fisime e stiamo parlando di microsecondi, errore. Le differenze di prestazioni si sentono. Ad esempio usando una scheda Fusion-IO, capace di fare 100k IOPs circa, ho visto questi numeri su un sistema dual socket 6-core, mentre su un 8-socket andava molto ma molto peggio, perchè si perde più tempo ad attraversare in lungo e in largo il bus che a processare dati...
Ho capito che non hai scelto tu l'architettura, ma spero chi l'abbia fatto abbia avuto motivazioni valide, fondamentalmente che ci sia almeno 1 VM che richieda il quantitativo di RAM gestito dal quel server fisico. E cmq, io avrei fatto un piccolo cluster a 2 nodi per la singola VM "monster" e tenuto un cluster di tanti server medi per tutte le altre. Come ha detto Francesco, il failure domain (la quantità di VM nel nostro caso che potrebbero crashare) qui è gigantesco...