Un elemento altamente opinabile resta sempre quello relativo alla quantità
di informazioni realmente indicizzate e disponibili. Come si vede dagli
esempi elencati, le unità di misura sono piuttosto difformi anche
se forse, al di là della terminologia usata, si tende ad indicare
cose analoghe: "documents" e "pages", URL, siti e "resources"
e così via.
Non è dato poi conoscere con quale criterio siano scelte (se lo
sono) le fonti indicizzate. Ma questo è un problema al quale arriveremo
più tardi.
Webcrawler
-------------> 145.166 servers
WWWW
Worm --------> 3 milioni di URL
Open
Text ---------------> 10 miliardi di parole
LYCOS
-------------------> 91% dei siti WEB
Excite
---------------------> 11,5 milioni di pagine
Altavista
-----------------> 30 milioni di pagine
Inktomi
------------------> documents
Harvest
------------------> objects / pages
NetFirst
-----------------> resources
Sia nell'uno che nell'altro caso, molti non dichiarano niente e forse é meglio. Alcuni motori propongono ricerche sulle proprie selezioni attraverso delle raccolte di"reviews" (recensioni). Gli autori del motore Excite a tale riguardo sono molti chiari dichiarando di indicizzare effettivamente l'intero contenuto delle pagine WEB; a differenza di altri, inoltre, non calcolano tra le pagine indicizzate i vari "legami" ad altre pagine. E, a proposito di chi si comporta diversamente, dichiarano:
"E' come se si dichiarasse che una enciclopedia é di 24 volumi di cui 3 di testo effettivo e 21 di "vedi anche" e vari altri rinvii.
Crediamo che il modo più onesto per misurare le dimensioni sia quello di fare riferimento alle pagine a testo pieno."