Nel 1998 Google lanciò il suo motore di ricerca, inizialmente chiamato Backrub, che operava su un server del campus di Stanford con 40 GB di dati e alloggiato in un case fatto di blocchi Duplo. A partire dal 2025, le funzionalità di ricerca di Google richiederanno più data center.
Ryan Pearce ha creato un motore di ricerca fai-da-te chiamato Searcha Page, inclusa una versione incentrata sulla privacy denominata Seek Ninja, con il server situato nella sua lavanderia accanto alla lavatrice e all’asciugatrice. Pearce afferma: “In questo momento, nella lavanderia, ho più spazio di archiviazione di quello che aveva Google nel 2000. Ed è semplicemente folle pensarci”.
Inizialmente il server si trovava nella camera da letto di Pearce, ma è stato spostato nel ripostiglio a causa del caldo eccessivo. “Il caldo non è stato assolutamente terribile, ma se la porta rimane chiusa troppo a lungo è un problema”, dice.
I risultati di Searcha Page stanno migliorando, con il suo database contenente 2 miliardi di voci, che dovrebbero raggiungere i 4 miliardi entro sei mesi. In confronto, Google aveva 24 milioni di pagine nel 1998 e 400 miliardi nel 2020, come rivelato durante il processo antitrust USA contro Google LLC.
Il motore di Pearce utilizza modelli linguistici di grandi dimensioni per l’espansione delle parole chiave e la comprensione del contesto. “Quello che sto facendo è in realtà una ricerca molto tradizionale”, afferma Pearce. “È quello che Google ha fatto probabilmente 20 anni fa, tranne che l’unica modifica è che utilizzo l’intelligenza artificiale per espandere le parole chiave e aiutare nella comprensione del contesto, che è la cosa difficile.”
L’intelligenza artificiale è stata una parte fondamentale dei motori di ricerca, inclusi strumenti come la ricerca inversa di immagini, RankBrain di Google e i risultati basati su ML al 90% di Bing nel 2019. L’intelligenza artificiale è ora vista come un modo per costruire e scalare i motori di ricerca in modo efficiente.
Pearce utilizza l'”arbitraggio degli aggiornamenti”, acquistando hardware server vecchio ma potente. La sua CPU AMD EPYC 7532 a 32 core, che costava oltre $ 3.000 nel 2020, ora costa meno di $ 200 su eBay. “Avrei potuto acquistare un altro chip allo stesso prezzo, che avrebbe avuto il doppio dei thread, ma avrebbe prodotto troppo calore”, afferma.
L’intero sistema è costato 5.000 dollari, di cui 3.000 spesi per lo storage. La base di codice di Pearce è di circa 150.000 righe di codice, con circa 500.000 righe di lavoro iterativo.
Searcha Page e Seek Ninja utilizzano SambaNova per un rapido accesso al modello Llama 3 a basso costo. Annie SheaWeckesser, CMO di SambaNova, osserva che l’accesso a modelli a basso costo sta diventando sempre più essenziale per gli sviluppatori solisti come Pearce, aggiungendo che l’azienda sta “offrendo agli sviluppatori gli strumenti per eseguire potenti modelli di intelligenza artificiale in modo rapido e conveniente, sia che lavorino da casa o che lavorino in produzione”.
Pearce utilizza il repository Common Crawl per creare il suo crawler. “Li apprezzo davvero. Vorrei poter restituire loro qualcosa, ma forse quando sarò più grande”, dice.
Un primo tentativo di utilizzare un database vettoriale è fallito, ottenendo risultati “molto artistici”. Pearce ora utilizza i riepiloghi delle pagine generati da LLM. Wilson Lin, un altro sviluppatore di motori di ricerca fai-da-te, utilizza uno strumento di ricerca vettoriale auto-creato chiamato CoreNN e si affida a nove servizi cloud separati per mantenere bassi i costi. “È molto più economico di [Amazon Web Services]: una cifra significativa”, afferma Lin. “E mi dà abbastanza capacità per portare avanti questo progetto con un budget ragionevole.”
Pearce originariamente immaginava un motore di ricerca per piccoli siti simile a Marginalia, favorendo i piccoli siti rispetto alle Big Tech. “Qualcuno dalla Cina in realtà mi ha contattato perché… penso che volesse un motore di ricerca senza censure da alimentare attraverso il suo LLM, come la ricerca del suo agente”, dice.
L’espansione oltre l’inglese richiederebbe nuovi set di dati. Pearce prevede di spostare il motore di ricerca in una struttura di colocation una volta che il traffico avrà raggiunto una determinata soglia e sta generando entrate modeste attraverso la pubblicità in stile affiliato.
“Il mio piano è che se supero una certa quantità di traffico, verrò ospitato”, afferma Pearce. “Non resterà in quella lavanderia per sempre.”
La scadenza per le iscrizioni ai premi delle aziende più innovative di Fast Company è venerdì 3 ottobre alle 23:59. P.T.






