Chi siamo
Come nasce il progetto
Ciao! Sono Andrea, un ingegnere informatico con un background in Web Information and Data Engineering. Mi è sempre piaciuto lavorare con i dati, il web e progetti concreti, quelli che trasformano una curiosita in qualcosa di tangibile.
Ogni lunedì guardo HumanSafari e le sue avventure in giro per il mondo. Se hai visto i suoi video, sai che spesso esplora supermercati locali ed ha una passione per ricercare i prezzi della Nutella nei diversi paesi. Il nome "Nutela Index" deriva proprio da lì e ad un certo punto mi sono chiesto:
Perche non trasformare questa idea in un progetto concreto che vada oltre un semplice foglio Excel?
Per i curiosi e i geek
Ecco una panoramica più tecnica di come questo dataset è nato, visto che ovviamente non potevo riguardare migliaia di ore di video per estrarre i dati manualmente:
- Tutto è iniziato con lo scraping delle trascrizioni di tutti i video di Nicolò.
- Ho usato una semplice regex su "Nutella" per individuare i passaggi rilevanti.
- Per ogni match ho estratto una finestra di contesto e cercato riferimenti vicini a prezzi e pesi.
- Ho normalizzato i dati usando delle altre espressioni regolari per estrarre peso, prezzo locale e valuta.
- Quando possibile, ho inferito il paese dal titolo del video.
- Poi ho usato l'AI per etichettare ogni voce in categorie: pronta, dato mancante, ambigua, falso positivo.
- Infine, ho revisionato tutto manualmente, spesso tornando al punto esatto del video citato nella trascrizione.
Il risultato
Potrei aver perso qualche voce lungo la strada, ma sono riuscito a costruire un dataset pulito e utilizzabile senza dover guardare migliaia di ore di filmati.
E soprattutto, ho trasformato una bella idea in qualcosa che puoi esplorare, confrontare e, magari, migliorare con il tuo contributo!
Se questo progetto ti piace anche solo lontanamente quanto e piaciuto a me costruirlo, per me e gia una vittoria 🙂
Se vuoi esplorare il progetto da un altro punto di vista, vai alla guida, leggi le informazioni sui dati oppure contribuisci con una nuova segnalazione.