Aprire il sito agli agenti AI: llms.txt, JSON-LD esteso e versioni raw dei post
Metà del traffico di ricerca tecnica oggi passa per LLM, non per Google. Sei modifiche concrete — llms.txt, JSON-LD esteso, versioni raw .md dei post — per farsi trovare da ChatGPT, Claude e Perplexity.
Per anni la regola era semplice: scrivi contenuti buoni, mettici i meta tag giusti, e Google ti trova. Funzionava perché chi cercava qualcosa apriva una pagina di risultati e cliccava un link. Oggi una fetta crescente di quel traffico non passa più dalla pagina dei risultati: passa direttamente da una conversazione con ChatGPT, Claude o Perplexity. Quando qualcuno chiede "come integrare Mexal WebAPI con Next.js", il modello compone una risposta — e cita le fonti che ha trovato citabili. Se il tuo sito non è citabile, sei invisibile.
Il mio sito esisteva già con tutte le cose che la SEO classica chiede: sitemap, OpenGraph, JSON-LD Person minimo, canonical URL, lingua dichiarata. Mi mancava un livello sopra: rendere espliciti gli stessi contenuti in formati che gli LLM ingeriscono volentieri.
Ho fatto sei modifiche concrete. Tre sui metadati, tre sulla forma dei contenuti.
Sui metadati: ho aggiunto sameAs allo schema Person con i miei profili LinkedIn e GitHub, perché senza quei link i modelli non riescono a triangolare che l'Andrea del sito è la stessa persona del profilo professionale altrove. Ho aggiunto JSON-LD CreativeWork alle case study (prima ce l'aveva solo il diario come BlogPosting). Ho messo BreadcrumbList su tutte le pagine annidate, così la gerarchia è esplicita anche per chi non legge il menu visuale.
Sulla forma dei contenuti: ho creato llms.txt e llms-full.txt, lo standard emergente che è una specie di carta d'identità per modelli linguistici — un markdown pulito che dice chi sono, quali sono i contenuti chiave, dove sono. Ho elencato esplicitamente nel robots.txt GPTBot, ClaudeBot, PerplexityBot, Google-Extended e una decina di altri bot AI (tecnicamente il wildcard basterebbe, ma esplicitarli è un segnale di benvenuto). E soprattutto ho esposto per ogni post del diario una versione raw /diario/<slug>/index.md: gli scraper AI estraggono molto meglio da markdown grezzo che da HTML stilizzato pieno di div e classi Tailwind.
Tutto è automatico via postbuild script: ogni npm run build-and-deploy rigenera le tre rappresentazioni (HTML per umani, markdown raw per modelli, aggregato globale in llms-full.txt) a partire dagli stessi file MDX sorgente.
Quello che mi piace di questo cambio è che il sito non è cambiato: contiene esattamente le stesse parole di ieri. Ha solo aperto i microfoni. La discoverabilità per gli agenti AI non è un livello in più di marketing — è un livello in più di onestà: dire chiaramente, in formati che le macchine leggono bene, quello che già stai dicendo agli umani.
Tra qualche settimana verifico se Perplexity sa rispondere a "chi è Andrea Pellizzari?" senza inventarsi le competenze.