Borsa di parole

Sacchetto di parole è un semplice concetto di modellazione, dove solo l'insieme delle parole materia. Si semplifica la documento allo scopo di modellazione, rimuovendo l'ordine delle parole. Diciamo, v'è un documento che ha il seguente contenuto.

Taj Mahal

La costruzione del mausoleo fu essenzialmente completata nel 1643 ma sono proseguite altre fasi del progetto per un'altra 10 anni. Il complesso Taj Mahal si crede sia stata completata in ogni sua parte in 1653 ad un costo stimato, al momento di essere in giro 32 milionirupie, in cui 2015 sarebbe pari a circa 52,8 miliardi di rupie (NOI. $827 milione). Il progetto di costruzione impiegato un po ' 20,000 artigiani sotto la guida di un consiglio di architetti guidati dall'architetto di corte all'imperatore, Ustad Ahmad Lahauri.

https://en.wikipedia.org/wiki/Taj_Mahal

Per un essere umano, ciascuna delle parole (denominato condizioni), le loro esatte questioni di ordine. Ma quando questo deve essere elaborato da un computer, questo modello è troppo complesso (per alcuni casi di utilizzo). Che cosa succede se gettiamo via l'ordine delle parole, e solo trattare il documento come un “Borsa di parole”. Questo tipo di modellazione perderà il significato del documento. cioè. non sarà in grado di trovare la differenza tra “David uccise Golia” e “Goliath ucciso David”. Se il compito da svolgere è quello di fare il clustering di documenti, cioè. mettere i documenti che parlano di roba simile insieme, o classificazione, allora questo modellazione arco è abbastanza buono. Entrambi i documenti si parla di David, Golia e di essere ucciso, quindi potrebbero essere simili.

lascia un commento

L'indirizzo email non verrà pubblicato.