Bag of Words

Bag av ord är en enkel modellering koncept, där endast uppsättning ord materia. Det förenklar dokumentera för modellering ändamål, genom att ta bort ordningen på ord. Låt oss säga, Det är ett dokument som har följande innehåll.

Taj Mahal

Byggandet av mausoleum var i huvudsak klar i 1643 men arbetet fortsatte andra faser av projektet för en annan 10 år. Taj Mahal komplex tros ha slutförts i sin helhet i 1653 till en kostnad uppskattas till tid att vara omkring 32 miljonerrupier, i vilken 2015 skulle vara ca 52,8 miljarder rupier (OSS. $827 miljon). Byggprojektet används vissa 20,000 hantverkare under ledning av en styrelse av arkitekter som leds av domstol arkitekten till kejsaren, Ahmad Ustad.

https://en.wikipedia.org/wiki/Taj_Mahal

För en människa, vart och ett av orden (kallad Villkor), deras exakta orderfrågor. Men när detta skall behandlas av en dator, denna modell är för komplex (för vissa användningsfall). Vad händer om vi kastar bort ordningen på ord, och bara behandla dokumentet som en “Bag av ord”. Denna typ av modellering förlorar innebörden av dokumentet. d.v.s.. kommer du inte att kunna se skillnaden mellan “David dödade Goliat” och “Goliath dödade David”. Om uppgiften är att göra klustring av dokument, d.v.s.. sätta dokument som talar om liknande saker tillsammans, eller klassificering, då Denna båge modellering är bra nog. Båda dokumenten talar om David, Goliath och dödas, så att de kan vara liknande.

Lämna ett svar

Din e-postadress kommer inte att publiceras.