Bag of Words

Tasche von Wörtern ist ein einfaches Modellierungskonzept, wo nur die Menge der Wörter Materie. Es vereinfacht die dokumentieren zur Modellierung Zweck, durch die Reihenfolge der Wörter zu entfernen. Sagen wir, Es ist ein Dokument, das den folgenden Inhalt hat.

Taj Mahal

Der Bau des Mausoleums wurde im Wesentlichen abgeschlossen in 1643 aber die Arbeit fortgesetzt auf anderen Phasen des Projektes für einen anderen 10 Jahre. Der Taj Mahal Komplex wird angenommen, dass in ihrer Gesamtheit abgeschlossen wurde 1653 zu einem Preis zu der Zeit auf rund 32 Millionen seinRupien, welches in 2015 würde etwa 52,8 Milliarden Rupien (UNS. $827 Million). Das Projekt Bau beschäftigt einige 20,000 Handwerker unter der Leitung eines Brettes von Architekten von Hofbaumeister dem Kaiser führte, Ustad Ahmad Lahauri.

https://en.wikipedia.org/wiki/Taj_Mahal

Für einen Menschen, jedes der Worte (bezeichnet als Bedingungen), ihre genaue Reihenfolge Angelegenheiten. Aber wann ist dies von einem Computer verarbeitet werden, Dieses Modell ist zu komplex (für einige Anwendungsfälle). Was passiert, wenn wir die Reihenfolge der Worte wegzuwerfen, und behandeln nur das Dokument als ein “Tasche von Wörtern”. Diese Art der Modellierung wird die Bedeutung des Dokuments verlieren. d.h.. Sie werden feststellen, der Lage sein, den Unterschied nicht zwischen “David tötete Goliath” und “Goliath tötete David”. Wenn die Aufgabe ist Clustering von Dokumenten zu tun, d.h.. setzen Dokumente, die über ähnliche Sachen reden miteinander, oder Klassifizierung, dann dieser Bogen Modellierung ist gut genug. Beide Dokumente sprechen von David, Goliath und getötet, so könnten sie ähnlich sein.

Hinterlasse eine Antwort

Deine Email-Adresse wird nicht veröffentlicht.