Sac de mots

Sac de mots est un concept simple de modélisation, où seul l'ensemble des mots question. Il simplifie la document à des fins de modélisation, en supprimant l'ordre des mots. Disons, il y a un document qui a le contenu suivant.

Taj Mahal

La construction du mausolée a été essentiellement achevée en 1643 mais le travail a continué sur d'autres phases du projet pour une autre 10 années. Le complexe du Taj Mahal est censé avoir été achevé dans son intégralité 1653 à un coût estimé à l'époque à environ 32 millionsroupies, qui 2015 serait d'environ 52,8 milliards de roupies (NOUS. $827 million). Le projet de construction employait quelque 20,000 artisans sous la direction d'un conseil d'architectes dirigé par l'architecte de la cour à l'empereur, Ustad Ahmad Lahauri.

https://en.wikipedia.org/wiki/Taj_Mahal

Pour un être humain, chacun des mots (appelé termes), leurs questions d'ordre exact. Mais quand cela doit être traité par un ordinateur, ce modèle est trop complexe (pour certains cas d'utilisation). Et si nous jetons l'ordre des mots, et juste traiter le document comme “Sac de mots”. Ce genre de modélisation va perdre le sens du document. à savoir. vous ne serez pas en mesure de trouver la différence entre “David a tué Goliath” et “Goliath a tué David”. Si la tâche est de faire le regroupement des documents, à savoir. mettre des documents qui parlent de choses semblables ensemble, ou classement, alors cette modélisation BOW est assez bon. Les deux documents parlent de David, Goliath et être tué, de sorte qu'ils pourraient être similaires.

Laisser un commentaire

Votre adresse email ne sera pas publiée.