Bolsa de Palabras

Bolsa de palabras es un concepto de modelado sencillo, donde sólo el conjunto de palabras cuestión. Simplifica el documento para el propósito de modelado, retirando el orden de las palabras. Digamos, hay un documento que tiene el siguiente contenido.

Taj Mahal

Construcción del mausoleo se completó esencialmente en 1643 pero se continuó trabajando en otras fases del proyecto para otra 10 años. El complejo del Taj Mahal se cree que ha sido completado en su totalidad en 1653 a un costo estimado en el momento de ser alrededor de 32 millonesrupias, En cual 2015 sería de aproximadamente el 52,8 mil millones de rupias (NOSOTROS. $827 millón). El proyecto de construcción empleó algunos 20,000 artesanos bajo la guía de un consejo de arquitectos dirigidos por el arquitecto de la corte del emperador, Ustad Ahmad Lahauri.

https://en.wikipedia.org/wiki/Taj_Mahal

Para un ser humano, cada una de las palabras (denominado Condiciones), sus asuntos orden exacto. Pero cuando se trata de ser procesados ​​por un ordenador, este modelo es demasiado complejo (para algunos casos de uso). ¿Qué pasa si tiramos el orden de las palabras, y simplemente tratar el documento como una “Bolsa de palabras”. Este tipo de modelado perderá el significado del documento. es decir. usted no será capaz de encontrar la diferencia entre “David mató a Goliat” y “Goliat David mató”. Si la tarea es hacer la agrupación de los documentos, es decir. poner los documentos que hablan de cosas similares juntas, o clasificación, entonces este modelado arco es suficientemente bueno. Ambos documentos están hablando de David, Goliat y ser matado, por lo que podrían ser similares.

Deja una respuesta

su dirección de correo electrónico no será publicada.