IDENTIFYING SIMILAR DOCUMENTS IN A FILE REPOSITORY USING UNIQUE DOCUMENT SIGNATURES
Fuente:
Wipo "digitalization"
Methods, systems, and non-transitory computer readable storage media are disclosed for determining clusters of similar digital documents using unique document signatures. Specifically, the disclosed system processes digital text in a digital document to tokenize character strings (e.g., words) in the digital document by combining a subset of character values and string lengths in the character strings. Additionally, the disclosed system generates a document signature for the digital document by combining subsets of tokens generated for the digital document into a token sequence indicative of the digital text in the digital document. The disclosed system determines a cluster of similar digital documents including the digital document by comparing the document signature of the digital document to document signatures corresponding to a plurality of digital documents.
Al elegir "Aceptar todas las cookies", acepta el uso de cookies para ayudarnos a brindarle una mejor experiencia de usuario y analizar el uso del sitio web. Al hacer clic en "Ajuste sus preferencias" puede elegir qué cookies permitir. Solo las cookies esenciales son necesarias para el correcto funcionamiento de nuestro sitio web y no pueden ser rechazadas
Configuración de cookies
Nuestro sitio web almacena cuatro tipos de cookies. En cualquier momento puede elegir qué cookies acepta y cuáles rechaza. Puede obtener más información sobre qué son las cookies y qué tipos de cookies almacenamos en nuestra Política de cookies.
Son necesarios por razones técnicas. Sin ellos, es posible que este sitio web no funcione correctamente.
Son necesarios para una funcionalidad específica en el sitio web. Sin ellos, algunas funciones pueden estar deshabilitadas.
Nos permite analizar el uso del sitio web y mejorar la experiencia del visitante
Permítanos personalizar su experiencia y enviarle contenido y ofertas relevantes, en este sitio web y en otros sitios web