Open Access
April 2017 The exact probability law for the approximated similarity from the Minhashing method
Soumaila Dembele, Gane Samb Lo
Afr. Stat. 12(1): 1199-1218 (April 2017). DOI: 10.16929/as/2017.1199.100

Abstract

We propose a probabilistic setting in which we study the probability law of the Rajaraman and Ullman $RU$ algorithm and a modified version of it denoted by $RUM$. These algorithms aim at estimating the similarity index between huge texts in the context of the web. We give a foundation of this method by showing, in the ideal case of carefully chosen probability laws, the exact similarity is the mathematical expectation of the random similarity provided by the algorithm. Some extensions are given.

Nous proposons un cadre probabilistique dans lequel nous étudions la loi de probabilité de l'algorithme de Rajaraman et Ullman $RU$ ainsi qu'une version modiée de cet algorithme notée $RUM$. Ces alogrithmes visent à estimer l'indice de la similarité entre des textes de grandes tailles dans le contexte du Web. Nous donnons une base de validité de cette méthode en montrant que pour des lois de probabilités minutieusement choisies, la similarité exacte est l'espérance mathématique de la similarité aléatoire donnée par l'algorithme RUM. Des généralisations sont abordées.

Citation

Download Citation

Soumaila Dembele. Gane Samb Lo. "The exact probability law for the approximated similarity from the Minhashing method." Afr. Stat. 12 (1) 1199 - 1218, April 2017. https://doi.org/10.16929/as/2017.1199.100

Information

Received: 1 March 2017; Revised: 3 April 2017; Published: April 2017
First available in Project Euclid: 22 April 2017

zbMATH: 1362.62033
MathSciNet: MR3638979
Digital Object Identifier: 10.16929/as/2017.1199.100

Subjects:
Primary: 62E15 , 62F12 , 68Q97 , 68R05 , 68R15

Keywords: algorithms , convergence of algorithms , estimation , Minshashing , probability laws , similarity

Rights: Copyright © 2017 The Statistics and Probability African Society

Vol.12 • No. 1 • April 2017
Back to Top