]: In [254]: In [ ]: Out[276]: [["carte d'identite", '597'], ['carte d identité', '438'], ['carte d’identité', '410'], ["carte d'identit", '408'], ["carte d'identité", '170'], ['carte didentité', '54'], ["carte d'indentité", '43'], ["carte d'identitée", '28'], ["carte d'identié", '20'], ["carte d'idendité", '17'], ["carte d'dentité", '15'], ["cartes d'identité", '13'], ["carte d'identit", '12'], ["carte d'identitié", '11'], ["carte d'ientité", '11'], ["carte d'identité", '8'], ["carte d'identités", '8'], ["carte d 'identité", '6'], ['carte d´identité', '6'], [' t d id tité' '6'] Out[254]: ['cerfa', '6269'] # examples clean up logs by removing similar requests from Levenshtein import distance def find_similar_queries(query, dist = 1): sim = [distance(q[0], query) for q in logs] small_sim = [l for l, s in zip(logs, sim) if s <= dist] return small_sim find_similar_queries("carte d'identité") 286 ms logs[22]