Cahier 2012-29

Titre :Comment tuer les inventeurs: une évaluation de l’Algorithme Massacrator© pour désambiguïser les inventeurs
Résumé :La désambiguïsation de noms des inventeurs est un problème de plus en plus important pour les utilisateurs de données de brevets. Nous proposons et testons un certain nombre d'améliorations à l'algorithme Massacrator ©, proposé initialement par Lissoni et al. (2006) et maintenant appliqué à APE-INV, une base de données en accès libre soutenue par l’European Science Foundation. D'après Raffo et Lhuillery (2009), nous décrivons la désambiguïsation comme un processus en 3 étapes: nettoyage et analyse, sélection et filtrage. Par le biais d'une analyse de sensibilité, basée sur des simulations MonteCarlo, nous montrons comment divers critères de filtrage peuvent être manipulés afin d'obtenir des combinaisons optimales de précision et de recall (type I et type II des erreurs). Nous montrons aussi comment ces combinaisons différentes produisent des résultats différents, plus ou moins fiables en fonction des applications prévues (études sur la productivité, la mobilité ou les réseaux des inventeurs). Les critères de filtrage basés sur les informations sur les adresses des inventeurs sont sensibles à la qualité des données, alors que celles fondées sur l'information sur les réseaux de co-inventeurs sont toujours efficaces. Des détails sur l'accès aux données et sur la collecte des retours d'information par les utilisateurs (ayant pour but l'amélioration de la qualité des données) sont également discutés.
Mot(s) clé :données de brevets, inventeurs, désambiguïsation de noms
Title:How To Kill Inventors: Testing The Massacrator© Algorithm For Inventor Disambiguation
Abstract:Inventor disambiguation is an increasingly important issue for users of patent data. We propose and test a number of refinements to the Massacrator© algorithm, originally proposed by Lissoni et al. (2006) and now applied to APE-INV, a free access database funded by the European Science Foundation. Following Raffo and Lhuillery (2009) we describe disambiguation as a 3-step process: cleaning&parsing, matching, and filtering. By means of sensitivity analysis, based on MonteCarlo simulations, we show how various filtering criteria can be manipulated in order to obtain optimal combinations of precision and recall (type I and type II errors). We also show how these different combinations generate different results for applications to studies on inventors' productivity, mobility, and networking. The filtering criteria based upon information on inventors' addresses are sensitive to data quality, while those based upon information on co-inventorship networks are always effective. Details on data access and data quality improvement via feedback collection are also discussed.
Keyword(s):patent data, inventors, name disambiguation
Auteur(s) :Michele PEZZONI (University of Milano-Bicocca - KiTES-Università Bocconi - Observatoire des Sciences et des Techniques), Francesco LISSONI (GREThA, CNRS, UMR 5113 - KiTES), Gianluca TARASCONI (KiTES, Università Bocconi)
JEL Class.:C15, C81, O34

Télécharger le cahier

Retour à la liste des Cahier du GRETHA (2012)


© GREThA 1999-2017