Ce texte a été traduit automatiquement et peut donc différer de l'original. Aucun droit ne peut être dérivé de cette traduction.
En 2017, Dialogic a réalisé une mission pour Rijkswaterstaat consistant à analyser les listes de termes des municipalités. L'objectif était d'identifier les données pouvant être utilisées et les étapes nécessaires pour les analyser. À la demande du programme et de la VNG, il a été demandé d'actualiser et d'étendre cette recherche. Le gouvernement souhaite simplifier et regrouper les règles de développement spatial avec la loi sur l'environnement. Dans cette recherche, nous examinons dans quelle mesure nous pouvons harmoniser les termes de la loi sur l'environnement entre les municipalités en utilisant des méthodes de text-mining et d'apprentissage automatique.
Le text-mining permet de structurer des ensembles de données non structurées. En utilisant diverses mesures de distance telles que la similarité de Jaccard, il est possible de calculer comment les textes se différencient les uns des autres sur de grandes quantités de texte. La similarité de Jaccard est utilisée non seulement à des fins de text-mining, mais également dans la détection de plagiat ou les systèmes de recommandation.
Prenez par exemple le terme "événement". Dans deux municipalités différentes, des définitions légèrement différentes de ce terme sont utilisées :
Municipalité 1 : toutes les activités de divertissement accessibles au public, notamment : ...
Municipalité 2 : toute activité de divertissement accessible au public, à l'exception de : ...
Lors du calcul de la similarité de Jaccard, le ratio entre l'intersection (nombre de mots présents à la fois dans l'ensemble 1 et dans l'ensemble 2) et l'union (le nombre de mots uniques) est calculé. Le tableau ci-dessous illustre comment l'intersection entre les deux ensembles est calculée.
Une fois que la similarité de Jaccard a été calculée, une valeur de seuil doit être déterminée. Cette valeur de seuil est réglée de manière à garantir avec une grande certitude que deux termes sont égaux.
Après avoir utilisé les méthodes de text-mining pour identifier les termes qui se correspondent étroitement, on peut ensuite classifier de nouveaux termes futurs à l'aide des algorithmes d'apprentissage automatique. En attribuant des étiquettes à la liste de termes non structurée, on peut prédire, par exemple avec un Support Vector Machine ou un Deep Neural Network, dans quelle mesure un nouveau terme correspond à l'un des termes standardisés. De cette manière, non seulement nous structurons les termes existants, mais nous créons également des cadres pour la formation de nouveaux termes.
Les méthodes développées ont de nombreuses applications en dehors de la recherche sur la loi sur l'environnement. Par exemple, la distance de Jaccard peut être utilisée pour comparer n'importe quelle collection d'éléments ensemble, pas seulement à des fins de text-mining (bien que très utile pour cela). Les algorithmes d'apprentissage automatique peuvent être appliqués à n'importe quel problème de classification envisageable. Sur la page Data Science et Dashboards, vous pouvez tester certains de ces algorithmes vous-même. Cela inclut un réseau neuronal qui prédit la fonction d'une offre d'emploi dans le domaine de l'éducation.


