Avez-vous déjà entendu parler de Wikidata ? Il s’agit d’un projet connexe à l’immense encyclopédie en ligne Wikipedia.

Wikidata pour extraire des données de WIkipedia

Wikidata pour extraire des données de WIkipedia

Wikidata est un projet d’une grande envergure, son objectif n’est ni plus ni moins que de structurer Wikipédia. La première étape consiste à regrouper pour un même article l’ensemble des liens existants dans toutes les langues. Par exemple, pour l’article sur la population mondiale que vous pouvez voir ci-dessous, les liens emmenant vers les articles dans chaque langue sont affichés dans le tableau.

Pourquoi faire cela ? Il faut savoir que seulement quatre langues sont principalement représentées dans Wikipédia, l’anglais, le français, l’allemand et le néerlandais. Les autres langues sont nettement moins représentées. Wikidata permet donc d’interconnecter les différentes versions linguistiques pour faciliter leurs accès. Ainsi, un sujet est centralisé pour chaque langue.

Wikidata pour extraire des données de WIkipedia

Wikidata pour extraire des données de WIkipedia

Wikidata – Partage de données entre communautés

Le deuxième point qui sera déterminant dans le projet Wikidata est le regroupement de données en vue de les centraliser et de les partager entre les différentes langues. On a indiqué plus haut que certaines langues étaient moins représentées que d’autres, un des objectifs de Wikidata sera de stocker les données qui se répètent, par exemple, les recensements de villes ou des dates de naissance de célébrités.

Ces données seront stockées dans une base de données commune à toutes les versions linguistiques permettant ainsi de facilement et rapidement utiliser celles-ci dans toutes les langues.Wikidata structure Wikipédia

En d’autres termes, l’objectif serait de créer une immense base de données comportant des statistiques et des informations facilement manipulables par des machines (des robots par exemple, vous allez comprendre l’intérêt) ou par des utilisateurs du monde entier pour utiliser ces données dans leur langue.

Le projet est colossal et basé en Allemagne, les moyens à mettre en œuvre sont importants et l’un des principaux sponsors n’est autre que Google, très intéressé par la possibilité de pouvoir obtenir des données faciles à lire par des machines (et principalement leurs robots).

Autrement dit, Wikidata pourrait devenir le moteur de recherche idéal en termes de données pour, par exemple, connaître le recensement des communes finlandaises disponible théoriquement que sur le Wikipédia Finlandais, désormais les données seront disponibles en quelques clics. Il s’agit donc d’un projet très important et intéressant à suivre.

Statistiques sur les données

Le projet a évolué de manière importante depuis sa création. Vous pouvez consulter la page des statistiques du projet. Vous y découvrirez notamment que celui-ci stock près de 45 millions d’éléments qui peuvent être partagés entre les langues. Depuis le début du projet, plus de 600 millions d’éléments ont été modifiés et actualisés.

Plus de 19 000 utilisateurs sont actifs pour maintenir la base de données et augmenter le stock d’information. Le projet est donc une incroyable ressource à exploiter. Pour cela on peut notamment utiliser des requêtes pour extraire les données qui nous intéressent.

Les requêtes pour exporter les données

De nombreux projets ont vu le jour pour extraire les données du projet Wikidata (qui est fait pour cela). Ci-dessous, voici la page qui permet de faire des extractions sur le site lui-même.

Requêtes pour extraire des données dans Wikidata

Requêtes pour extraire des données dans Wikidata

Dans le cadre d’un projet personnel, j’ai déjà eu recours à l’extraction de données dans Wikidata, c’est incroyable les possibilités qui s’offrent à vous pour récupérer des données en masse. Un autre avantage du projet, c’est que vous pouvez récupérer les informations dans le format JSON et les traiter avec PHP pour créer des pages web. Si vous êtes intéressé par les banques de données en ligne, vous serez forcément intéressé par Wikidata.