« Data : attention à la panne de sens »

Joël Bizingre, associé chez Conix Consulting, publie un post en relation directe avec le chantier PxData. Il exprime une philosophie que nous partageons : l’exploitation de la technologie des x-data (où x vaut « big », « open », « smart », etc.) suppose toujours un effort de « sémantisation ». Pour le dire plus clairement, la donnée n’est utile que quand on retrouve sa signification.

En pratique, on ne peut pas faire l’économie d’un modèle sémantique. L’idée sera même d’anticiper la disponibilité des données et d’enrichir le modèle sémantique de l’entreprise pour pouvoir accueillir plus facilement les données, quand elles se présenteront.

Les entreprises peuvent facilement acquérir des données externes, pour une dépense modique. Cette dépense est tout de même un gaspillage si l’entreprise ne sait pas comment exploiter ces données. La solution passe par un modèle sémantique qui intègre les concepts manifestés par ces données et qui les relie aux objets connus de l’entreprise.

Voir « Data : attention à la panne de sens« .

Ce papier fixe la philosophie qui préside au chantier PxData. Il mentionne, d’ailleurs, deux des procédés disponibles. Le chantier, accompagné par Praxademia, débouchera sur une contribution du cabinet Conix Consulting à Praxeme.

Site web de Conix Consulting

La donnée : du sens au code

La présentation commentée de la conférence « La donnée : du sens au code », donnée par Dominique Vauquier lors du Symposium Praxeme 2015, est disponible sur le site du Praxeme Institute : http://wiki.praxeme.org/index.php?n=Syllabus.SYE03.

L’ensemble des matériaux utilisés lors du Symposium, notamment pour la conférence de Joël Bizingre sur les big data et celle de Fabien Villard sur l’estimation des charges, se trouve rassemblé sur la page : http://wiki.praxeme.org/index.php?n=News.Symposium2014.

Big data : la nécessaire sémantisation des données

En exploitant les nouvelles sources de données, à un moment ou à un autre, se pose la question de la signification de ces données. Également, pour tirer un plus grand profit de la connaissance acquise, la donnée doit être rapportée à un concept, c’est-à-dire à l’objet (physique ou abstrait) qui la porte. Elle doit s’articuler aux autres facettes de cet objet.
C’est le rôle de la modélisation sémantique de dégager la signification des données, de les formaliser en tant que propriétés du concept et de les inscrire dans une structure manipulable.

La modélisation sémantique apparaît donc comme un outil incontournable pour bénéficier des techniques X-data. En retour, les X-data influent sur la modélisation sémantique – sinon sur ses procédés, du moins sur son contenu. Notamment :

  • assimilation de nouvelles propriétés dans le modèle sémantique (complétant les classes sémantiques, déjà identifiées, avec des « détails » issus des big data), particulièrement des propriétés de portée classe (valeurs agrégées, indicateurs issus des open data),
  • extension du modèle à des notions nouvelles (par exemple, meilleure description des objets appartenant à l’environnement de l’entreprise, les personnes, leurs relations, leurs comportements, les événements externes…),
  • évolution vers un « style » de modèle qui ménage leur place aux comportements, aux corrélations et aux anticipations (des catégories de propriétés que l’on peut considérer comme nouvelles ou, en tout cas, d’usage rare dans la modélisation classique), avec un enrichissement conséquent des automates à états et de la propagation des changements d’états.

Praxeme exhorte le modélisateur à ne pas réduire la connaissance du métier à celle des données. Le choix du terme « sémantique » en lieu et place de « conceptuel » découle de cette position, ce dernier terme évoquant fortement le modèle conceptuel des données alors que le modèle sémantique prend en charge le concept, tout le concept, sous ses trois facettes réconciliées dans l’unité de la classe : information, action, transformation.