Depuis quelques posts, Botscorner s’attache à présenter des datasets dans ses botservatoires.
Ces datasets présentent un intérêt majeur : ils permettent, parfois à titre gracieux, d’accéder à des bases de données enrichies et standardisées. Plutôt que d’aller négocier des accords dispendieux avec les éditeurs ou leurs représentants, ces bases sont des marketplaces prisées.

cestquilepatron.com screenshot
Pourquoi acheter ses datas auprès des marketplaces plutôt qu’auprès des éditeurs ?
– Même quand le dataset affiche un user agent qui l’identifie sur toutes ses sessions, même quand le dataset a signé un accord avec un éditeur ou son ayant-droit, le client utilisateur final de la base est mécaniquement anonymisé. Que prévoit le contrat qui lie la marketplace à son client?
– la base est multi-titres, le contenus est frais, le format est standardisé, les contenus peuvent être enrichis, le guichet est unique, le tarif est très bas, le risque d’un audit sur les utilisations très éloigné.
-quand ces bases sont gratuites, les données sont alors partagées « for good » (la recherche). Vous pouvez néanmoins faire un don défiscalisé (ex: commoncrawl). Un don au dataset, pas à l’éditeur.
-certaines bases se constituent sur la base de recherches universitaires . Mais de ces recherches publiques peuvent sortir des entreprises privées. Par exemple, EventRegistry est une spin-off du Jožef Stefan Institute . C’est désormais une entreprise indépendante qui édite Newsapi.ai .
-Quand ces bases sont payantes, le tarif est compétitif. Quelle est la part de rémunération des éditeurs dans le prix à l’article proposé par ces quelques datasets ?
voici une revue des pages de tarifs de quelques unes de ces marketplaces:
archive.org (free, open for donation)
Commoncrawl.org (free, open for donation)
Opoint.com (non publié sur le site, mais a signé avec le CFC)
webz.io (des datas gratuits Webhose et des datas payants, tarif non publié sur le site, mais a signé avec le CFC)
etc.
-parfois adossées à des services de proxies tournants (ips jetables, bypass captchas), sur lesquels on pose des scrapers de contenus, le client ne paie que le contenu effectivement collecté.
Moralité : si l’éditeur ou son mandataire n’est pas co-contractant, la marketplace va être tenté de privilégier la fluidité d’un accord technique très peu rémunérateur pour l’éditeur.
