Le Botservatoire , le bulletin des crawlers commerciaux, n°03 – Webzio11 mai 2023Par BotsCorner.com
Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Une catégorie de bots crawle massivement, mais discrètement, les sites : les bots commerciaux. Ils opèrent pour les activités de veille, permettent d’élaborer des stats, des analyses, des résumés. Ils fournissent en contenus les IA, revendent les bases à des tiers…
Portrait-robot de Webz.io , société de collecte et revente Big data
Webz.io propose un service de collecte et de mise en forme de données récoltées sur le web.Tous les sites d’informations les plus pertinents sont crawlés, Webz.io déclare collecter 2,5 millions d’articles chaque jour sur 180 000 sites d’informations. Ce crawl permanent permet de fournir des résultats en quasi temps réel. De plus, Webz.io propose un accès aux archives depuis 2008.
CA estimé: 4M$
1. Les clients du service : Webz.io annonce travailler pour SalesForce, IBM, Datarobot , Sprinklr, Kantar , Brandwatch, Meltwater , Mention …
2. Le bot passe sur le fichier « robots.txt » mis en place par les éditeurs, mais ne semble pas en respecter toutes les interdictions mentionnées (l’observation de ces instructions n’est pas obligatoire).
3. La valeur : A notre connaissance, Webz.io n’envisage pas d’intégrer les droits d’auteur dans ses formules tarifaires.
Les tarifs ne sont pas publics, mais selon cette page c’est en moyenne 200€/mois pour un crawl assez massif.
Les datas archives sont chiffrées en fonction de l’abonnement du client à Webz.io. Le premier prix, très attractif, est de 0.0002€ par article.
4. La recommandation : en l’absence d’accord, bloquer.
Ce scraping ne génère pas de visites : il peut même concurrencer des infomédiaires ayant signé des accords pour rémunérer les éditeurs. De surcroît, le tarif très bas de ce service institue les sites d’informations comme sources de matière première gratuite.
5. Stats sur Botscorner.
Les stats de Webz.io sur les sites d’informations branchés sur le service proposé par le CFC montrent jusqu’à 130 000 requêtes en 24 heures.
Statistiques passage webz.io sur le service Botscorner [...]Read more...
Le Botservatoire , le bulletin des crawlers commerciaux, n°02 – Gnowit4 mai 2023Par BotsCorner.comTous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Une catégorie de bots crawle massivement, mais discrètement, les sites : les bots commerciaux. Ils opèrent pour les activités de veille, permettent d’élaborer des stats, des analyses, des résumés. Ils fournissent en contenus les IA, revendent les bases à des tiers…
Portrait-Robot de GNOWIT.COM , société de media monitoring.
Gnowit propose un service d’alerte et d’analyses à partir de données crawlées sur plus de deux millions de sources (des sites de presse et des sites institutionnels), pour des prix allant de 200 à 2000 $Can par mois. CA estimé: moins de 2M$ (estimation growjo.com)
Le service s’adresse aux entreprises et aux administrations… Gnowit « capture » les informations dans les quinze minutes qui suivent leur publication, et propose à ses clients B2B d’effectuer des recherches sur le « full-text »
L’option : la sélection d’articles par des humains. Ce service peut inclure du contenu derrière le paywall, du contenu de niche ou « difficile d’accès ». (https://www.gnowit.com/pricing/ rubrique « add-ons available »).Compter 1000$Can/mois en plus pour 5 thématiques.
3. Le crawl avec user-agent Gnowit provient de dizaines d’hébergeurs, de centaines d’IPs qui changent régulièrement. Cela oblige l’éditeur à un suivi contraignant, s’il était tenté par un blocage des téléchargements de ses données.
Par ailleurs, sur les éditeurs installés sur nos services, le bot Gnowit ne passe pas sur le fichier « robots.txt » (robots.txt indique aux bots si leur crawl est autorisé sur tout ou partie du site).
La valeur : A notre connaissance, Gnowit ne demande pas d’autorisation avant de faire passer ses robots sur les sites de presse, et n’envisage pas d’intégrer les droits d’auteur dans ses formules tarifaires.FAQ de Gnowit: pour rester en accord avec les lois sur le copyright, Gnowit délivre le lien vers le document original, avec un extrait du texte. Mais les recherches se font sur le texte entier, hébergé chez Gnowit. Gnowit propose l’export du « full text » pour l’abonnement « Entreprise » dans le cadre d’un contrat qui assure le client que l’usage entre dans le cadre des exceptions prévues dans les lois de la plupart des juridictions concernées.
FAQ Gnowit
La recommandation : en l’absence d’accord, bloquer.Les infomédiaires abonnent des clients B2B à des contenus issus de sources de presse, ce qui nécessite un accord préalable. Nombre d’entre eux ont déjà signé, en direct ou par l’intermédiaire de leurs mandataires, des accords encadrant des utilisations identiques.
Stats sur Botscorner.Les stats de Gnowit sur les sites d’informations branchés sur le service proposé par le CFC vont jusqu’à 110 000 requêtes par jour. La semaine prochaine… Webzio
Statistiques passage Gnowit sur le service Botscorner.com [...]Read more...
Le Botservatoire, une newsletter des crawlers commerciaux – n01 Diffbot4 mai 2023Par BotsCorner.com
Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse.
Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Certains bots sont des partenaires des éditeurs (Googlebot, Bingbot, publicité…) , d’autres attaquent les sites (ddos, spam, …) et nécessitent un blocage immédiat.
Il reste une catégorie intermédiaire, plus discrète, mais qui crawle massivement les sites : les bots commerciaux . ils opèrent pour les opérateurs d’activités de veille, ils permettent d’élaborer des statistiques, des analyses, des résumés, fournissent les IA, revendent “leurs” bases à des tiers…
Analyse d’aujourd’hui : DIFFBOT.COM , un grossiste data.
Diffbot propose un service de big data, crawlés (indexés) et scrapés (téléchargés) à des prix défiant toute concurrence.
1. Le service s’adresse aux entreprises, prestataires de panoramas, analystes, statisticiens.. Diffbot annonce travailler pour Meltwater, Cision, Factset, Dowjones, …cela consiste en un téléchargement de données de sites différents, qui ont donc des structures différentes, pour constituer une base d’articles structurée exploitable.
2. Le téléchargement est quotidien et massif, mais il est effectué sous les radars, donc sans blocage :
–obéir à robots.txt est en option dans une case à cocher ,
Diffbot propose à ses clients de choisir de se conformer, ou pas, au fichier robots.txt
-il propose des proxies, des IPs jetables qui permettent de diluer et invisibiliser un crawl massif : « No More Blocked Crawls. Utilize our reserved fleet of proxy IPs, optionally upgrade to gain access to tens of thousands of unique IPs for truly diversified crawling or region/country-specific extraction”.
-il propose également de crawler “derrière le login”
vidéos en ligne détaillant les offres Diffbot
3. les données prélevées sur un site de presse sont donc revendues à la page, sans nécessiter l’accord préalable de l’éditeur, ni tenir compte des droits d’auteur: à $0.0009/page! Le modèle économique de Diffbot n’intègre pas de rétrocession pour les ayants droit
“The number of credits you need will depend on your use case and volume. Extracting a single web page will use 1 credit, so scraping 100,000 pages monthly will require 100,000 credits per month. (..) if you use 1,500,000 credits in a month on the Plus plan, your billed amount that month will be $899 (Plan Base) + 500,000 x $0.0009/credit”.
4. recommandation: bloquer tant qu’il n’y a pas d’accord.
Les bots qui font du big data ont un impact sur le modèle économique des éditeurs et de leurs mandataires. En fournissant à prix très bas des grands volumes de contenus à de nombreux tiers pour toutes exploitations, ils facilitent l’utilisation massive des contenus des sites sans contrepartie ni autorisation.
5. stats sur Botscorner.
Les stats de Diffbot sur les journaux branchés sur le service ORRC proposé par le CFC sont massives : jusqu’à 1 800 000 requêtes sur 24h .
Statistiques passage Diffbot sur le service Botscorner.com
La semaine prochaine : webzio [...]Read more...