Bostcorner BLOG - Botscorner

Le Botservatoire , le bulletin des crawlers commerciaux, n°08 – You.com31 octobre 2023Portrait Robot de You.com , un moteur de réponses et de création de contenus. YOU.COM: “immediate answers, no more scrolling through a list of blue links” Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online & print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA … You.com est un moteur de réponses aussi simple dans sa présentation que peut l’être Google : un logo et une barre de recherches. Le service a été créé en 2020 par l’ancien fondateur de MetaMind-IA, racheté par SalesForce. Il bénéficie d’une levée de fonds de 45M$, ses revenus sont actuellement estimés à 15M$/an. Modèle économique : Le service qui propose un “Chat GPT-4” service est gratuit dans une version de base non personnalisée, et devient payant (9,99$/mois) dès que l’on veut des réponses plus élaborées, ou créer des images, des résumés,… Comme Google, il propose aux annonceurs des espaces publicitaires, sous forme d’annonces privées comportement -obéir à robots.txt : You.com passe sur robots.txt, mais ce service utilisant ChatGPT peut passer sur des sites qui ont interdit GPTbot. –Un exemple de recherches :L’éditeur peut constater les modalités d’emprunts de ses textes par ce moteur de réponses, en comparant l’article créé à partir d’un de ses articles scrapés. Exemple sur une recherche à partir du contenu d’un article de niche, sur lequel il y aura peu de contenus d’agence ou de confrères: Article originel https://www.leparisien.fr/paris-75/monoprix-ouvre-son-premier-magasin-de-decoration-a-paris-12-07-2023-S4R3WCCWNZCLZILLSB6XOUZH3Y.php question: Monoprix ouvre un magasin deco design ? La réponse de You.com Stats sur Botscorner Les stats de you.com commencent à se remarquer, avec quelques milliers de pages par jour sur les sites branchés sur le service. [...]Lire la suite…

Le Botservatoire , le bulletin des crawlers commerciaux, n°07 – Ubermetrics Unicepta21 septembre 2023Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online & print.une catégorie intermédiaire de bots, , plus discrète, mais qui crawle massivement les sites : les bots commerciaux . ils opèrent pour les activités de veille, permettent d’élaborer des stats, des analyses, des résumés, fournissent les IA, revendent les bases à des tiers… Portrait Robot de Ubermetrics , filiale d’Unicepta, une société de mediamonitoring . Ubermetrics propose un service de monitoring d’informations collectées mondialement sur les sites de presse : Ubermetrics is the leading Content Intelligence platform for communication experts. Its AI-driven media monitoring and analytics technology processes over 50,000 articles per minute from over 460 million global sources across all media types (print, online, social, TV & Radio). https://www.adwired.ch/company/partner/ Le service s’adresse aux entreprises. plus de 550 clients font confiance à notre expertise et à nos solutions. Parmi eux, on compte deux tiers des entreprises du DAX-40, des grands noms du CAC-40 et du SBF 120, ainsi que de nombreuses autres entreprises multinationales https://www.unicepta.com/fr/a-propos-dunicepta/societe.html Clients : Airbus, Adidas, Bayer, Bosch, BMW, BritishAirways, Fifa, Mercedes, Stellantis, Lenovo, Tiktok, Virgin, Siemens… IA Comme beaucoup d’acteurs du mediamonitoring désormais, Unicepta annonce un service de curation de contenus augmenté d’IA : « Grâce à une technologie d’exploration alimentée par l’IA, UNICEPTA capture le contenu pertinent de 460 millions de sources médiatiques, partout dans le monde : Agences de Presse, presse écrite, presse en ligne, médias audiovisuels et sociaux, médias nationaux, locaux ou régionaux, mais aussi des publications plus confidentielles ou grand public. » Fourniture de résumés « de haute qualité éditoriale vous offrant l’essentiel en un coup d’œil. Vos informations qui comptent, reprises dans un format concis. Nos résumés éditoriaux multilingues et cross-média sont compilés et rédigés par des rédacteurs seniors expérimentés, issus d’équipes spécialisées dans votre secteur d’activité ». Des projets en cours : “We have been closely involved in the AI research landscape since 2011 – as a participant in expert discussions with the BMWi and BMBF as well as with the Federal Chancellor, as a member of the German AI Association” Les projets aboutis : qurator.ai , evalitech , Plass obéir à robots.txt n’est pas une option qui semble avoir été retenue par Ubermetrics. Sur Botscorner, on le voit bien passer sur cette page Robots.txt publiée à la racine des sites des éditeurs de presse, et dédiée à la gestion des bots. Mais son scraper passe sur les articles malgré un refus sur « ubermetric » chez un éditeur. Unicepta, c’est aussi Adwired « Adwired AG – the specialist for media and brand analysis – enters into a distribution partnership with Dow Jones / Factiva. As a Dow Jones reseller, Adwired may license approximately 5,000 international Paywall-protected media sources directly to its customers” Stats sur Botscorner. Les stats de Ubermetrics sur les sites de presse branchés sur le service sont impressionnantes : jusqu’à 500 000 requêtes sur 24 heures. [...]Lire la suite…

Le Botservatoire , le bulletin des crawlers commerciaux, n°06 – Les sites qui copient12 septembre 2023L’info, c’est l’éditeur qui la produit, c’est le bot qui la publie ! voir les précédents Botservatoires Les bots ne se contentent pas de constituer des bases pour les revendre aux IA ni de les structurer en offres, notamment de media monitoring. On assiste désormais à la création de nombreux sites d’infos dont les contenus sont rédigés à partir des articles de presse collectés en ligne. Les bots commencent généralement par indexer (crawler) les infos de création ou de mise à jour des articles ou photos (sitemap, RSS, têtes de rubriques), puis vont chercher (scraper) les articles qui les intéressent. Pour cette activité, les bots prennent beaucoup moins d’articles que les entreprises de big data ou de media monitoring qui en récupèrent des milliers par jour. Pour de la republication, quelques articles par jour et par éditeur suffisent pour faire vivre un site de news. Le modèle économique est généralement la publicité. S’il est rare de les voir remonter sur Google, certains de ces sites proposent de s’abonner à leur newsletter ou à leur fils Telegram, sur lesquels ils communiquent sur leurs articles. Si l’article complet est disponible sur le site originel, il sera publié en entier (avec un lien vers la source, devenu inutile). Par exemple : Article d’origine : Article identique, mais complet, republié sur un autre site: La nouveauté ? L’ l’IA facilite de nombreux services parmi lesquels le résumé, la revue de presse citant un ou plusieurs articles, la traduction à la volée qui permet avec un seul article d’en publier plusieurs dans toutes les langues… Le Figaro : Et son équivalent, qui correspond au résultat donné par un service en ligne de traduction automatique : On peut même être gratifié d’un avertissement, qui explique la démarche. Près d’une reprise d’un article, on peut lire : AVIS IMPORTANT Tous les articles sont traduits de la source originale. Nous exploitons un service de traduction pour aider les anglophones en France à comprendre ce qui se passe dans toute la France. Tout le contenu et les photos sont la propriété de la source originale. Chaque article a un lien vers la source originale au bas de l’article. Nous ne stockons aucune image de la source d’origine sur notre serveur (…) Si vous souhaitez qu’un élément soit supprimé, vous pouvez nous contacter avec l’URL et la preuve des droits de propriété pour supprimer tout élément de notre système. Evidemment, le site n’a pas de directeur de publication, et la page contact n’existe pas. Ces sites de « news » ont généralement des maquettes assez sommaires, avec de nombreuses rubriques (alimenter toutes ces rubriques nécessiterait une vraie rédaction, qui semble assez absente). Nous remontons sur Botscorner une soixantaine de sites qui publient des articles récupérés sur les sites de news. Attention : à ne pas mettre l’intégralité d’un article dans le flux RSS , à ne pas rendre disponible un article par le code source quand il est soumis à un paywall. [...]Lire la suite…

Le Botservatoire , le bulletin des crawlers commerciaux, n°05 – Semrush-Prowly16 juin 2023Comment une société spécialisée en SEO peut-elle étendre ses services à ses nombreux clients : les données collectées sur le net pourraient-elles s’étendre à d’autres usages ? Dans le précédent Botservatoire, on a vu que des sociétés à but non lucratif pouvaient nourrir gracieusement des IA avec les données des éditeurs de presse (CommonCrawl.org pour OpenAI-ChatGPT). Portrait Robot de : Semrush.com et de sa filiale Prowly.com SEMrush, données financières : CA 170,7M$ , valorisation de la société 2,4B$ (source:growjo.com) Un service de Search Engine Optimization permet de suivre le positionnement de son site sur le web. Semrush met en avant un service très performant. Il crawle votre site et les sites concurrents. Il vous indique alors ce que vos concurrents font mieux que vous, et surtout comment améliorer votre classement par rapport à eux. Semrush a vite augmenté son offre de services : plateforme agence relations Publiques , analyse des interactions sur les réseaux sociaux , des publicités Display des concurrents , mais aussi : agence de création de contenus , et Media Monitoring (suivi des mentions presse) La création d’articles, quel que soit le sujet, est évidemment garantie optimisée pour les moteurs de recherches. Des options permettent de reformuler un texte copié pour éviter le plagiat , en comparant dans une base de textes. Et une IA peut même générer des textes. Enfin, le service de media monitoring est assuré par une société achetée en 2020 par Semrush : Prowly. Pour un prix annoncé inférieur à ceux de Cision ou Meltwater, Prowly remontera les mentions trouvées dans la presse Avis : On comprend bien l’intérêt du client de Semrush de le laisser crawler son propre site, on comprend moins bien celui du site concurrent, s’il n’est pas lui-même client de Semrush. En effet, il va donner gratuitement des informations qui permettront à ses rivaux de lui passer devant sur Google. Quelques éditeurs ont d’ailleurs décidé de bloquer le crawl de sociétés offrant ce type de services, en attendant qu’une licence couvrant l’utilisation de leurs contenus soit signée. Le crawler de Semrush collecte des datas en permanence, jusqu’à 240 000 requêtes par jour, visibles sur les sites branchés sur le service. On en compte 20 000 de plus sur un crawl attribué à Prowly, qui ne met pas de user agent éponyme. statistiques du bot Semrush sur des sites de presse Français [...]Lire la suite…

Le Botservatoire , le bulletin des crawlers commerciaux, n°04 – CommonCrawl7 juin 2023L’industrie du big data vend les articles de presse, ou les données extraites de ces articles, à zéro euro. Cela signifie-t-il qu’il n’y a pas de modèle économique sur ce marché pour un site de presse ?Dans le précédent Botservatoire on a vu que des sociétés commerciales proposent leurs services à un prix très bas. Chez Webzio, l’article est à 0,0002€, ce qui laisse imaginer la part réservée au droit d’auteur. Comment construire un modèle économique ? En demandant à ces sociétés commerciales de tenir compte, dans leur tarification, de la rémunération des éléments extraits des sites de presse. Aujourd’hui, ces services ne facturent que leur technologie. Mais sans les éléments extraits des sites de presse et relevant du droit d’auteur, il n’y aurait pas de service.Mais le big data encore moins cher existe ! Portrait Robot de CommonCrawl.org Des sociétés à but non lucratif crawlent également les sites de presse.CommonCrawl est un service gratuit mettant à disposition sept années d’archives. Les données sont disponibles gratuitement pour la recherche, et payées au bon vouloir des utilisateurs, par des donations. CommonCrawl propose un accès aux archives, dans plus de 40 langues. Cela permet aux chercheurs du public, comme du privé, d’entraîner leurs IA. CommonCrawl est une organisation à but non lucratif. A ce titre, une société qui souhaite utiliser des articles de presse pour entraîner une IA, peut travailler sur les bases offertes et financer l’activité de CC.org en bénéficiant de réductions d’impôts. Ainsi, Meta pour son IA appelée LLaMA, ou OpenAI pour ChatGPT, ont pu, comme des centaines d’autres, utiliser ces données disponibles issues de CC.org ou Wikipedia : Source : medium.com Ainsi, un crawl gratuit sans modèle économique peut générer des services commerciaux très rentables. ChatGPT a désormais un investisseur de choix avec Microsoft, et se trouve incorporé à la recherche Bing avec une version améliorée. Le crawler de CommonCrawl collecte des datas en permanence, et à plus forte dose une semaine par mois (entre 5000 et 25000 requêtes par jour).En effet, l’offre de CC.org consiste à proposer une base d’articles permettant d’agréger des connaissances pour des IA. Cela diffère des offres big data utilisées par des sociétés de media monitoring et e-réputation, qui crawlent plus massivement car elles ont besoin des dernières informations dès leur publication. [...]Lire la suite…

Le Botservatoire , le bulletin des crawlers commerciaux, n°03 – Webzio11 mai 2023Par BotsCorner.com Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Une catégorie de bots crawle massivement, mais discrètement, les sites : les bots commerciaux. Ils opèrent pour les activités de veille, permettent d’élaborer des stats, des analyses, des résumés. Ils fournissent en contenus les IA, revendent les bases à des tiers… Portrait-robot de Webz.io , société de collecte et revente Big data Webz.io propose un service de collecte et de mise en forme de données récoltées sur le web.Tous les sites d’informations les plus pertinents sont crawlés, Webz.io déclare collecter 2,5 millions d’articles chaque jour sur 180 000 sites d’informations. Ce crawl permanent permet de fournir des résultats en quasi temps réel. De plus, Webz.io propose un accès aux archives depuis 2008. CA estimé: 4M$ 1. Les clients du service : Webz.io annonce travailler pour SalesForce, IBM, Datarobot , Sprinklr, Kantar , Brandwatch, Meltwater , Mention … 2. Le bot passe sur le fichier « robots.txt » mis en place par les éditeurs, mais ne semble pas en respecter toutes les interdictions mentionnées (l’observation de ces instructions n’est pas obligatoire). 3. La valeur : A notre connaissance, Webz.io n’envisage pas d’intégrer les droits d’auteur dans ses formules tarifaires. Les tarifs ne sont pas publics, mais selon cette page c’est en moyenne 200€/mois pour un crawl assez massif. Les datas archives sont chiffrées en fonction de l’abonnement du client à Webz.io. Le premier prix, très attractif, est de 0.0002€ par article. 4. La recommandation : en l’absence d’accord, bloquer. Ce scraping ne génère pas de visites : il peut même concurrencer des infomédiaires ayant signé des accords pour rémunérer les éditeurs. De surcroît, le tarif très bas de ce service institue les sites d’informations comme sources de matière première gratuite. 5. Stats sur Botscorner. Les stats de Webz.io sur les sites d’informations branchés sur le service proposé par le CFC montrent jusqu’à 130 000 requêtes en 24 heures. Statistiques passage webz.io sur le service Botscorner [...]Lire la suite…

<strong>Le Botservatoire , le bulletin des crawlers commerciaux, n°02 – Gnowit</strong>

Le Botservatoire , le bulletin des crawlers commerciaux, n°02 – Gnowit4 mai 2023Par BotsCorner.comTous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Une catégorie de bots crawle massivement, mais discrètement, les sites : les bots commerciaux. Ils opèrent pour les activités de veille, permettent d’élaborer des stats, des analyses, des résumés. Ils fournissent en contenus les IA, revendent les bases à des tiers… Portrait-Robot de GNOWIT.COM , société de media monitoring. Gnowit propose un service d’alerte et d’analyses à partir de données crawlées sur plus de deux millions de sources (des sites de presse et des sites institutionnels), pour des prix allant de 200 à 2000 $Can par mois. CA estimé: moins de 2M$ (estimation growjo.com) Le service s’adresse aux entreprises et aux administrations… Gnowit « capture » les informations dans les quinze minutes qui suivent leur publication, et propose à ses clients B2B d’effectuer des recherches sur le « full-text » L’option : la sélection d’articles par des humains. Ce service peut inclure du contenu derrière le paywall, du contenu de niche ou « difficile d’accès ». (https://www.gnowit.com/pricing/ rubrique « add-ons available »).Compter 1000$Can/mois en plus pour 5 thématiques. 3. Le crawl avec user-agent Gnowit provient de dizaines d’hébergeurs, de centaines d’IPs qui changent régulièrement. Cela oblige l’éditeur à un suivi contraignant, s’il était tenté par un blocage des téléchargements de ses données. Par ailleurs, sur les éditeurs installés sur nos services, le bot Gnowit ne passe pas sur le fichier « robots.txt » (robots.txt indique aux bots si leur crawl est autorisé sur tout ou partie du site). La valeur : A notre connaissance, Gnowit ne demande pas d’autorisation avant de faire passer ses robots sur les sites de presse, et n’envisage pas d’intégrer les droits d’auteur dans ses formules tarifaires.FAQ de Gnowit: pour rester en accord avec les lois sur le copyright, Gnowit délivre le lien vers le document original, avec un extrait du texte. Mais les recherches se font sur le texte entier, hébergé chez Gnowit. Gnowit propose l’export du « full text » pour l’abonnement « Entreprise » dans le cadre d’un contrat qui assure le client que l’usage entre dans le cadre des exceptions prévues dans les lois de la plupart des juridictions concernées. FAQ Gnowit La recommandation : en l’absence d’accord, bloquer.Les infomédiaires abonnent des clients B2B à des contenus issus de sources de presse, ce qui nécessite un accord préalable. Nombre d’entre eux ont déjà signé, en direct ou par l’intermédiaire de leurs mandataires, des accords encadrant des utilisations identiques. Stats sur Botscorner.Les stats de Gnowit sur les sites d’informations branchés sur le service proposé par le CFC vont jusqu’à 110 000 requêtes par jour. La semaine prochaine… Webzio Statistiques passage Gnowit sur le service Botscorner.com [...]Lire la suite…

Le Botservatoire, une newsletter des crawlers commerciaux – n01 Diffbot4 mai 2023Par BotsCorner.com Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs de presse. Certains bots sont des partenaires des éditeurs (Googlebot, Bingbot, publicité…) , d’autres attaquent les sites (ddos, spam, …) et nécessitent un blocage immédiat. Il reste une catégorie intermédiaire, plus discrète, mais qui crawle massivement les sites : les bots commerciaux . ils opèrent pour les opérateurs d’activités de veille, ils permettent d’élaborer des statistiques, des analyses, des résumés, fournissent les IA, revendent “leurs” bases à des tiers… Analyse d’aujourd’hui : DIFFBOT.COM , un grossiste data. Diffbot propose un service de big data, crawlés (indexés) et scrapés (téléchargés) à des prix défiant toute concurrence. 1. Le service s’adresse aux entreprises, prestataires de panoramas, analystes, statisticiens.. Diffbot annonce travailler pour Meltwater, Cision, Factset, Dowjones, …cela consiste en un téléchargement de données de sites différents, qui ont donc des structures différentes, pour constituer une base d’articles structurée exploitable. 2. Le téléchargement est quotidien et massif, mais il est effectué sous les radars, donc sans blocage : –obéir à robots.txt est en option dans une case à cocher , Diffbot propose à ses clients de choisir de se conformer, ou pas, au fichier robots.txt -il propose des proxies, des IPs jetables qui permettent de diluer et invisibiliser un crawl massif : « No More Blocked Crawls. Utilize our reserved fleet of proxy IPs, optionally upgrade to gain access to tens of thousands of unique IPs for truly diversified crawling or region/country-specific extraction”. -il propose également de crawler “derrière le login” vidéos en ligne détaillant les offres Diffbot 3. les données prélevées sur un site de presse sont donc revendues à la page, sans nécessiter l’accord préalable de l’éditeur, ni tenir compte des droits d’auteur: à $0.0009/page! Le modèle économique de Diffbot n’intègre pas de rétrocession pour les ayants droit “The number of credits you need will depend on your use case and volume. Extracting a single web page will use 1 credit, so scraping 100,000 pages monthly will require 100,000 credits per month. (..) if you use 1,500,000 credits in a month on the Plus plan, your billed amount that month will be $899 (Plan Base) + 500,000 x $0.0009/credit”. 4. recommandation: bloquer tant qu’il n’y a pas d’accord. Les bots qui font du big data ont un impact sur le modèle économique des éditeurs et de leurs mandataires. En fournissant à prix très bas des grands volumes de contenus à de nombreux tiers pour toutes exploitations, ils facilitent l’utilisation massive des contenus des sites sans contrepartie ni autorisation. 5. stats sur Botscorner. Les stats de Diffbot sur les journaux branchés sur le service ORRC proposé par le CFC sont massives : jusqu’à 1 800 000 requêtes sur 24h . Statistiques passage Diffbot sur le service Botscorner.com La semaine prochaine : webzio [...]Lire la suite…