<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Botscorner</title>
	<atom:link href="https://www.botscorner.fr/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.botscorner.fr</link>
	<description></description>
	<lastBuildDate>Mon, 20 Oct 2025 12:45:46 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.3.1</generator>

<image>
	<url>https://www.botscorner.fr/wp-content/uploads/2022/12/botfavicon-150x150.png</url>
	<title>Botscorner</title>
	<link>https://www.botscorner.fr</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>dataset &#038; marketplace</title>
		<link>https://www.botscorner.fr/dataset-marketplace/</link>
					<comments>https://www.botscorner.fr/dataset-marketplace/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Mon, 20 Oct 2025 12:45:46 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1472</guid>

					<description><![CDATA[Depuis quelques posts, Botscorner s’attache à présenter des datasets dans ses botservatoires. Ces datasets présentent un intérêt majeur : ils permettent, parfois à titre gracieux, d’accéder à des bases de données enrichies et standardisées. Plutôt que d’aller négocier des accords dispendieux avec les éditeurs ou leurs représentants, ces bases sont des marketplaces prisées. cestquilepatron.com screenshot Pourquoi [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p>Depuis quelques posts, Botscorner s’attache à présenter des datasets dans ses <a href="https://www.botscorner.fr/bostcorner-blog/">botservatoires</a>.</p>



<p>Ces datasets présentent un intérêt majeur : ils permettent, parfois à titre gracieux, d’accéder à des bases de données enrichies et standardisées. Plutôt que d’aller négocier des accords dispendieux avec les éditeurs ou leurs représentants, ces bases sont des <strong><em>marketplaces </em></strong>prisées.</p>



<figure class="wp-block-image size-full"><img fetchpriority="high" decoding="async" width="605" height="269" src="https://www.botscorner.fr/wp-content/uploads/2025/10/cqlp_datasets_botservatoire20.jpg" alt="" class="wp-image-1473" srcset="https://www.botscorner.fr/wp-content/uploads/2025/10/cqlp_datasets_botservatoire20.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/10/cqlp_datasets_botservatoire20-300x133.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p class="has-text-align-center"><em><sup>cestquilepatron.com screenshot</sup></em></p>



<p><strong>Pourquoi acheter ses datas auprès des marketplaces plutôt qu&#8217;auprès des éditeurs ?</strong></p>



<p>&#8211; Même quand le dataset affiche un user agent qui l’identifie sur toutes ses sessions, même quand le dataset a signé un accord avec un éditeur ou son ayant-droit, le client utilisateur final de la base est mécaniquement anonymisé. Que prévoit le contrat qui lie la marketplace à son client?</p>



<p>&#8211; la base est multi-titres, le contenus est frais, le format est standardisé, les contenus peuvent être enrichis, le guichet est unique, le tarif est très bas, le risque d’un audit sur les utilisations très éloigné.</p>



<p>-quand ces bases sont gratuites, les données sont alors partagées «&nbsp;<em>for good</em>&nbsp;» (la recherche). Vous pouvez néanmoins faire un don défiscalisé (ex: <a href="https://commoncrawl.org/" target="_blank" rel="noopener">commoncrawl</a>). Un don au dataset, pas à l’éditeur.</p>



<p>-certaines bases se constituent <a href="https://xlike.ijs.si/event-registry/" target="_blank" rel="noopener">sur la base de recherches universitaires</a> . Mais de ces recherches publiques peuvent sortir des entreprises privées. Par exemple, <a href="https://eventregistry.org/" target="_blank" rel="noopener">EventRegistry</a> est une <a href="https://slovenia.si/excellence/international-research-centre-on-artificial-intelligence-in-full-swing" target="_blank" rel="noopener">spin-off du Jožef Stefan Institute</a> . C’est désormais une entreprise indépendante qui édite <a href="https://newsapi.ai/" target="_blank" rel="noopener">Newsapi.ai</a> . &nbsp;</p>



<p>-Quand ces bases sont payantes, le tarif est compétitif. Quelle est la part de rémunération des éditeurs dans le prix à l’article proposé par ces quelques datasets ? </p>



<p>voici une revue des pages de tarifs de quelques unes de ces marketplaces:</p>



<p><a href="https://newsapi.ai/plans" target="_blank" rel="noopener">newsapi.ai</a></p>



<p><a href="https://www.diffbot.com/pricing/" target="_blank" rel="noopener">diffbot.com</a></p>



<p><a href="https://brightdata.com/pricing/" target="_blank" rel="noopener">brightdata.com/</a></p>



<p><a href="https://docs.zyte.com/zyte-api/pricing.html" target="_blank" rel="noopener">zyte.com</a></p>



<p><a href="https://help.archive.org/help/archive-org-information/" data-type="link" data-id="https://help.archive.org/help/archive-org-information/" target="_blank" rel="noopener">archive.org</a> (free, open for donation)</p>



<p><a href="https://Commoncrawl.org" data-type="link" data-id="https://Commoncrawl.org" target="_blank" rel="noopener">Commoncrawl.org</a> (free, open for donation)</p>



<p><a href="https://Opoint.com" data-type="link" data-id="https://Opoint.com" target="_blank" rel="noopener">Opoint.com</a> (non publié sur le site, mais a signé avec le <a href="https://www.cfcopies.com/" target="_blank" rel="noopener">CFC</a>)</p>



<p><a href="https://webz.io/products/archived-data/" data-type="link" data-id="https://webz.io/products/archived-data/" target="_blank" rel="noopener">webz.io</a> (des datas gratuits <a href="https://github.com/Webhose" data-type="link" data-id="https://github.com/Webhose" target="_blank" rel="noopener">Webhose</a> et des datas payants, tarif non publié sur le site, mais a signé avec le <a href="https://www.cfcopies.com/" target="_blank" rel="noopener">CFC</a>)</p>



<p>etc.</p>



<p>-parfois adossées à des services de proxies tournants (ips jetables, bypass captchas), sur lesquels on pose des scrapers de contenus, <a href="https://rayobyte.com/products/web-scraping-api#pricing" target="_blank" rel="noopener">le client ne paie que le contenu effectivement collecté</a>.</p>



<p><strong>Moralité</strong> : si l’éditeur ou son mandataire n’est pas co-contractant, la marketplace va être tenté de privilégier la fluidité d’un accord technique très peu rémunérateur pour l’éditeur.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/dataset-marketplace/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>The Botservatory , n°19 – Supabase , dataset</title>
		<link>https://www.botscorner.fr/the-botservatory-n19-supabase-dataset/</link>
					<comments>https://www.botscorner.fr/the-botservatory-n19-supabase-dataset/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Thu, 09 Oct 2025 12:20:40 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1463</guid>

					<description><![CDATA[previous botservatories Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI. Supabase, an open source alternative to Firebase : “Build in a weekend. Scale to millions. Supabase is the Postgres development platform. Start [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><a href="https://www.botscorner.fr/bostcorner-blog/">previous botservatories</a></p>



<p>Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI.</p>



<figure class="wp-block-image size-full"><img decoding="async" width="605" height="310" src="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase1-1.jpg" alt="" class="wp-image-1466" srcset="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase1-1.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/10/supabase1-1-300x154.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><a href="https://supabase.com/" data-type="link" data-id="https://supabase.com/" target="_blank" rel="noopener">Supabase</a>, an open source alternative to Firebase : “Build in a weekend. Scale to millions. Supabase is the Postgres development platform. Start your project with a Postgres Database, Authentication, instant APIs, and realtime subscriptions”.</p>



<p>You can plug your Supabase project on digital assistants like N8n or Loveable, they will handle repetitive tasks (such as scraping external datas).</p>



<p>An example below with <a href="http://n8n.io/" target="_blank" rel="noopener">N8N.io</a>:</p>



<figure class="wp-block-image size-full"><img decoding="async" width="605" height="330" src="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase2.jpg" alt="" class="wp-image-1467" srcset="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase2.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/10/supabase2-300x164.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><strong>obey robots.txt</strong> : As each project is independent, robots.txt may or may not be consulted depending on the project manager</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="328" src="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase4stats.jpg" alt="" class="wp-image-1468" srcset="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase4stats.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/10/supabase4stats-300x163.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><strong>2.       Stats on Botscorner</strong> (on french publishers/weekly)</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="362" src="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase3stats.jpg" alt="" class="wp-image-1469" srcset="https://www.botscorner.fr/wp-content/uploads/2025/10/supabase3stats.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/10/supabase3stats-300x180.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Supabase has <a href="https://growjo.com/company/Supabase" data-type="link" data-id="https://growjo.com/company/Supabase" target="_blank" rel="noopener">135 employees, 21M$ revenues , 398M$ fundings, estimation: 2B$</a> (<a href="https://www.theinformation.com/articles/supabase-talks-double-valuation-5-billion" data-type="link" data-id="https://www.theinformation.com/articles/supabase-talks-double-valuation-5-billion" target="_blank" rel="noopener">progressing</a>).</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/the-botservatory-n19-supabase-dataset/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>The Botservatory , n°18 – DataforSEO , dataset</title>
		<link>https://www.botscorner.fr/the-botservatory-n18-dataforseo-dataset/</link>
					<comments>https://www.botscorner.fr/the-botservatory-n18-dataforseo-dataset/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Thu, 11 Sep 2025 12:28:43 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1447</guid>

					<description><![CDATA[Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI. previous botservatories Data for SEO , is a for-profit Organization, with desks in Estonia and Ukraine. It was founded in 2016 by Nick Chernets: [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p>Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI.</p>



<p><a href="https://www.botscorner.fr/bostcorner-blog/">previous botservatories</a></p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="742" height="552" src="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI.jpg" alt="" class="wp-image-1448" srcset="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI.jpg 742w, https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI-300x223.jpg 300w" sizes="(max-width: 742px) 100vw, 742px" /></figure>



<p><a href="https://dataforseo.com" data-type="link" data-id="https://dataforseo.com" target="_blank" rel="noopener">Data for SEO </a>, is a <strong>for-profit Organization, with desks in Estonia and Ukraine</strong>.</p>



<p>It was founded in 2016 by Nick Chernets: Founder and CEO, with this object:</p>



<p><strong>“Powerful API Stack For Data-Driven Marketers : </strong>We provide comprehensive SEO and digital marketing data solutions via API. Our vision is to be a leader in data-driven marketing by leveraging data to equip businesses with the tools they need to create efficient and effective SEO strategies. Data is the new oil, and we are committed to providing the highest-quality fuel to power our clients’ SEO tools” </p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="734" height="364" src="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI2.jpg" alt="" class="wp-image-1449" srcset="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI2.jpg 734w, https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_AI2-300x149.jpg 300w" sizes="(max-width: 734px) 100vw, 734px" /></figure>



<p>DataforSEO offers services linked to SEO , but not only. Once the contents are collected, there is a huge database ready to be monetized:</p>



<p><strong>Data for AI training</strong> (The <a href="https://dataforseo.com/solutions/data-for-ai-training" data-type="link" data-id="https://dataforseo.com/solutions/data-for-ai-training" target="_blank" rel="noopener">DataForSEO AI</a> Optimization API equips you with access to keyword data enriched with search volume metrics)</p>



<p>“Our custom data collection services are designed to be the ultimate solution for all your AI initiatives. Whether you’re developing a new algorithm, refining an existing machine-learning model, or looking to expand your training dataset, we can deliver high-quality data at the scale your project requires to succeed”.</p>



<p><strong>Content generation</strong> <a href="https://dataforseo.com/pricing/content-generation-api/content-generation-api" data-type="link" data-id="https://dataforseo.com/pricing/content-generation-api/content-generation-api" target="_blank" rel="noopener">(DataForSEO Content Generation</a> API is designed to facilitate the process of content creation. Its NLP model is capable of generating unique paragraphs of text, paraphrasing content, detecting grammar mistakes, and more.) </p>



<p><strong>Content analysis</strong> : “<a href="https://dataforseo.com/pricing/content-analysis-api/content-analysis" data-type="link" data-id="https://dataforseo.com/pricing/content-analysis-api/content-analysis" target="_blank" rel="noopener">Content Analysis</a> API is a scalable solution for discovering citations of target keywords or <a href="https://dataforseo.com/help-center/automated-mention-tracking-with-api-in-make" data-type="link" data-id="https://dataforseo.com/help-center/automated-mention-tracking-with-api-in-make" target="_blank" rel="noopener">brand names and analyzing</a> relevant sentiments”.</p>



<p><strong>DataForSEO </strong>: <strong>Costumers and prices</strong>:</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="733" height="70" src="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_clients3.jpg" alt="" class="wp-image-1451" srcset="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_clients3.jpg 733w, https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_clients3-300x29.jpg 300w" sizes="(max-width: 733px) 100vw, 733px" /></figure>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="709" height="137" src="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_tariff4.jpg" alt="" class="wp-image-1452" srcset="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_tariff4.jpg 709w, https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_tariff4-300x58.jpg 300w" sizes="(max-width: 709px) 100vw, 709px" /></figure>



<ol type="1">
<li><strong>obey robots.txt</strong>&nbsp;: looks for robots.txt. Only one French publisher mentionned “dataforseo” disallowed this 9-11, 2025 (but DataforSeo scraps anyway). The UAs are: RSiteAuditor and DataForSeoBot/1.0</li>



<li><strong>Stats on Botscorner</strong> from 2022 (on french publishers/monthly)</li>
</ol>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="524" height="305" src="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_statsFrance.jpg" alt="" class="wp-image-1453" srcset="https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_statsFrance.jpg 524w, https://www.botscorner.fr/wp-content/uploads/2025/09/botservatoire18_dataforseo_statsFrance-300x175.jpg 300w" sizes="(max-width: 524px) 100vw, 524px" /></figure>



<p>DataforSEO stats show a huge activity on french websites plugged on Botscorner : more than +220.000 pages / 24h.</p>



<ul>
<li>DataforSEO has <a href="https://getlatka.com/companies/dataforseo.com/" data-type="link" data-id="https://getlatka.com/companies/dataforseo.com/" target="_blank" rel="noopener">29 employees, for a 3+M$ 2025 revenue </a></li>
</ul>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/the-botservatory-n18-dataforseo-dataset/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>The Botservatory , n°17 – Allenai.org/olmo , open LLM &#038; dataset</title>
		<link>https://www.botscorner.fr/the-botservatory-n17-allenai-org-olmo-open-llm-dataset/</link>
					<comments>https://www.botscorner.fr/the-botservatory-n17-allenai-org-olmo-open-llm-dataset/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Wed, 02 Jul 2025 13:49:26 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1437</guid>

					<description><![CDATA[previous botservatories Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI. The Allen Institute for Artificial Intelligence (AI2), LLM and open dataset for AI The Allen Institute, as CommonCrawl, is a non-profit Organization. [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><a href="https://www.botscorner.fr/bostcorner-blog/">previous botservatories</a></p>



<p>Every day, hundreds of crawlers collect data from the websites of radio, TV, online, and print publishers. They perform monitoring, analysis, and summaries, providing the high-quality big data essential to AI.</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="267" src="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_1.png" alt="" class="wp-image-1438" srcset="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_1.png 605w, https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_1-300x132.png 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><strong>The Allen Institute for Artificial Intelligence (AI2), LLM and open dataset for AI</strong></p>



<p><strong><a href="https://allenai.org/" target="_blank" rel="noopener">The Allen Institute</a></strong>, as <a href="https://commoncrawl.org/" target="_blank" rel="noopener">CommonCrawl</a>, is a <strong>non-profit Organization</strong>.</p>



<p>It was founded in 2014 by Paul Allen, philanthropist and Microsoft co-founder, to find transformative ways to develop AI. <strong><a href="https://allenai.org/about" target="_blank" rel="noopener">As a non-profit AI research institute</a></strong>, &nbsp;AI2 develops foundational AI research and innovation to deliver real-world impact through large-scale open models, data, robotics, conservation, and beyond.</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="267" src="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_2.png" alt="" class="wp-image-1439" srcset="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_2.png 605w, https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_2-300x132.png 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Among other projects, AI2 developped LLMs such as <a href="https://allenai.org/olmo" target="_blank" rel="noopener">OLMo</a>, <a href="https://allenai.org/tulu" target="_blank" rel="noopener">Tülu</a>, provides <a href="https://allenai.org/open-data" target="_blank" rel="noopener">datasets</a> available on <a href="https://huggingface.co/allenai" target="_blank" rel="noopener">Hugging Face</a></p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="584" height="425" src="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_3.png" alt="" class="wp-image-1440" srcset="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_3.png 584w, https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_3-300x218.png 300w" sizes="(max-width: 584px) 100vw, 584px" /></figure>



<p><a href="https://allenai.org/language-models" target="_blank" rel="noopener">OLMo 2</a>, the best fully open language model to date, including a family of 7B, 13B, and 32B models trained up to 6T tokens. OLMo 2 outperforms other fully open models and competes with open-weight models like Llama 3.1 8B.</p>



<p><strong>AI2</strong> partners with <a href="https://www.gatesfoundation.org/" target="_blank" rel="noopener">Gates Foundation</a>, <a href="https://www.cs.washington.edu/" target="_blank" rel="noopener">University of Washington</a> and <a href="https://nairrpilot.org/" target="_blank" rel="noopener">NAIRR</a> and <a href="https://webflow.s2.local.allenai.org/about/publishers" target="_blank" rel="noopener">500+ academic journals</a> on <a href="https://www.semanticscholar.org/" target="_blank" rel="noopener">Semantic Scholar</a> project</p>



<ol type="1">
<li><strong>obéir à robots.txt</strong>&nbsp;: on ne voit pas AI2 consulter robots.txt</li>



<li><strong>Stats sur Botscorner</strong>.</li>
</ol>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="366" src="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_4_stats_Botscorner.png" alt="" class="wp-image-1441" srcset="https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_4_stats_Botscorner.png 605w, https://www.botscorner.fr/wp-content/uploads/2025/07/ai2_4_stats_Botscorner-300x181.png 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>AI2 Olmo’s stats show a huge activity on french websites plugged on Botscorner&nbsp;: more than +210.000 pages / 24h.</p>



<p>3. <strong>Estimated revenue</strong> <strong>$35M per year</strong> / 325 employees (<a href="https://growjo.com/company/Allen_Institute_for_AI_(AI2)" target="_blank" rel="noopener">source:  Growjo</a>)</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/the-botservatory-n17-allenai-org-olmo-open-llm-dataset/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>ils nous font confiance</title>
		<link>https://www.botscorner.fr/nos-clients/</link>
					<comments>https://www.botscorner.fr/nos-clients/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Tue, 10 Jun 2025 08:06:08 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1390</guid>

					<description><![CDATA[Botscorner provides B2B information on bots (media monitoring, artificial intelligence, SEO, RSS, etc.) allowing B2B syndication and subscription services of titles to regulate access to its copyrighted content and sign contracts. https://www.lemonde.fr/ https://www.lefigaro.fr/ https://www.leparisien.fr/ https://www.ouest-france.fr/ https://www.lepoint.fr/ https://www.prismamedia.com/ https://www.challenges.fr/ https://www.sciencesetavenir.fr/ https://www.infopro-digital.com https://1health.fr/ https://www.editions-lva.fr/ Germany https://www.faz.net/aktuell/ Canada https://www.lapresse.ca/ https://www.ledevoir.com/ Rights collection and distribution company https://www.copibec.ca/]]></description>
										<content:encoded><![CDATA[		<div data-elementor-type="wp-post" data-elementor-id="1390" class="elementor elementor-1390">
						<section class="elementor-section elementor-top-section elementor-element elementor-element-c8cfa0b animated-fast elementor-section-boxed elementor-section-height-default elementor-section-height-default exad-glass-effect-no exad-sticky-section-no elementor-invisible" data-id="c8cfa0b" data-element_type="section" data-settings="{&quot;animation&quot;:&quot;slideInDown&quot;,&quot;animation_delay&quot;:0}">
						<div class="elementor-container elementor-column-gap-default">
					<div class="elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6950731 exad-glass-effect-no exad-sticky-section-no" data-id="6950731" data-element_type="column">
			<div class="elementor-widget-wrap elementor-element-populated">
						<div class="elementor-element elementor-element-3e4a459 elementor-arrows-position-inside elementor-pagination-position-outside exad-sticky-section-no exad-glass-effect-no elementor-widget elementor-widget-image-carousel" data-id="3e4a459" data-element_type="widget" data-settings="{&quot;autoplay_speed&quot;:10000,&quot;speed&quot;:1000,&quot;slides_to_scroll&quot;:&quot;4&quot;,&quot;navigation&quot;:&quot;both&quot;,&quot;autoplay&quot;:&quot;yes&quot;,&quot;pause_on_interaction&quot;:&quot;yes&quot;,&quot;infinite&quot;:&quot;yes&quot;}" data-widget_type="image-carousel.default">
				<div class="elementor-widget-container">
			<style>/*! elementor - v3.21.0 - 08-05-2024 */
.elementor-widget-image-carousel .swiper,.elementor-widget-image-carousel .swiper-container{position:static}.elementor-widget-image-carousel .swiper-container .swiper-slide figure,.elementor-widget-image-carousel .swiper .swiper-slide figure{line-height:inherit}.elementor-widget-image-carousel .swiper-slide{text-align:center}.elementor-image-carousel-wrapper:not(.swiper-container-initialized):not(.swiper-initialized) .swiper-slide{max-width:calc(100% / var(--e-image-carousel-slides-to-show, 3))}</style>		<div class="elementor-image-carousel-wrapper swiper" dir="ltr">
			<div class="elementor-image-carousel swiper-wrapper" aria-live="off">
								<div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="1 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/lemonde-logo-1.png" alt="lemonde-logo-1" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="2 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/leparisien-logo-1.jpg" alt="leparisien-logo-1" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="3 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/logo_figaro.jpg" alt="logo_figaro" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="4 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/ouestfrance-logo-2.png" alt="ouestfrance-logo-2" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="5 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/lepoint_logo.png" alt="lepoint_logo" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="6 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/Prisma-logo-1.jpg" alt="Prisma-logo" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="7 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/challenges-logo-1.png" alt="challenges-logo-1" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="8 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/Science_et_Avenir.svg-1.png" alt="Science_et_Avenir.svg-1" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="9 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/infopro-logo.png" alt="infopro-logo" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="10 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/1health-logo-2.png" alt="1health-logo-2" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="11 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/ED-LVA-logo-1.jpg" alt="ED-LVA-logo-1" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="12 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/10/FAZ-Media-logo.jpg" alt="FAZ-Media-logo" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="13 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/copibec.png" alt="copibec" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="14 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/La_Presse.ca_Logo.png" alt="La_Presse.ca_Logo" /></figure></div><div class="swiper-slide" role="group" aria-roledescription="slide" aria-label="15 of 15"><figure class="swiper-slide-inner"><img decoding="async" class="swiper-slide-image" src="https://www.botscorner.fr/wp-content/uploads/2025/06/ledevoir-logo.png" alt="ledevoir-logo" /></figure></div>			</div>
												<div class="elementor-swiper-button elementor-swiper-button-prev" role="button" tabindex="0">
						<i aria-hidden="true" class="eicon-chevron-left"></i>					</div>
					<div class="elementor-swiper-button elementor-swiper-button-next" role="button" tabindex="0">
						<i aria-hidden="true" class="eicon-chevron-right"></i>					</div>
				
									<div class="swiper-pagination"></div>
									</div>
				</div>
				</div>
					</div>
		</div>
					</div>
		</section>
				<section class="elementor-section elementor-top-section elementor-element elementor-element-7336ba83 elementor-section-boxed elementor-section-height-default elementor-section-height-default exad-glass-effect-no exad-sticky-section-no" data-id="7336ba83" data-element_type="section">
						<div class="elementor-container elementor-column-gap-default">
					<div class="elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-267670f0 exad-glass-effect-no exad-sticky-section-no" data-id="267670f0" data-element_type="column">
			<div class="elementor-widget-wrap elementor-element-populated">
						<div class="elementor-element elementor-element-17d1a59d elementor-widget__width-initial exad-sticky-section-no exad-glass-effect-no elementor-widget elementor-widget-text-editor" data-id="17d1a59d" data-element_type="widget" data-widget_type="text-editor.default">
				<div class="elementor-widget-container">
			<style>/*! elementor - v3.21.0 - 08-05-2024 */
.elementor-widget-text-editor.elementor-drop-cap-view-stacked .elementor-drop-cap{background-color:#69727d;color:#fff}.elementor-widget-text-editor.elementor-drop-cap-view-framed .elementor-drop-cap{color:#69727d;border:3px solid;background-color:transparent}.elementor-widget-text-editor:not(.elementor-drop-cap-view-default) .elementor-drop-cap{margin-top:8px}.elementor-widget-text-editor:not(.elementor-drop-cap-view-default) .elementor-drop-cap-letter{width:1em;height:1em}.elementor-widget-text-editor .elementor-drop-cap{float:left;text-align:center;line-height:1;font-size:50px}.elementor-widget-text-editor .elementor-drop-cap-letter{display:inline-block}</style>				<p><!-- wp:paragraph --></p>
<p><strong><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">Botscorner provides B2B information on bots (media monitoring, artificial intelligence, SEO, RSS, etc.) allowing B2B syndication and subscription services of titles to regulate access to its copyrighted content and sign contracts.</font></font></span></span></span></span></span></span></strong></p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:list --></p>
<ul>
<li style="list-style-type: none;">
<ul><!-- wp:list-item --></ul>
</li>
</ul>
<ul>
<li style="list-style-type: none;">
<ul>
<li><strong><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">France</font></font></span></span></span></span></span></span></strong></li>
</ul>
</li>
</ul>
<p><!-- /wp:list-item --></p>
<p><!-- /wp:list --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.lemonde.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.lefigaro.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1400,"width":279,"height":279,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.leparisien.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1416,"width":265,"height":249,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.ouest-france.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1392,"width":278,"height":262,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.lepoint.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1393,"width":269,"height":190,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.prismamedia.com/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1395,"width":275,"height":154,"sizeSlug":"full","linkDestination":"none"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.challenges.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1396,"width":274,"height":138,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.sciencesetavenir.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1418,"width":308,"height":77,"sizeSlug":"large","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.infopro-digital.com</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1399,"width":273,"height":73,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://1health.fr/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1401,"width":276,"height":167,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.editions-lva.fr/</font></font><br></span></span></span></span></span></span><p></p>
<ul>
<li style="list-style-type: none;">
<ul>
<li><h6><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">Germany</font></font></span></span></span></span></span></span></span></span></h6></li>
</ul>
</li>
</ul>
<p></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.faz.net/aktuell/</font></font></span></span></span></span></span></span></span></span></figcaption>
</figure>
</figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:list --></p>
<ul>
<li style="list-style-type: none;">
<ul><!-- wp:list-item --></ul>
</li>
</ul>
<ul>
<li style="list-style-type: none;">
<ul>
<li><strong><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">Canada</font></font></span></span></span></span></span></span></strong></li>
</ul>
</li>
</ul>
<p><!-- /wp:list-item --></p>
<p><!-- /wp:list --></p>
<p><!-- wp:image {"id":1411,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.lapresse.ca/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:image {"id":1412,"width":285,"height":60,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.ledevoir.com/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>
<p><!-- wp:paragraph --></p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:list --></p>
<ul>
<li style="list-style-type: none;">
<ul><!-- wp:list-item --></ul>
</li>
</ul>
<ul>
<li style="list-style-type: none;">
<ul>
<li><strong><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">Rights collection and distribution company</font></font></span></span></span></span></span></span></strong></li>
</ul>
</li>
</ul>
<p><!-- /wp:list-item --></p>
<p><!-- /wp:list --></p>
<p><!-- wp:image {"id":1413,"sizeSlug":"full","linkDestination":"custom"} --></p>
<figure>
<figcaption><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><span dir="auto" style="vertical-align: inherit;"><font style="vertical-align: inherit;" dir="auto"><font style="vertical-align: inherit;" dir="auto">https://www.copibec.ca/</font></font></span></span></span></span></span></span></figcaption>
</figure>
<p><!-- /wp:image --></p>						</div>
				</div>
					</div>
		</div>
					</div>
		</section>
				</div>
		]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/nos-clients/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Le Botservatoire , le bulletin des crawlers commerciaux, n°16 – Brightdata.com</title>
		<link>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n16-brightdata-com/</link>
					<comments>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n16-brightdata-com/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Thu, 10 Apr 2025 11:16:07 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1380</guid>

					<description><![CDATA[Portrait-Robot de Brightdata.com, dataset for AI &#38; media monitoring Les précédents botservatoires Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &#38; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA … Portrait-Robot [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><strong>Portrait-Robot de Brightdata.com, dataset for AI &amp; media monitoring</strong></p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="253" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_home-menus.jpg" alt="" class="wp-image-1381" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_home-menus.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_home-menus-300x125.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><a href="https://www.botscorner.fr/bostcorner-blog/">Les précédents botservatoires</a></p>



<p>Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &amp; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="216" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_ethicalscrap.jpg" alt="" class="wp-image-1382" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_ethicalscrap.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_ethicalscrap-300x107.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><strong>Portrait-Robot de Brightdata (dataset for AI, media monitoring)</strong></p>



<p>Brightdata propose de très nombreux services, notamment:</p>



<p>-les proxies tournants (qui permettent de multiplier les ips locales temporaires), </p>



<p>-le scraping de contenus </p>



<p>-les apis d&#8217;accès à des datasets&#8230;</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="329" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_proxies-captchas.jpg" alt="" class="wp-image-1383" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_proxies-captchas.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_proxies-captchas-300x163.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Brightdata nous garantit un <a href="https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian" target="_blank" rel="noopener">scraping « éthique » grâce à son Brightbot</a>, qui respecte un fichier « collector.txt » , une sorte de robots.txt dédié à ce type de scraping ( ?). Brightbot monitore les sites scrapés pour adapter son activité à la charge supportable par les sites ciblés. </p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="253" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_scraping.jpg" alt="" class="wp-image-1384" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_scraping.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_scraping-300x125.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Dans la foulée, Brightdata.com détaille son scraping éthique, mais sans Brightbot cette fois, avec </p>



<p>-des <a href="https://brightdata.com/blog/how-tos/user-agents-for-web-scraping-101" target="_blank" rel="noopener">user agents de navigateurs </a>identifiés comme des internautes </p>



<p>&#8211;<a href="https://brightdata.com/ai/agent-browser" target="_blank" rel="noopener">des proxies rotatifs, de fausses pages de provenance, de résolutions de captchas</a>… toutes solutions permettant de <a href="https://brightdata.com/ai" target="_blank" rel="noopener">collecter les datas</a> nécessaires aux usages B2B, dans un strict cadre de « <a href="https://brightdata.com/ai/ai-for-good" target="_blank" rel="noopener">data for good</a> » </p>



<p><em>“Data is the fuel that drives AI innovation, and at <a href="https://brightinitiative.com/" target="_blank" rel="noreferrer noopener">The Bright Initiative</a></em><em>, Bright Data’s data-for-good program, we are committed to harnessing AI’s potential for positive change. Through strategic partnerships, research support, and ethical data access, we empower our partners to create meaningful social impact.</em></p>



<p><em>The Bright Initiative provides pro-bono access to Bright Data’s industry-leading data collection technology and datasets to nonprofit organizations, academic institutions, researchers, and public bodies working in the AI for Good space.”</em></p>



<p>Le scrap peut se faire via IA :</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="201" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_chatgpt.jpg" alt="" class="wp-image-1385" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_chatgpt.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_chatgpt-300x100.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Brightdata annonce plus de 20.000 clients, <a href="https://growjo.com/company/Bright_Data" target="_blank" rel="noopener">Chiffre d’affaires estimé</a> : $220.1M per year, 1084 Employees (+30%)</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="82" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_clients.jpg" alt="" class="wp-image-1386" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_clients.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_clients-300x41.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<ol type="1">
<li><strong>obéir à robots.txt</strong>&nbsp;: on ne voit pas Brightdata consulter robots.txt</li>



<li><strong>Stats sur Botscorner</strong>: Les stats Brightdata montrent une activité conséquente sur les sites (France) équipés de Botscorner : jusqu’à 50.000 pages sur une journée. </li>
</ol>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="413" src="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_stats-Botscorner.jpg" alt="" class="wp-image-1387" srcset="https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_stats-Botscorner.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2025/04/botservatoire16_brightdata_stats-Botscorner-300x205.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n16-brightdata-com/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Le Botservatoire , le bulletin des crawlers commerciaux, n°15 – ZYTE.com</title>
		<link>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n15-zyte-com/</link>
					<comments>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n15-zyte-com/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Mon, 03 Mar 2025 16:15:54 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1368</guid>

					<description><![CDATA[Portrait-Robot de Zyte.com Les précédents botservatoires Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &#38; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA … Portrait-Robot de ZYTE.com, “the best place to [&#8230;]]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="859" height="706" src="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte2.jpg" alt="" class="wp-image-1369" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte2.jpg 859w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte2-300x247.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte2-768x631.jpg 768w" sizes="(max-width: 859px) 100vw, 859px" /></figure>



<p><strong>Portrait-Robot de Zyte.com</strong></p>



<p><a href="https://www.botscorner.fr/bostcorner-blog/">Les précédents botservatoires</a></p>



<p>Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &amp; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …</p>



<p><strong>Portrait-Robot de ZYTE.com, “the best place to host <a href="https://scrapy.org/" target="_blank" rel="noopener">Scrapy spiders</a>”</strong></p>



<p>Sur son site, Zyte propose un service «&nbsp;<a href="https://www.zyte.com/data-types/news-articles-scraper/" data-type="link" data-id="https://www.zyte.com/data-types/news-articles-scraper/" target="_blank" rel="noopener"><strong>News &amp; Article data : </strong>Accurate articles and news data from global publishers and the largest news websites in the world</a>”. </p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="864" height="703" src="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte3.jpg" alt="" class="wp-image-1370" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte3.jpg 864w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte3-300x244.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte3-768x625.jpg 768w" sizes="(max-width: 864px) 100vw, 864px" /></figure>



<p><strong>Zyte démontre sa bonne connaissance des sites de news : «&nbsp;Articles and news data comes in all shapes and sizes. We get it all”.</strong></p>



<p>1-“Mainstream broadcast : These are large organizations that have dominated the news world for many years. They include TV networks, newspapers, press releases, and radio stations that are widely recognized and trusted by the public”.</p>



<p>2-“Industry and vertical : These websites focus on specific industries or niches, providing news and information that is relevant to professionals in those fields”.</p>



<p>3-“Alternative media and independents : These websites operate outside of the traditional, corporate-owned media landscape. They may provide alternative perspectives on news and events”.</p>



<p>4-“Groups, individuals, and influencer : These web pages are created and run by individuals or groups, such as bloggers, vloggers, or podcasters”.</p>



<p>5-“Online aggregators : These websites collect and curate crucial news data from various sources and present them to users in a single location”.</p>



<p>6-“News blogs : These websites are dedicated to latest news articles and opinion, often with a specific focus or niche”.</p>



<p>7-“Video news : Video news websites provide news coverage through video content, which can be more difficult to collect and parse data from than text-based news”.</p>



<p>8-“Social media : Social media platforms where journalists and publications source stories and where many brands self-publish and promote their content”.</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="816" height="441" src="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte4.jpg" alt="" class="wp-image-1372" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte4.jpg 816w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte4-300x162.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte4-768x415.jpg 768w" sizes="(max-width: 816px) 100vw, 816px" /></figure>



<p><strong>À quoi servira ce scraping&nbsp;?</strong></p>



<p>“<strong>Brand monitoring &amp; reputation management</strong> , Market research , <strong>Content optimization (SEO)</strong> , <strong>News aggregation</strong> , Tackling misinformation , <strong>Building AI models</strong> and algorithms , Creating dashboards , <strong>Ad and affiliate tracking</strong>”.</p>



<p>La factorisation du scrap donne un <a href="https://www.zyte.com/pricing/" data-type="link" data-id="https://www.zyte.com/pricing/" target="_blank" rel="noopener">prix de service</a> assez intéressant, que ce soit pour gérer son scraping ou pour l’acquisition de données déjà extraites et mises en forme.</p>



<p>On notera que <strong><a href="https://www.ipxo.com/" data-type="link" data-id="https://www.ipxo.com/" target="_blank" rel="noopener">IPXO</a>, une place de marché pour louer des adresses IPs</strong>, se présente comme «&nbsp;un partenaire de confiance en matière de location d’IPs pour les entreprises dans plus de 75 secteurs d’activité&nbsp;», <strong>et avance quelques services partenaires dont «&nbsp;Zyte&nbsp;».</strong></p>



<figure class="wp-block-image size-large"><img loading="lazy" decoding="async" width="1024" height="646" src="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte-1024x646.jpg" alt="" class="wp-image-1373" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte-1024x646.jpg 1024w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte-300x189.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte-768x484.jpg 768w, https://www.botscorner.fr/wp-content/uploads/2025/03/botservatoire_15_ipxo_zyte.jpg 1134w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>D’ailleurs, parmi les différents usages possibles des ips de location, on peut trouver le «&nbsp;<a href="https://www.ipxo.com/industries/business-intelligence/" data-type="link" data-id="https://www.ipxo.com/industries/business-intelligence/" target="_blank" rel="noopener">data crawling and data extraction&nbsp;</a>» <strong>&nbsp;:</strong></p>



<p>“With the support of professional IP leasing services provided by IPXO, a leading web exfiltration company in Europe can continue introducing innovations and improving the quality of services to guarantee quick and efficient data crawling and data extraction”.</p>



<p><strong>2. </strong><strong>Estimated Revenue, Valuation, employee data</strong></p>



<ul>
<li>IPXO.com estimated annual revenue is currently <a href="https://growjo.com/company/IPXO" target="_blank" rel="noopener">8M$ per year</a>.</li>



<li>Employee : <a href="https://growjo.com/company/IPXO" target="_blank" rel="noopener">62</a></li>



<li>Zyte (ScrapingHub) estimated annual revenue is currently <a href="https://growjo.com/company/Scrapinghub" target="_blank" rel="noopener">27M$ per year</a>.</li>



<li>Employee : <a href="https://growjo.com/company/Scrapinghub" target="_blank" rel="noopener">171</a></li>
</ul>



<p><strong>3. stats on Botscorner</strong></p>



<figure class="wp-block-image size-large"><img loading="lazy" decoding="async" width="1024" height="615" src="https://www.botscorner.fr/wp-content/uploads/2025/03/image-1024x615.png" alt="" class="wp-image-1375" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/image-1024x615.png 1024w, https://www.botscorner.fr/wp-content/uploads/2025/03/image-300x180.png 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/image-768x461.png 768w, https://www.botscorner.fr/wp-content/uploads/2025/03/image.png 1164w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<figure class="wp-block-image size-large"><img loading="lazy" decoding="async" width="1024" height="597" src="https://www.botscorner.fr/wp-content/uploads/2025/03/image-1-1024x597.png" alt="" class="wp-image-1377" srcset="https://www.botscorner.fr/wp-content/uploads/2025/03/image-1-1024x597.png 1024w, https://www.botscorner.fr/wp-content/uploads/2025/03/image-1-300x175.png 300w, https://www.botscorner.fr/wp-content/uploads/2025/03/image-1-768x448.png 768w, https://www.botscorner.fr/wp-content/uploads/2025/03/image-1.png 1174w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n15-zyte-com/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Le Botservatoire , le bulletin des crawlers commerciaux, n°14 – Timpi.io dataset</title>
		<link>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n14-timpi-io-dataset/</link>
					<comments>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n14-timpi-io-dataset/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Tue, 10 Dec 2024 12:46:14 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1359</guid>

					<description><![CDATA[Portrait-Robot de Timpi.io, dataset for AI &#38; media monitoring Les précédents botservatoires Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &#38; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA … Timpi.io [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><strong>Portrait-Robot de Timpi.io, dataset for AI &amp; media monitoring</strong></p>



<p><a href="https://www.botscorner.fr/bostcorner-blog/">Les précédents botservatoires</a></p>



<p>Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &amp; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …</p>



<figure class="wp-block-image size-full is-resized"><img loading="lazy" decoding="async" src="http://www.botscorner.fr/wp-content/uploads/2024/12/timpio5.jpg" alt="" class="wp-image-1364" style="width:836px;height:428px" width="836" height="428" srcset="https://www.botscorner.fr/wp-content/uploads/2024/12/timpio5.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2024/12/timpio5-300x154.jpg 300w" sizes="(max-width: 836px) 100vw, 836px" /></figure>



<p><a href="https://timpi.io/run-a-node/" data-type="link" data-id="https://timpi.io/run-a-node/" target="_blank" rel="noopener">Timpi.io nous propose de <em>participer à la <strong>démocratisation de l’information mondiale</strong></em></a><em> (et de gagner des récompenses). L’index Web de Timpi repose sur un réseau décentralisé de nœuds gérés par des utilisateurs indépendants.</em></p>



<p><strong><a href="https://timpi.io/the-index/#whatdata" target="_blank" rel="noopener">« Giving you the power of data »</a> : </strong><em>Nos (sic) données sont utilisées pour développer des applications et informer les entreprises. </em>Par exemple,<em> l&#8217;entraînement de l&#8217;IA : Utilisez de vastes ensembles de données pour <strong>entraîner vos modèles d&#8217;IA</strong> avec des informations diverses et complètes provenant du Web, améliorant ainsi la précision et les performances.</em></p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="222" src="http://www.botscorner.fr/wp-content/uploads/2024/12/timpio1.jpg" alt="" class="wp-image-1361" srcset="https://www.botscorner.fr/wp-content/uploads/2024/12/timpio1.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2024/12/timpio1-300x110.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p>Le moteur de recherche Timpi, enrichi par Wilson (l&#8217;IA de Timpi), s&#8217;appuie sur un modèle de <a href="https://timpi.io/timpi-search/" target="_blank" rel="noopener">gouvernance décentralisé</a>. Timpi utilise une technologie « DePIN » (<a href="https://timpi.io/buy-the-token/" data-type="link" data-id="https://timpi.io/buy-the-token/" target="_blank" rel="noopener">Decentralized physical infrastructure network</a>) </p>



<blockquote class="wp-block-quote">
<p>Les DePINs sont le pont entre les mondes physique et numérique. Ils utilisent des blockchains et offrent des récompenses sous forme de jetons pour les services enregistrés publiquement. Les DePINs créent un réseau pour les objets physiques, tels que le Wi-Fi et le stockage de données, permettant aux gens de partager leurs ressources directement avec d&#8217;autres utilisateurs sans avoir besoin d&#8217;un intermédiaire.</p>
<cite><a href="https://cointelegraph.com/explained/decentralized-physical-infrastructure-network-depin-explained" target="_blank" rel="noopener">cointelegraph.com</a></cite></blockquote>



<p>Timpi propose l’accès <em>au plus grand ensemble de données au monde avec plus de <a href="https://timpi.io/the-index/#" target="_blank" rel="noopener"><strong>5 milliards de pages Web</strong></a>.</em> </p>



<p>Wilson AI les versions futures de <a href="https://timpi.io/wilson-ai/" target="_blank" rel="noopener">WilsonAI</a> offriront <em>encore plus d&#8217;informations en temps réel</em>, <em>de personnalisation pour les utilisateurs</em> </p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="376" src="http://www.botscorner.fr/wp-content/uploads/2024/12/timpio2.jpg" alt="" class="wp-image-1363" srcset="https://www.botscorner.fr/wp-content/uploads/2024/12/timpio2.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2024/12/timpio2-300x186.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<p><strong>1. obéir à robots.txt</strong> les ips de Timpi ne passent pas sur robots.txt.</p>



<p><strong>2. Stats sur Botscorner</strong>.</p>



<p>Les stats Timpi montrent une activité conséquente sur certains sites équipés de Botscorner. Deux exemples ci-dessous de scraps Timpi sur des sites de presse, dans deux pays différents (jusqu’à 160.000 pages sur une journée sur un site)</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="421" src="http://www.botscorner.fr/wp-content/uploads/2024/12/timpio3.jpg" alt="" class="wp-image-1362" srcset="https://www.botscorner.fr/wp-content/uploads/2024/12/timpio3.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2024/12/timpio3-300x209.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="605" height="415" src="http://www.botscorner.fr/wp-content/uploads/2024/12/timpio4.jpg" alt="" class="wp-image-1360" srcset="https://www.botscorner.fr/wp-content/uploads/2024/12/timpio4.jpg 605w, https://www.botscorner.fr/wp-content/uploads/2024/12/timpio4-300x206.jpg 300w" sizes="(max-width: 605px) 100vw, 605px" /></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n14-timpi-io-dataset/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Botscorner : l’innovation au service de la protection des contenus et des données</title>
		<link>https://www.botscorner.fr/botscorner-linnovation-au-service-de-la-protection-des-contenus-et-des-donnees/</link>
					<comments>https://www.botscorner.fr/botscorner-linnovation-au-service-de-la-protection-des-contenus-et-des-donnees/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Tue, 26 Nov 2024 08:59:58 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1356</guid>

					<description><![CDATA[interview publiée sur le site du GESTE Yan Gilbert était le Directeur de la diffusion numérique du groupe Nouvel Observateur de 2000 à 2015. Il a ensuite dirigé le GIE Panorama de Presse de 2010 à 2015. Depuis 2017, il occupe la fonction de Directeur Général au sein de Clipeum, éditeur de la solution innovante [&#8230;]]]></description>
										<content:encoded><![CDATA[
<p><a href="https://geste.fr/botscorner-linnovation-au-service-de-la-protection-des-contenus-et-des-donnees/" data-type="link" data-id="https://geste.fr/botscorner-linnovation-au-service-de-la-protection-des-contenus-et-des-donnees/" target="_blank" rel="noopener">interview publiée</a> sur le site du <a href="https://geste.fr/qui-sommes-nous/" data-type="link" data-id="https://geste.fr/qui-sommes-nous/" target="_blank" rel="noopener">GESTE</a></p>



<p><strong>Yan Gilbert était le Directeur de la diffusion numérique du groupe Nouvel Observateur de 2000 à 2015. Il a ensuite dirigé le GIE Panorama de Presse de 2010 à 2015. Depuis 2017, il occupe la fonction de Directeur Général au sein de Clipeum, éditeur de la solution innovante Botscorner.</strong></p>



<p><strong><mark><strong>Pouvez-vous nous expliquer le fonctionnement de Botscorner ?&nbsp;</strong></mark></strong></p>



<p><u><a href="https://www.botscorner.fr" data-type="link" data-id="https://www.botscorner.fr">Botscorner</a></u> analyse le trafic des robots et des proxies sur les sites de presse. L’éditeur envoie automatiquement ses logs de sessions, qui sont enrichis par Botscorner, grâce aux milliers d’informations accumulées et mises à jour depuis son lancement en 2017. </p>



<p>-Les visites « internautes » ne sont ni enrichies ni suivies. &nbsp;</p>



<p>-Les sessions « robots » sont enrichies et classées par typologie de marché. <strong>Cela permet de suivre distinctement les bots par activité et par modèle économique : Searchbots, AI, datasets, media monitoring, sites parasites, gestionnaires RSS, SEO, régie pub… Ces activités sont monétisables</strong>. </p>



<p>&#8211;<strong>Les sessions « proxies » émanant d’entreprises, d’associations, d’administrations, d’universités</strong>… sont également renseignées, éventuellement avec les <strong>infos « paywall »</strong>, afin que l’éditeur puisse adresser des prospects ou de comparer les infos avec ses données « grands comptes ».</p>



<p><strong><mark><strong>Comment cette technologie permet-elle d’identifier et de réguler les robots accédant aux contenus protégés par le droit d’auteur ?&nbsp;&nbsp;</strong></mark></strong></p>



<p>Cela dépend des sites, mais on observe généralement qu’une moitié des demandes de pages sur les sites de presse ne sont pas effectuées par des internautes mais par des programmes (IA, mediamonitoring, datasets, searchbots, SEO, …). Botscorner conjugue différents moyens pour identifier les bots, comme le ferait une Bot Mitigation (identification technique bots/humains et réponse en temps réel). La finalité de Botscorner n’est pas de traiter des questions de sécurité (DDos, SQL injection, etc.) mais d’identifier les actions automatiques et de renseigner le trafic B2B. Identifier la personne morale renseigne sur le modèle économique. Cela permet de comprendre à quoi vont servir les données récoltées : comment le « propriétaire » des robots en tire parti pour son service. Ces informations pour action, remontées par Botscorner, concernent différents services de l’éditeur. En effet, Botscorner n’agit pas en « coupure » comme le ferait une bot mitigation. La régulation reste dans la main de l’éditeur, qui va décider du traitement approprié, en fonction de sa stratégie, service par service. Par exemple : blocage de crawls anonymes par le service technique, recueil de preuves par le service juridique, négociation par le service syndication.&nbsp;</p>



<p><strong><mark><strong>Botscorner a annoncé 2 partenariats importants (Le Monde et Ouest France). Pouvez-vous nous expliquer en quoi consistent ces partenariats et quels bénéfices les éditeurs vont-ils pouvoir en tirer ?&nbsp;&nbsp;</strong></mark></strong></p>



<p>Et nous allons bientôt annoncer d’autres partenariats ! &nbsp;</p>



<p>Je ne peux pas m’exprimer à la place des clients de Borscorner. Tout dépend de leur stratégie. Chaque éditeur a des utilisations assez différentes des informations remontées. En fonction de l’approche de chacun, ces informations intéressent les services syndication, business dev, abonnements grands comptes, juridique, technique… <strong>Botscorner remonte les informations sur les bots en fournissant aux services de l’éditeur</strong> :  </p>



<p>&#8211;<strong>La fiche contacts de l’entreprise qui active le bot</strong> </p>



<p>&#8211;<strong>La nature du trafic (proxy ou bot)</strong> </p>



<p>&#8211;<strong>Le volume et la nature des données collectées (article, jpg) </strong></p>



<p>&#8211;<strong>Les infos techniques qui permettent de bloquer les bots si la négociation s’enlise</strong> </p>



<p>Dès lors, certains éditeurs recourent à Botscorner uniquement pour identifier les crawlers indésirables sur leur base de données, en vue de les bloquer. En revanche, d’autres utilisent à plein toutes les informations présentées, en fléchant les proxies entreprises/administrations vers le service abonnements grands comptes, les crawlers B2B vers le licensing/business développement et les scrapers anonymes vers le service technique, entre autres.&nbsp;</p>



<p><strong><mark><strong>Quelles synergies souhaitez-vous développer avec chacun d’eux ?&nbsp;</strong></mark></strong></p>



<p>Des contacts réguliers se mettent en place, au début pour se former sur l’outil, puis pour faire le point sur l’activité des bots, lever des interrogations sur certains crawlers, etc. Généralement, les sessions hebdomadaires ou bimensuelles durent d’une demi-heure à une heure. Même si cela concerne généralement les services commerciaux, nous avons aussi des échanges avec les services techniques et juridiques. &nbsp;</p>



<p><strong><mark><strong>Quelles sont les mesures de protection des données que Botscorner met en place pour garantir la confidentialité des informations collectées lors de l’identification des robots ?&nbsp;</strong></mark></strong></p>



<p>La protection des données est cruciale. Nous ne transmettons aucune donnée à des tiers autre que l’éditeur lui-même, qui nous a fourni ses logs pour analyse. Et, sur son dashboard, l’éditeur accède uniquement aux informations concernant ses propres titres. Par ailleurs, nous avons assuré notre mise en conformité au RGPD, le règlement européen sur la protection des données, avec l’aide d’un cabinet spécialisé. La durée de conservation des données envoyées par les éditeurs est limitée : nous supprimons tous les informations après 24h. &nbsp;</p>



<p><strong><mark><strong>Quels sont les principaux défis actuels rencontrés par Botscorner ? Droits voisins ? &nbsp;&nbsp;</strong></mark></strong></p>



<p>Effectivement, la loi sur les droits voisins, mais aussi l’arrivée des IA grand public, ont entraîné beaucoup d’intérêt pour Botscorner. &nbsp;Pour nous, cela génère une adaptation permanente aux techniques de crawl, et une veille active sur toutes les utilisations des données et les nouveaux modèles économiques. Cela implique une mise à jour quotidienne de la cartographie globale des bots, et les remontées d’informations sur le marché B2B. &nbsp;</p>



<p><strong><mark><strong>Quelles sont les prochaines étapes de Botscorner (en termes d’innovation et développement) pour répondre aux besoins futurs des éditeurs ?</strong></mark></strong></p>



<p>Nous avons des clients dans plusieurs pays, sur deux continents. Grâce à leurs remarques et à leurs retours d’expérience, le service ne cesse de progresser ! Les prochaines étapes consistent à répondre toujours mieux aux attentes de nos clients, à améliorer le service grâce à leurs suggestions, et à continuer de nous développer, en France et à l’international.&nbsp;</p>



<p><strong><a href="https://geste.fr/qui-sommes-nous/" data-type="link" data-id="https://geste.fr/qui-sommes-nous/" target="_blank" rel="noopener">Le Geste: </a></strong></p>



<p><em>Depuis sa création en 1987, le GESTE s’est fait fort d’analyser les mutations du modèle économique des éditeurs de contenu et services en ligne afin de permettre une meilleure compréhension des enjeux posés par la transformation numérique et l’émergence de conditions économiques, législatives et concurrentielles.&nbsp;Aujourd’hui présidé par <strong>Bertrand Gié, Directeur délégué du pôle News du Groupe Figaro</strong>, le GESTE fédère une centaine d’éditeurs en ligne, tous horizons confondus : presse en ligne, médias digitaux et audiovisuels, plateformes de musique, services mobiles et vocaux…&nbsp;Le GESTE, lieu d’échanges et de veille permet à ses membres d’avoir un temps d’avance sur les débats qui font l’actualité et les positions législatives. Des solutions concrètes et applicables pour un réel développement économique y sont débattues avant d’être soumises au gouvernement et aux instances publiques.</em></p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/botscorner-linnovation-au-service-de-la-protection-des-contenus-et-des-donnees/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Le Botservatoire , le bulletin des crawlers commerciaux, n°13 – NewsAPI.AI (dataset)</title>
		<link>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n12-newsapi-ai-dataset/</link>
					<comments>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n12-newsapi-ai-dataset/#respond</comments>
		
		<dc:creator><![CDATA[Yan Gilbert]]></dc:creator>
		<pubDate>Thu, 17 Oct 2024 13:36:16 +0000</pubDate>
				<category><![CDATA[Non classé]]></category>
		<guid isPermaLink="false">https://www.botscorner.fr/?p=1347</guid>

					<description><![CDATA[Portrait-Robot de EventRegistry, maison mère de NEWSAPI.AI, dataset for AI &#38; media monitoring Les précédents botservatoires Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &#38; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable [&#8230;]]]></description>
										<content:encoded><![CDATA[<div class="wp-block-image">
<figure class="aligncenter size-large is-resized"><img loading="lazy" decoding="async" src="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry1-1024x473.jpg" alt="" class="wp-image-1348" style="width:455px;height:210px" width="455" height="210" srcset="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry1-1024x473.jpg 1024w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry1-300x139.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry1-768x355.jpg 768w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry1.jpg 1032w" sizes="(max-width: 455px) 100vw, 455px" /></figure></div>


<p><strong>Portrait-Robot de EventRegistry, maison mère de NEWSAPI.AI, dataset for AI &amp; media monitoring</strong></p>



<p><a href="https://www.botscorner.fr/bostcorner-blog/">Les précédents botservatoires</a></p>



<p>Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online &amp; print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …</p>



<p><strong>Portrait-Robot de <a href="https://www.newsapi.ai/" target="_blank" rel="noopener">NewsAPI.AI</a> et <a href="https://eventregistry.org/" target="_blank" rel="noopener">EventRegistry.org</a> (dataset for AI, media monitoring)</strong></p>



<p><a href="https://www.forbes.com/sites/markminevich/2020/04/13/heres-how-slovenia-is-shaping-the-new-human-centric-society-and-pioneering-the-world-in-ai/#a0f0bed48602" target="_blank" rel="noopener">Forbes</a> nous présente <a href="https://eventregistry.org/" target="_blank" rel="noopener">EventRegistry</a> comme «&nbsp;un service de surveillance mondiale des médias en temps réel, grâce à des algorithmes de recherche multilingues et une extraction approfondie d&#8217;informations afin de transformer les données en une plateforme décisionnelle significative&nbsp;».</p>


<div class="wp-block-image">
<figure class="aligncenter size-full"><img loading="lazy" decoding="async" width="612" height="514" src="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry2.jpg" alt="" class="wp-image-1349" srcset="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry2.jpg 612w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry2-300x252.jpg 300w" sizes="(max-width: 612px) 100vw, 612px" /></figure></div>


<p>Vous cherchez des bases d’articles de presse de qualité? Ne cherchez plus:</p>



<p>“ Get articles from <strong><a href="https://eventregistry.org/" data-type="link" data-id="https://eventregistry.org/" target="_blank" rel="noopener">150,000 news publishers</a></strong> worldwide”<br>“ Get the <strong><a href="https://eventregistry.org/products/monitor/" data-type="link" data-id="https://eventregistry.org/products/monitor/" target="_blank" rel="noopener">full news content</a></strong> as well as information about the mentioned entities, topics and sentiment.”</p>



<p>“Discover news content <strong>minutes after it is published</strong>”</p>



<p>“Archives <strong>since 2014</strong>”</p>



<p>“World’s <strong>leading companies</strong> are using <a href="https://www.newsapi.ai/" data-type="link" data-id="https://www.newsapi.ai/" target="_blank" rel="noopener">NewsApi.ai</a>”</p>



<p><strong>Clients:</strong></p>



<p>Spotify, IBM, Palantir, Bloomberg, Merck, Accenture, BASF, Johnson&amp;Johnson, Airbus, Barclays, Disney, PWC, arabesque, OECD, BASF, McKinsey, Gouvernement Slovenie…</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="827" height="217" src="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry32.jpg" alt="" class="wp-image-1350" srcset="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry32.jpg 827w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry32-300x79.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry32-768x202.jpg 768w" sizes="(max-width: 827px) 100vw, 827px" /></figure>



<p><strong>Eventregistery a obtenu des financements de la part du fonds </strong><strong><a href="https://blog.eventregistry.org/event-registry-gets-google-dni-funding/" target="_blank" rel="noopener">Google’s Digital News Initiative</a>.</strong></p>



<p><strong>Le Réseau académique et de recherche de Slovénie</strong>, Arnes, propose une <a href="https://video.arnes.si/en/watch/PhaXClWWpKsS" target="_blank" rel="noopener">présentation d’EventRegistry</a></p>



<p><strong>1. obéir à robots.txt</strong>&nbsp;: EventRegistry utilisait un user agent explicite. Les quelques éditeurs qui le bloquaient ont peut-être eu raison de cet affichage&nbsp;? Désormais, le user agent n’apparait plus, mais le trafic n’a pas baissé, au contraire. Ces ips ne passent de toutes façons pas sur robots.txt.</p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="781" height="543" src="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry5_stats.jpg" alt="" class="wp-image-1351" srcset="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry5_stats.jpg 781w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry5_stats-300x209.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry5_stats-768x534.jpg 768w" sizes="(max-width: 781px) 100vw, 781px" /></figure>



<p><strong>2. Stats sur Botscorner</strong>.</p>



<p>Les stats d’EventRegistry, dont le service a été lancé en 2017, montrent une activité conséquente sur les sites équipés de Botscorner.</p>



<p><strong>3. Tarifs</strong></p>



<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="978" height="778" src="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry3.jpg" alt="" class="wp-image-1352" srcset="https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry3.jpg 978w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry3-300x239.jpg 300w, https://www.botscorner.fr/wp-content/uploads/2024/10/botservatoire13_eventregistry3-768x611.jpg 768w" sizes="(max-width: 978px) 100vw, 978px" /></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://www.botscorner.fr/le-botservatoire-le-bulletin-des-crawlers-commerciaux-n12-newsapi-ai-dataset/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
