Portrait Robot de openAI search, un moteur de recherches et de réponses.
Tous les jours, des centaines de crawlers collectent des données sur les sites des éditeurs radio, TV, presse online & print. Ils opèrent pour les activités de veille, des analyses, des résumés, fournissent le big data de qualité indispensable aux IA …
D’OpenAI, on connaissait ChatGPT, qui s’est entrainé pendant des années sur divers datasets, le plus connu étant celui proposé gratuitement par CommonCrawl, et constitué notamment de contenus « presse ». On découvre depuis fin juillet 2024 un nouveau service en version Beta : OpenAI Search
OpenAI le décrit ainsi : “OAI-SearchBot is for search. OAI-SearchBot is used to link to and surface websites in search results in the SearchGPT prototype. It is not used to crawl content to train OpenAI’s generative AI foundation models.“
OpenAI Search lance donc un solide concurrent à Google. Contrairement à son concurrent, le service d’OpenAI ne serait pas basé sur des algorithmes de classement. OpenAI Search va utiliser l’intelligence artificielle pour fournir les réponses aux internautes. Il annonce tester déjà le modèle avec quelques éditeurs.
OAISearch affichera les sources ayant permis de formuler la réponse résumée donnée par OAISearch.
OAI Search ne donne aucune information sur le modèle économique proposé aux éditeurs pour générer ces résumés sur de l’information « temps réel », ni à ce stade sur le taux de clic observé sur les liens proposés en sidebar à côté de la réponse claire et concise de OAISearch.
Le volume déjà substantiel d’abonnés au service ChatGPT, et la dynamique du marché de l’IA plaident pour une étude attentive de cette beta version par les éditeurs de presse.
extrait du site OpenAI Search: « We’re testing SearchGPT, a prototype of new search features designed to combine the strength of our AI models with information from the web to give you fast and timely answers with clear and relevant sources. We’re launching to a small group of users and publishers to get feedback. While this prototype is temporary, we plan to integrate the best of these features directly into ChatGPT in the future. (…) Getting answers on the web can take a lot of effort, often requiring multiple attempts to get relevant results. We believe that by enhancing the conversational capabilities of our models with real-time information from the web, finding what you’re looking for can be faster and easier.”
1. obéir à robots.txt
OAI-Search passe sur robots.txt. OAI-S annonce suivre les recommandations de ce fichier, dans un délai de 24h.
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
OAI Search passe sur la plupart des fichiers robots.txt des sites suivis par Botscorner, avant de crawler. Il passe peu sur ce fichier: 12 demandes de fichiers robots.txt, sur pluei
2. Stats sur Botscorner.
Les stats de OAI-Search, dont la version beta a été officiellement lancée fin juillet, commencent à apparaitre sur Botscorner, avec quelques milliers de pages par jour, tous types d’éditeurs.
OAI-S fait encore quelques réglages sur son crawl, on observe de nombreux refus d’accès à la page à cause de la méthode de crawl, qui se résorbent au fil du temps. en cette première semaine d’août 2024, on ne voit pas encore de mention “disallow” à destination du user agent d’OAI Search.