Tag: open source

Tous I L P W

Résultats : articles 1 à 4 sur 4

Plus de 1000 milliards de pages web disponibles sur Internet Archive

Tags

1255

Plus de 1000 milliards de pages web disponibles sur ... Image 1

Dans un récent billet de blog Chris Freeland, un des directeurs d’ Internet Archive a annoncé que ce site avait dépassé le cap du billion (1000 milliards) de pages stockées et a engagé toutes les bibliothèques du monde à célébrer cet événement qui est le fruit d’un effort collectif pour préserver notre histoire numérique.

Internet Archive a franchi un cap historique : courant octobre dernier, le cap des mille milliards de pages stockées soit l’équivalent de 21,3 millions de DVD a été franchi (mille milliard se dit billion en français et trillion en anglais (!)).

Ce site avait vu le jour en 1996, année qui coïncide avec l’arrivée d’Internet en France, pour pallier le manque d’archives du web alors que la presse était bien archivée depuis fort longtemps.

Ce "billion" de pages est accessible via la Wayback Machine, le service d’Internet Archive qui donne accès au contenu web archivé sous forme de « machine à remonter le temps ».

On trouve également dans cette gigantesque archive d’autres types de documents : des ouvrages (49 millions), des enregistrements audio (13 millions, dont 268 000 concerts) des vidéos (10 millions, dont 3 millions de journaux télévisés), 5 millions d’images et un million de logiciels.

On peut se demander à quoi tient la différence des ordres de grandeur avec le chiffre précédent. En fait, les pages stockées sont des clichés instantanés de pages web alors qu’un ouvrage est compté pour une seule unité quel que soit son nombre de pages.

Wikipédia et Grokipedia : la bataille du savoir à l’ère de l’IA

Tags

Intelligence artificielle | open source | Wikipédia | IA

1691

Wikipédia et Grokipedia : la bataille du savoir à l’ère de ... Image 1

À l’heure où l’intelligence artificielle redéfinit l’accès au savoir, Wikipédia et Grokipedia, le nouveau projet d’Elon Musk, incarnent deux visions opposées : l’une communautaire et ouverte, l’autre centralisée et portée par xAI. Alors que Wikipédia adapte ses données pour dialoguer avec les IA tout en préservant sa transparence, Grokipedia promet une alternative « sans biais ».

Le Wikidata Embedding Project : Wikipédia s’adapte à l’IA

Lancé le 1ᵉʳ octobre 2025 par la Wikimedia Foundation, en partenariat avec Jina.AI et DataStax, le Wikidata Embedding Project vise à rendre les 119 millions d’entrées de Wikidata, alimentées par 24 000 contributeurs actifs, exploitables par les intelligences artificielles.

Grâce à la recherche vectorielle, qui traduit les concepts en relations numériques via des modèles comme Jina Embeddings v3 (multilingue, jusqu’à 8 192 tokens), le système dépasse les recherches par mots-clés. Une requête sur « scientifique », comme l’illustre le site TechCrunch, proposera ainsi des biographies comme celles de Marie Curie ou Albert Einstein, des concepts liés comme la méthode scientifique ou des visuels tels que des schémas de formules.

Ce projet s’appuie sur des APIs vectorielles ouvertes, notamment celles de DataStax (Astra DB), pour intégrer les données de Wikidata dans les assistants IA via la technologie RAG (Retrieval Augmented Generation). Un webinar le 9 octobre 2025 a marqué le lancement, avec un support initial en anglais, français et arabe, et 30 millions d’entrées déjà vectorisées.

Maryana Iskander, PDG de la Wikimedia Foundation : "Face à l’IA, nous devons préserver notre modèle ouvert en l’intégrant intelligemment."

Cette stratégie répond à une urgence : les résumés IA de Google, déployés à grande échelle en 2025, captent 8 % du trafic humain de Wikipédia, menaçant ses dons, qui représentent 80 % de son financement.

Les hausses tarifaires des modèles: vers une intelligence artificielle à deux vitesses ?

Tags

veille technologique | open source | veille métier | ChatGPT

Anne-Marie LIBMANN

Bases no

437

publié en

2025.06

2580

Acheter le numéro

Les hausses tarifaires des modèles: vers une intelligence ... Image 1

Avec la montée en puissance de l’IA générative dans le milieu professionnel, celle-ci devient un véritable outil cognitif, utilisé pour des tâches complexes telles que la recherche, la synthèse de textes, l’interaction documentaire ou la rédaction d’analyses, et la question de l’évolution des tarifs d’accès aux modèles avancés devient centrale. Anthropic (Claude), OpenAI (ChatGPT), xAI (Grok) et Mistral proposent des grilles tarifaires de plus en plus segmentées, certaines offres premium étant principalement destinées aux grandes entreprises ou aux organismes disposant d’une stratégie IA structurée.

Cette tendance est illustrée par le tout récent lancement par Perplexity AI de Comet, son navigateur web IA, sera réservé initialement aux abonnés Perplexity Max (200 $/mois). L’outil est prometteur - il fonctionnerait comme un assistant IA pour gérer des sessions de navigation ou exécuter des tâches complexes - mais on ne peut que déplorer son coût élevé.

Une montée en gamme tarifaire qui risque de creuser une fracture d’accès en marginalisant les utilisateurs intensifs, tels que les « Knowledge workers », dont les pros de l’infodoc font partie :

Les versions les plus performantes, comme GPT-4o, Claude Opus ou Grok 4 Heavy, sont réservées aux abonnements premium, inaccessibles pour de nombreux usagers.
Gérer son budget devient compliqué avec l’accumulation des abonnements mensuels auxquels se rajoutent éventuellement des frais d’API.
La multiplication des nouvelles solutions, des plans et des restrictions (par exemple, OpenAI a récemment modifié à deux reprises son offre tarifaire en une semaine) complique l’identification d’une solution qui soit stable, fiable et abordable.

On retiendra pour les principaux modèles (cf. tableau détaillé en fin d'article) :

IA open source : une opportunité pour le veilleur ?

Tags

open source | IA

Céline Boileau

Netsources no

168

publié en

2024.02

3262

Acheter le numéro

IA open source : une opportunité pour le veilleur ? Image 1

L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).

Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.

Le paysage du veilleur

Des outils difficilement identifiables

Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.

Premièrement, ces outils restent difficilement identifiables et utilisables malgré les effets d'annonce. La première raison qui rend difficilement identifiables les outils d’IA open source réside dans la définition même d’une « IA open source », laquelle est trop souvent confondue avec la gratuité. Toutefois, pour l’Open Source Initiative (OSI), l’organisation qui défend « une économie du logiciel dépendant de la vente de prestations et non de celle des licences d’utilisation » l’IA open source doit permettre :
- L’étude du fonctionnement du système et l’inspection de ses composants ;
- L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
- La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
- Le partage du système avec ou sans modifications, à quelque fin que ce soit.
La deuxième raison qui rend ces outils difficilement identifiables est la difficulté à identifier ce qui est open source dans une IA.

Filtrer / Rechercher dans les articles

Plus de 1000 milliards de pages web disponibles sur Internet Archive

Wikipédia et Grokipedia : la bataille du savoir à l’ère de l’IA

Le Wikidata Embedding Project : Wikipédia s’adapte à l’IA

Les hausses tarifaires des modèles: vers une intelligence artificielle à deux vitesses ?

IA open source : une opportunité pour le veilleur ?

Le paysage du veilleur

Des outils difficilement identifiables

Wikipédia et Grokipedia : la bataille du savoir à l’ère de l’IA

Le Wikidata Embedding Project : Wikipédia s’adapte à l’IA