Données publiques libres open access

De April MediaWiki
(Redirigé depuis DonneesPubliquesLibres)

Suite a la ReunionMembresAG2006 une préparation sur le sujet des données publiques libres est intéressante pour candidats.fr pour les législatives.

  • Général

dont chiffrage de gains économiques

    • Aux USA le résultat du travail des fonctionnaires est automatiquement dans le domaine public
  • Données cartographiques
    • IGN

Destruction de vieilles cartes papier plutôt que revente Attention a la part des revenus "commerciaux", une partie vient directement ou indirectement d'autres organismes publics 100% d'apres "Le Net, un bien commun" http://www.liberation.fr/rebonds/239680.FR.php

Développer les biens communs. Les biens immatériels de l'État seraient beaucoup mieux valorisés si on leur donnait le statut de biens communs (6) librement exploitables. Un calcul simple : l'IGN (Institut géographique national) est financé à 50 % par l'État et trouve le reste de ses ressources en vendant ses cartes. A qui ? Essentiellement aux collectivités locales. Bref, l'IGN est financé à 100 % par les deniers publics. Donc, non seulement ses couts de commercialisation sont totalement improductifs, mais le fait que ses données soient propriétaires entraine que leur valorisation, en dehors des circuits publics, est quasi impossible. Il s'ensuit un déficit d'activités économiques et donc d'emplois. Cela qui est vrai pour l'IGN l'est aussi pour les organismes publics traitant de données statistiques, patrimoniales, urbaines, touristiques, etc. Et combien de brevets issus de la recherche publique, et même privée, attendant d'improbables projets industriels, pourraient être ainsi valorisés ? Aux antipodes de cela, les auteurs du rapport Lévy-Jouyet (7), commandé par Thierry Breton, proposent que l'Etat fasse un commerce forcené de ses biens immatériels. Peine perdue, face au capitalisme informationnel, il est vain de se protéger derrière des lignes Maginot. Le service public y perdrait définitivement son âme. Il coûte plus cher de vendre que de donner. Alors, donnons nos biens communs, à condition d'éviter leur prévarication ultérieure. Un réseau acentré, nourri de logiciels libres, pourrait y contribuer.

Article avant édition par Libération ici : http://overcrowded.anoptique.org/ProjetRebondsLibe

    • Cadastre

Exemple Nantes : http://www.geo.nantes.fr/voirnantes/Default.htm pas de droits mentionnés

Annoncé 2008 http://www.cadastre.gouv.fr Licence plutôt permissive

Libéré en 2009 pour OpenStreetMap : http://linuxfr.org/2009/01/26/24929.html

sous lience creative commons (associée aux cartes IGN et cadastre)

How is the CDSM’s funding guaranteed, and is it enough to keep up to date with changes in South Africa’s geography?

Funding is 100% from the Parliamentary vote. It is not enough to satisfy all client needs - but must be seen in the context of affordability for the country.

How much has the move to a free data model cost, compared with the revenues you received before from selling digital data? Or have you found a way to compensate for that by increasing revenues from other sources?

Previously the revenue generated was approx. R3.5 million (£243,000 at current exchange rates). It has had no impact on us as all the revenue had to be returned to the central revenue fund of government. Previously there was no incentive to sell data, except for the satisfaction of knowing that you have happy clients. It should be noted that most of our clients are other government departments and therefore the money paid is government money - government paying itself makes no sense but causes administrative waste.

Is this free data model sustainable?

If we did retain revenue generated it was insignificant compared to the operating budget - approx 5%

Has the number of organisations, both public and private-sector, taking the CDSM’s digital data increased with this move?

Yes, by about 500%. This figure could be inflated because some requests could be over-serviced (getting more than what the client really needs)



  • Données statistiques et économiques
    • Bilans des entreprises
    • Données sur l'utilisation des transports comme Velib (Luc Fievet travaille dans le domaine)
  • Données légales
    • jugements sont déja sous forme électronique (en particulier administratif) mais pas diffusés
    • contenus assemblée nationale
  • Culture

"La Bibliothèque nationale de France est titulaire des droits d'auteur sur le site Europeana. Pour un usage strictement privé, la reproduction du contenu de ce site est libre. Dans le cadre de communication, édition ou autres actions à caractère professionnel, ne sont autorisées que les courtes citations sous réserve de la mention BnF/Europeana. Tout autre reproduction ou représentation, intégrale ou substantielle du contenu de ce site, par quelque procédé que ce soit, doit faire l'objet d'une autorisation expresse de la BnF."

Le Centre des Archives d’outre-mer (Archives nationales, Aix-en-Provence) met à votre disposition la base Ulysse qui permet d’avoir accès aux images numérisées des documents appartenant à l’iconothèque et à la cartothèque du Centre. Commencée en 2002, cette base a pour objectif de rendre progressivement accessibles les photographies isolées ou en albums, les cartes postales, les affiches, les dessins et gravures, les cartes et plans.

http://www.lemonde.fr/web/article/0,1-0@2-3238,36-918144@51-914547,0.html

Un chantier numérique d'envergure, colossal, passé quasiment inaperçu. C'est en toute discrétion, élection présidentielle et réserve ministérielle obligent, qu'a été lancée, fin avril, l'ultime version du site www.culture.fr.

Cette nouvelle plate-forme fédère par un seul moteur de recherche, sous l'onglet "collections", 14 bases documentaires. Ce guichet unique couvre tous les domaines : peinture, sculpture, architecture, dessin, mobilier, arts du spectacle, archéologie, enluminures, plans... Un vrai cabinet de curiosités, une bibliothèque numérique que l'internaute peut feuilleter des heures durant, pour une navigation dilettante dans les services d'archives publics ou l'étude d'un catalogue raisonné d'œuvres d'art. (...)

    • numérisations en masse

http://www.clubic.com/article-29049-1-visite-d-une-usine-tourne-pages.html http://www.diadeis.com/fr/ais_madagascar.html

    • Droit de prendre des photos et de les mettre en ligne (droit d'auteur architectes, vie privée)
    • INA http://ina.fr/ (licence pour les documents audio et vidéo produits directement ou indirectement par le service public ?)

et ses Distributed Proofreaders (PGDP): Distributed Proofreaders International http://www.pgdp.net/ Distributed Proofreaders Europe http://dp.rastko.net/

Calcul par SebastienBlondeel :

Je suis «chef de projet» de plusieurs livres sur PGDP. Michael Hart est le fondateur du projet Gutenberg.

J'ai un programme qui m'aide à nettoyer l'OCR avant de le mettre en ligne. 1 minute par page --- ce n'est pas nécessaire mais je pense préférable et rentable, mais personne d'autre ne le fait. En aval: encore 3 minutes par page de relecture attentive (2k signes en moyenne) pour les gens rapides. Total: disons, 5 minutes par page, 6 avec les pauses et le temps non productif (estimation très optimiste!).

Sur une base d'un SMIC 1/2 (compétences informatiques + orthographe/grammaire/langue) cela donne: 12 EUR/h bruts, soit 10 nets, et 20 coût total employeur.

Chaque page est relue 2 fois chez PGDP Europe, 6 fois chez PGDP international (relecture puis formatage, plus rapide généralement), et au final il faut assembler les pages et si possible passer le bouquin en XML TEI (travail encore plus qualifié). On n'a pas intégré le cout du l'OCR ni les couts du scan (nécessaire lui aussi en dumping social off-shore, si on compare avec cela).

Relire/corriger une page après OCR coûte donc environ 10 EUR (en droit du travail français), si je ne me goure. .005 EUR / signe.

Selon Hart, il y a 2M livres créés dans l'histoire de l'humanité et domaine public (disons, publiés avant 1923). 1M sont perdus à tout jamais. Il en reste 1M, dont la plupart sont faciles (XVIIIème/XIXème: essor de l'imprimerie. Langues occidentales et modernes; peu de grec/latin/vieux françois etc.). À raison de 200 pages par livre en moyenne (?), soit 2k EUR par livre, le budget de numérisation correcte, avec les standards français, est donc de 2 milliards d'euros (toujours à la louche).

Hart a dit que n'importe quel pays, même petit, consacrant 1% de son PIB à cela deviendrait du jour au lendemain la capitale culturelle du monde.

  • Éducation
    • Les textes des programmes scolaires devraient être publiés, faciles à trouver pour tous et dans des formats ouverts
    • Quel doit être le statut des cours des professeurs ? Les notes des étudiants sont elles publiables ?
    • ESA/CNES vs NASA pour les images par exemple
  • Politique
    • Accès électronique à toutes les délibérations des élus à tous les niveaux (commune à état) avec un délai maximum de mise en ligne et conséquences sinon.
    • Accès aux livres des dépenses (avec identification des entreprises qui reçoivent de l'argent public)
  • Science
    • Une grande partie de la recherche est financée ou co-financée par de l'argent public, or les travaux des scientifiques ne sont souvent accessibles que par le biais d'abonnements à des revues couteuses. Comme le contenu de ces revues est supposé libre, le cout de publication que représentait l'édition sur papier ne se justifie plus. Les articles des scientifiques devraient être tous disponible en ligne gratuitement comme le font déjà les revues de PLOS : http://www.plos.org/
    • Le portail Revues.org, fédération de revues en sciences humaines et sociales en libre accès.
    • Les images, vidéos, données réalisés ou établis par les scientifiques avec des crédits et du matériel public ne sont pas disponible pour le public, même pour une utilisation non commerciale.
    • The Alliance for Taxpayer Access "American taxpayers are entitled to open access on the Internet to the peer-reviewed scientific articles on research funded by the U.S. Government." http://www.taxpayeraccess.org/
  • Situation des États-Unis :

Carl Malamud se lance, seul avec son site http://public.resource.org/ , a l'attaque de la mainmise totale de deux entreprises privées sur toutes les annales des publications légales des cours d'état et fédérale aux Etats-Unis. Il a commencé à mettre en ligne, il y a quelques semaines, la jurisprudence fédérale - laborieusement numérisée à partir de microfiches - en flagrante confrontation avec le monopole de fait de Thomson West (Canada) et de Lexis Nexis, la filiale de l'anglo-néerlandais Reed-Elsevier.

M. Malamud est un dangereux récidiviste ! Il a déjà triomphé dans ce type de bras de fer contre des institutions prestigieuses comme le Smithsonian, la House of Representatives (l'Assemblée nationale) et la SEC (Securities and Exchange Commission, l'autorité des marchés américaine) les amenant à mettre en ligne, gratuitement, tous leurs enregistrements et documents publics. Filant une métaphore familière à nos oreilles, Carl Malamud a déclaré que la « jurisprudence et les textes de loi forment un véritable système d'exploitation de la nation » et qu'il n'était que temps que le Linux législatif voie le jour. Si nul n'est censé ignorer la loi, il faut bien y donner accès librement à tous…