« Transcriptions (introduction) » : différence entre les versions
Ligne 8 : | Ligne 8 : | ||
Pour nous contacter, il suffit de s'inscrire à la liste de diffusion : | Pour nous contacter, il suffit de s'inscrire à la liste de diffusion : | ||
http://www.april.org/wws/info/transcriptions | http://www.april.org/wws/info/transcriptions | ||
==Présentation== | |||
L'objectif est de transcrire des documents sonores ou vidéos intéressants et traitant de [http://april.org/articles/intro logiciels libres], de ressources documentaires diffusées selon des conditions comparables à celles des logiciels libres, et de tous sujets pertinents annexes et connexes : transformation en texte brut (ou HTML...) de (parties de) bandes son ou vidéo de conférences ou interventions stratégiques ou importantes: [http://rmll.info/ RMLL], [http://www.cite-sciences.fr/ CSI], interviews radio... Réflexion sur des programmes facilitant la tâche. Contact des intervenants pour s'assurer de leur accord ou conditions. Réécriture légère sur un ton passant mieux à l'écrit. Ainsi ces contenus seront plus accessibles, disponibles dans les moteurs de recherche, imprimables, citables, etc. | |||
== Motivation == | |||
Le groupe de travail «Transcriptions» vise à recenser, annoter et transformer au format texte brut (ou HTML) des documents sonores ou vidéo présentant un intérêt pour l'objet de l'association. | |||
En termes de visibilité dans les moteurs de recherche, un événement, un discours, une émission... non transcrits n'existent pas. Du point de vue de la mémoire, un événement non enregistré en vue d'une transcription future laisse chez les personnes présentes dans le public une trace qui s'efface vite - quel souvenir conservez-vous des discours que vous avez entendus voici quelques années? Parfois, on observe d'intéressantes évolutions dans les idées, argumentations, ou exemples présentés par un orateur récurrent.</p> | |||
Produire des textes permet encore au lecteur de s'y reporter facilement, d'extraire facilement des citations pour appuyer un argumentaire, de les lire en diagonale ou à son rythme sans devoir subir le débit de l'orateur, son accent, une mauvaise qualité d'enregistrement. On élargit considérablement le public potentiellement atteint pour un même effort d'organisation initial. | |||
Pour toutes ces raisons, on peut soutenir que la présence d'un format texte dans les archives multiplie considérablement la visibilité et l'impact d'un événement, et qu'il est donc souhaitable que ses organisateurs se donnent les moyens ou ressources d'organiser cet effort. | |||
Les sources sont les conférences et interventions, notamment de sommités; les émissions des médias grand public; certaines vidéos issues du Web. Nous disposons déjà de plusieurs dizaines de documents, pour la plupart stockés sur [http://media.april.org la zone web « Médias »] et recensés sur le présent document. | |||
Chacun choisira les interventions qui lui semblent les plus importantes ou intéressantes en priorité, en s'assurant préalablement de l'accord des personnes ou ayant-droits qui pourraient juridiquement s'opposer à la diffusion du texte transcrit. | |||
C'est un travail assez long et demandant d'écrire la langue parlée sans trop de fautes. Les premières mesures montrent qu'il faut compter (selon la langue, le débit de l'orateur, son accent, la qualité de l'enregistrement) 5 à 7h de travail pour écrire le premier jet d'une heure d'enregistrement... qu'il faut | |||
encore corriger, relire/réécrire, faire relire aux personnes concernées, et mettre en page, En termes financiers, s'il fallait rémunérer ce travail, chaque heure bien transcrite coûterait largement 200 € (ordre de grandeur). On ne pourra donc jamais tout faire, et on comprend qu'il est important de traiter en priorité les documents stratégiques les plus importants - même si l'intérêt personnel du bénévole et l'urgence sont également des facteurs. | |||
Si vous souhaitez en savoir plus, contactez le groupe de travail sur sa [http://lists.april.org/wws/info/transcriptions liste de diffusion]. | |||
Les copies locales des médias sont autant que possible conservées dans leur format original, même s'il ne s'agit pas d'un [http://formats-ouverts.org/ format ouvert] au sens de l'article 4 de la [http://www.legifrance.gouv.fr/texteconsolide/PCEBX.htm loi française nº 2004-575 du 21 juin 2004] : « On entend par standard ouvert tout protocole de communication, d'interconnexion ou d'échange et tout format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d'accès ni de | |||
mise en oeuvre. » | |||
Les raisons de ce choix : | |||
* ce groupe de travail ne vise pas à produire de médias; il n'a donc pas de dimension d'incitation et peu de risques de devoir acquitter des amendes ou frais de licence; | |||
* ces formats sont lisibles avec des logiciels libres (un critère suffisant : ils sont testés avec des paquets officiels de la distribution [http://www.debian.org/ Debian GNU/Linux] ; | |||
* À ce jour, toute transformation dans un format ouvert est complexe, ad hoc, buggée, et introduit presque toujours des pertes de qualité, parfois inacceptables car détectables au point de gêner. Il y a donc destruction d'information, ce qui est presque toujours une mauvaise chose. | |||
Ainsi, la conférence de Michael Hart à l'UNESCO de Paris en 2004 fut sans doute retraitée, car un long passage en est inaudible, et ce symptôme est typique d'un bug observé du programme mencoder. | |||
De même, une manipulation visant à n'extraire que la portion pertinente d'une vidéo introduit souvent de désagréables défauts de fluidité dans la bande son. | |||
==Comment contribuer== | |||
Tout coup de main permettant de se rapprocher de ces objectifs est donc le bienvenu: | |||
* Correction de fond ou de forme portant sur le présent document | |||
* Signalement d'un document non encore mentionné ici | |||
* Astuces techniques pour transcrire plus vite, mieux, plus facilement | |||
* Relecture des documents déjà transcrits | |||
* Volontariat pour transcrire des documents non encore transcrits: | |||
** En ce cas, insérez régulièrement des '''time codes''' (estampilles temporelles); voyez des exemples dans les documents déjà transcrits. Ils pourront être exploités pour renvoyer directement au bon moment du média source. | |||
** Prenez note du temps effectif de travail nécessaire, pour qu'on l'évalue au mieux | |||
Avant tout travail, contactez la [http://lists.april.org/wws/info/transcriptions liste de diffusion]; il n'est pas nécessaire d'être abonné pour y écrire, mais c'est souhaitable pour lire les réponses plus facilement. Vous confirmerez ainsi que personne d'autre ne s'occupe de la même chose. Quand vous aurez le feu vert vous serez noté dans ce document récapitulatif. | |||
==À faire== | ==À faire== |
Version du 6 octobre 2009 à 13:49
Wiki du groupe Transcriptions
http://www.april.org/fr/groupes/transcriptions
Introduction
Le groupe de transcription de l'April est ouvert à toutes les bonnes volontés. Les remarques constructives sont les bienvenues.
Pour nous contacter, il suffit de s'inscrire à la liste de diffusion : http://www.april.org/wws/info/transcriptions
Présentation
L'objectif est de transcrire des documents sonores ou vidéos intéressants et traitant de logiciels libres, de ressources documentaires diffusées selon des conditions comparables à celles des logiciels libres, et de tous sujets pertinents annexes et connexes : transformation en texte brut (ou HTML...) de (parties de) bandes son ou vidéo de conférences ou interventions stratégiques ou importantes: RMLL, CSI, interviews radio... Réflexion sur des programmes facilitant la tâche. Contact des intervenants pour s'assurer de leur accord ou conditions. Réécriture légère sur un ton passant mieux à l'écrit. Ainsi ces contenus seront plus accessibles, disponibles dans les moteurs de recherche, imprimables, citables, etc.
Motivation
Le groupe de travail «Transcriptions» vise à recenser, annoter et transformer au format texte brut (ou HTML) des documents sonores ou vidéo présentant un intérêt pour l'objet de l'association.
En termes de visibilité dans les moteurs de recherche, un événement, un discours, une émission... non transcrits n'existent pas. Du point de vue de la mémoire, un événement non enregistré en vue d'une transcription future laisse chez les personnes présentes dans le public une trace qui s'efface vite - quel souvenir conservez-vous des discours que vous avez entendus voici quelques années? Parfois, on observe d'intéressantes évolutions dans les idées, argumentations, ou exemples présentés par un orateur récurrent.
Produire des textes permet encore au lecteur de s'y reporter facilement, d'extraire facilement des citations pour appuyer un argumentaire, de les lire en diagonale ou à son rythme sans devoir subir le débit de l'orateur, son accent, une mauvaise qualité d'enregistrement. On élargit considérablement le public potentiellement atteint pour un même effort d'organisation initial.
Pour toutes ces raisons, on peut soutenir que la présence d'un format texte dans les archives multiplie considérablement la visibilité et l'impact d'un événement, et qu'il est donc souhaitable que ses organisateurs se donnent les moyens ou ressources d'organiser cet effort.
Les sources sont les conférences et interventions, notamment de sommités; les émissions des médias grand public; certaines vidéos issues du Web. Nous disposons déjà de plusieurs dizaines de documents, pour la plupart stockés sur la zone web « Médias » et recensés sur le présent document.
Chacun choisira les interventions qui lui semblent les plus importantes ou intéressantes en priorité, en s'assurant préalablement de l'accord des personnes ou ayant-droits qui pourraient juridiquement s'opposer à la diffusion du texte transcrit.
C'est un travail assez long et demandant d'écrire la langue parlée sans trop de fautes. Les premières mesures montrent qu'il faut compter (selon la langue, le débit de l'orateur, son accent, la qualité de l'enregistrement) 5 à 7h de travail pour écrire le premier jet d'une heure d'enregistrement... qu'il faut encore corriger, relire/réécrire, faire relire aux personnes concernées, et mettre en page, En termes financiers, s'il fallait rémunérer ce travail, chaque heure bien transcrite coûterait largement 200 € (ordre de grandeur). On ne pourra donc jamais tout faire, et on comprend qu'il est important de traiter en priorité les documents stratégiques les plus importants - même si l'intérêt personnel du bénévole et l'urgence sont également des facteurs.
Si vous souhaitez en savoir plus, contactez le groupe de travail sur sa liste de diffusion.
Les copies locales des médias sont autant que possible conservées dans leur format original, même s'il ne s'agit pas d'un format ouvert au sens de l'article 4 de la loi française nº 2004-575 du 21 juin 2004 : « On entend par standard ouvert tout protocole de communication, d'interconnexion ou d'échange et tout format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d'accès ni de mise en oeuvre. »
Les raisons de ce choix :
- ce groupe de travail ne vise pas à produire de médias; il n'a donc pas de dimension d'incitation et peu de risques de devoir acquitter des amendes ou frais de licence;
- ces formats sont lisibles avec des logiciels libres (un critère suffisant : ils sont testés avec des paquets officiels de la distribution Debian GNU/Linux ;
- À ce jour, toute transformation dans un format ouvert est complexe, ad hoc, buggée, et introduit presque toujours des pertes de qualité, parfois inacceptables car détectables au point de gêner. Il y a donc destruction d'information, ce qui est presque toujours une mauvaise chose.
Ainsi, la conférence de Michael Hart à l'UNESCO de Paris en 2004 fut sans doute retraitée, car un long passage en est inaudible, et ce symptôme est typique d'un bug observé du programme mencoder.
De même, une manipulation visant à n'extraire que la portion pertinente d'une vidéo introduit souvent de désagréables défauts de fluidité dans la bande son.
Comment contribuer
Tout coup de main permettant de se rapprocher de ces objectifs est donc le bienvenu:
- Correction de fond ou de forme portant sur le présent document
- Signalement d'un document non encore mentionné ici
- Astuces techniques pour transcrire plus vite, mieux, plus facilement
- Relecture des documents déjà transcrits
- Volontariat pour transcrire des documents non encore transcrits:
- En ce cas, insérez régulièrement des time codes (estampilles temporelles); voyez des exemples dans les documents déjà transcrits. Ils pourront être exploités pour renvoyer directement au bon moment du média source.
- Prenez note du temps effectif de travail nécessaire, pour qu'on l'évalue au mieux
Avant tout travail, contactez la liste de diffusion; il n'est pas nécessaire d'être abonné pour y écrire, mais c'est souhaitable pour lire les réponses plus facilement. Vous confirmerez ainsi que personne d'autre ne s'occupe de la même chose. Quand vous aurez le feu vert vous serez noté dans ce document récapitulatif.
À faire
Court terme
- Fixer des objectifs (à court terme)
- transcrire en priorité les enregistrements courts présentant l'association
- transcrire des documents (courts) ayant un retour sur investissement rapide, utilisables immédiatement, campagnes, public important.
- Reprendre le document de référence historique (2008-06-07) pour le ventiler dans le nouveau site de l'April http://www.april.org/files/documents/html/table.html à ce stade il ne semble pas nécessaire d'y apporter de modification, conséquence du sérieux avec lequel le travail avait été mené
- Rassembler et organiser les documents April mentionnant la transcription, sur le site de l'April ou sur le wiki
- Réaliser un tutoriel accessible pour faciliter les contributions nouvelles
- Réaliser une FAQ et autres documentations
- Lancer une campagne de recherche de bénévoles pour augmenter le volume de travail global et diminuer la charge individuelle (par exemple : 1h de transcription par mois = 1 spot par mois pour une personne, ou 1 conférence pour 10 personnes)
moyen terme
- Fixer des objectifs (à moyen terme)
- Transcrire des enregistrements de conférences, avec un niveau de qualité privilégiant une exploitation rapide
- Améliorer la documentation
- Traductions des transcriptions
- Transcription en langage des signes
- Intégration des transcriptions dans les vidéos
- Pérenniser les transcriptions de l'April par
- la recherche de contributeurs
- la promotion de la transcription
- l'automatisation des transcriptions
- l'automatisation de l'exploitation des transcriptions (flux de traduction et d'intégration)
long terme
- Fixer des objectifs (à long terme)
- reprendre l'ensemble des transcriptions selon les règles de qualité proposées par le document de référence historique
- Exploiter la politique de transcription et d'accessibilité au profit de l'image de l'April
Documents
Documents de référence
A réaliser, à améliorer, ou à consulter.
Documents April mentionnant la transcription
Recherches
- wiki : http://wiki.april.org/w/Special:Recherche?search=transcription&fulltext=Rechercher
- drupal : http://www.april.org/fr/search/node/transcription
- google : http://www.google.fr/search?q=site:http://www.april.org+transcription
Liste (à organiser)
Documents externes traitant de la transcription
- https://linuxfr.org/~patrick32/28759.html (contient des références)