Cultures Numeriques::Aleph

Depuis 2015, Alphabet est aussi le nom de la société californienne englobant Google.

La transmission de l’information s’est faite d’abord de façon visuelle (tours de Chappe, Morse, etc.) avant d’être électrique puis informatique. Ce cours esquive la tête du bœuf pour nous mener en aperçus sur quelques codages de caractères.

Un point sur les mots.

— caractère : unité d’information abstraite utilisée pour coder des éléments de texte

— glyphe : représentation graphique (parmi une infinité possible) d'un caractère

— normes : règles approuvées par des instances officielles; elles offrent une certaine garantie de stabilité et de pérennité. Exemples : les normes ISO-8859 et ISO-10646

— standards : définis par des groupes privés, en général industriels ou commerciaux (par exemple, IBM et son EBCDIC ou Adobe et son PostScript) mais aussi collégiaux (par exemple, les consortiums Unicode et W3C)

Sommaire

1 Transmission
2 Translation
- 2.1 Tesseract
- 2.2 Quelques outils du texte au son
3 Notes et références

Transmission

Sémaphores

Les sémaphores sont un système de communication inventé par les frères Chappe juste après la révolution française de 1789. Leur système est composé d'une tour de Chappe équipé de bras mobiles en bois, dont la position indique des lettres alphabétiques. Chacun des deux bras montre sept positions, et le cross bar reliant les deux bras a quatre angles différents, pour un total de 196 symboles (7×7×4).

La première ligne de sémaphores Chappe relia Paris et Lille en 1792. Le premier symbole d'un message pour Lille traversa 193 km à travers 15 stations en seulement 9 minutes.

Dans la plupart des États, c'était le service postal qui utilisait les sémaphores. Mais le système a aussi été utilisé par Napoléon pour coordonner son empire et son armée.

Les Britanniques développèrent une série de tours sémaphores qui permirent des communications rapides entre Londres et les chantiers navals à Portsmouth. C'est pendant cette période que le système sémaphore naval a été inventé.

International_Alphabet_Flags,_Phonetic_Alphabet,_Morse_Code_and_Semaphore_Alphabet_1956.png

Code Baudot

Le code Baudot a été développé par Jean-Maurice-Émile Baudot en 1874. C'est l'un des premiers code binaire utilisé grâce à une machine - premier codage de caractère mécanisé.

Il est aussi appelé code télégraphique Alphabet International (AI) no 1 ou Alphabet International (AI) no 2 ou code CCITT no 2. Chaque caractère est codé par une série de 5 bits (0 ou 1) ^[1]

2 puissance 5 = 32 combinaisons Ces 32 caractères ne suffisent pas pour coder les lettres (26), les chiffres (10), les signes opératoires (+-/x=), la ponctuation (, ;.:!?), et les autres symboles (&, #..); le code Baudot utilise donc deux jeux de caractères appelés Lettres (Lower Case) et Chiffres (Upper Case). Le jeu de caractères Chiffre comprend les signes opératoires et de ponctuation et les autres symboles. Deux caractères, Inversion Lettres et Inversion Chiffres (code 31 et 27), permettent le passage d'un jeu de caractères à l'autre.

Chaque caractère de l'alphabet est représenté par une suite de bits envoyés sur un canal de communication tel qu'un fil télégraphique ou un signal radio.

Les lettres sont codées en classant les voyelles et les consonnes séparément dans l'ordre alphabétique, et en suivant le code de Gray, trois quart de siècle avant que celui-ci ne soit breveté aux États-Unis.

Alphabet international n°2

Le code Baudot a ensuite été modifié par Donald Murray vers 1901 qui réorganisa les caractères, ajouta de nouveaux symboles, et introduisit les jeux de caractères. La Western Union modifia ensuite le code de Murray, en éliminant certains caractères.

L'alphabet international no 2 est incompatible avec l'Alphabet international no 1 (Code Baudot original).

Dans l'Alphabet international n°2, les combinaisons nécessitant le moins de perforations sont associées aux caractères les plus fréquents.

Le système permettait également d'écrire en forme de page à un rythme de 120 mots par minute, dans un sens (donc 240 mots en cas de transmission dans les deux sens (duplex), sur une distance d'un millier de miles britanniques.

L'Alphabet international no 2 associe les chiffres et les lettres de la même manière que le clavier Qwerty de machine à écrire.

(détour typewiter)

Quelques machines à écrire particulières.

Les machines chinoises

→ ici en vidéo

La « machine à boule »

En 1961 IMB sort un nouveau modèle de machine à écrire, la Selectric typewriter. Inspirée du mécanisme Blickensderfer et de l'AEG Mignon, elle se caractérise par l'usage d'une sphère en plastique sur laquelle sont “embossés”(?) les caractères.

Légère et plus silencieuse, cette boule, interchangeable, ré-introduit aussi la possibilité de modifier la fonte de caractères. C'est ce qui fait son succès commercial, la Selectric typewriter dominera le marché sur deux décennies.

Cartes perforées

La carte perforée fait partie des premiers supports d'entrée-sortie et des premières mémoires de masse utilisés dans les débuts de l'informatique. Appellées punched card, punch card, IBM card, ou Hollerith card, une carte perforée est un morceau de papier rigide qui contient des informations représentées par la présence ou l'absence de trou dans une position donnée. Certaines machines demandent à ce que les cartes soient reliées entre elles, représentant ainsi l’équivalent d'un ruban de papier. Les premières cartes perforées ont fait leur apparition au XVIIIe siècle dans divers automates et en particulier les métiers à tisser, les orgues de Barbarie et les pianos mécaniques.

La carte IBM 80, 19 x 8 cm est l'une des premières icônes de l'ère de l'information.

Les cartes perforées n'ont été utilisées par l'industrie informatique qu'au début des années 1930, et se sont généralisées à partir des années 1950 jusqu'à la fin des années 1970. Elles se sont heurtées par la suite à la montée en puissance des bandes magnétiques et des disques durs.

ADN

Aujourd'hui en Angleterre on inscrit des données sur des brins d'ADN artificiels, en traduisant au préalable des bits digitaux (0 et 1) en code ADN composé des 4 lettres A C T G. → Nos ordinateurs ont-ils la mémoire courte ?, Arte 2014

ASCII

L'American Standard Code for Information Interchange ou ISO-646-02 ou ISO-646-06 est une norme de codage de caractères informatique. 128 caractères y sont numérotés de 0 à 127. Plusieurs normes ou standards sont des extension de ce codage, au niveau régional, national ou international (cf. Unicode ci-dessous).

L'ASCII a limité pendant longtemps le nombre de caractères disponibles, notamment sur internet (noms de domaine, adresses mails) et dans l'écriture de programmes informatiques.

Quelques ASCII art generators : Picascii, text-image.com

Unicode

Le consortium Unicode est composé essentiellement de compagnies (telles que Apple, IBM, Microsoft, Sun, Xerox, etc.). Son standard vise à permettre le codage de texte écrit en donnant à tout caractère de n’importe quel système d'écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.

→ Scanner les plans Unicode en avance rapide avec decodeunicode the movie

Le standard Unicode ambitionne de représenter tous les caractères spécifiques aux différentes langues. La dernière version 8.0 a été publiée en juin 2015. Il couvre aujourd’hui 129 types d’écriture. Depuis 2010 et la version 6.0, l’Unicode intègre également des émoticônes.

On y retrouve aussi les Dingbats d'Hermann Zapf → http://www.decodeunicode.org/en/dingbats

Ici on s'amuse avec les glyphes blocs (U+2580 à U+259F) → http://www.lllllllllllllllllllll.com/

Pour entrer dans le standard, les caractères prétendants on un long chemin de procédures à parcourir. Unicode publie aussi les caractères rejetés à cette adresse.

Entre autres signes refusés, ceux du Klingon Script, langue fictive de l'univers de fiction de Star Trek, c'est celle que parle la race extraterrestre Klingon. Elle a été créée par Marc Okrand.

Voir un extrait de ‘u’ opéra néerlandais en langue klingon.

UTF-8

Unicode Transformation Format. L'UTF-8 rassemble le meilleur de deux mondes: l'efficacité de l'ASCII et l'étendue de l'Unicode. C'est l'encodage le plus pratique pour échanger des textes constitués de caractères Unicode. Il associe à tout numéro Unicode une suite d'un ou plusieurs octets (jusqu'à quatre octets pour un seul caractère).

Convertisser du texte en morse, code Baudot, ascii, etc → Transcoder

Translation

De l'image au texte et du texte au son.

Tesseract

Tesseract est un moteur de reconnaissance optique de caractères qui a été conçu par les ingénieurs de Hewlett Packard® de 1984 à 1995. Abandonné pendant une dizaine d'année, son code a été ouvert en 2005 et son développement repris par Google. Il peut être utilisé soit directement en lignes de commande, soit par l'intermédiaire d'une interface graphique comme gscan2pdf ou xsane (+xsane2tess). À partir de l'image d'un texte, le programme produit un fichier texte, transcription du texte reconnu sur l'image.

Exemple de commande pour lire une image de texte anglais: tesseract -l eng image.jpg sortie.txt

Comment entraîner Tesseract à lire un nouveau langage → TrainingTesseract3

Essayer Tesseract sur Androïd avec OCR Test

Construisez votre ScanBot en suivant le mode d'emploi du Hackerspace Brussels.

Quelques outils du texte au son

eSpeak est un synthétiseur vocal. À partir d'un fichier texte, il produit une sortie sonore. Un ensemble de voix synthétiques suivant différents accents et intonations spécifiques aux langages peuvent y être paramétrées et modulées.

espeak -f sortie.txt -v French -g -p 200

Pure Data

Pd est un logiciel de création multimédia interactive. Plutôt qu'un langage de programmation textuel, Pure Data propose un environnement de programmation graphique dans laquelle l'utilisateur est invité à manipuler des icônes représentant des fonctionnalités et à les brancher ensemble. Acceptant toutes sortes de format en entrée, il peut par exemple convertir un fichier texte en une suite de note. Un patch réalisé dans le cadre des ateliers d'été Relearn (2014) et augmenté par Antonio Roberts à l'occasion de la print party OSP Hachures Tourneurs, propose par exemple de convertir les valeurs ASCII de chaque lettre en ondes sonores. → Télécharger ici le zip de cet orgue ASCII.

Notes et références

À consulter :

Caractères, codage et normalization, De Chappe à Unicode par Jacques André

Unicodes, Denis Jacquerye - LGRU research meeting of Brussels in February 2012

↑ Le bit est l'unité la plus simple dans un système de numération, ne pouvant prendre que deux valeurs, désignées le plus souvent par les chiffres 0 et 1. Dans la théorie de l'information, un bit est la quantité minimale d'information transmise par un message, et constitue à ce titre l'unité de mesure de base de l'information en informatique.

[1]

Cultures Numeriques::Aleph

Sommaire

Transmission

Sémaphores

Code Baudot

Alphabet international n°2

(détour typewiter)

Les machines chinoises

La « machine à boule »

Cartes perforées

ADN

ASCII

Unicode

UTF-8

Translation

Tesseract

Quelques outils du texte au son

Notes et références

Menu de navigation

Outils personnels

Espaces de noms

Variantes

Affichages

Plus

Rechercher

Cultures numériques

Écrire le design

Toolbending

Ressources

Navigation

Outils