Skip to main content

21 Mai, 2021

Alibaba lance un projet de numérisation d’anciens livres chinois grâce à l’IA

Alibaba lance un projet de numérisation d’anciens livres chinois grâce à l’IA

L’Alibaba DAMO Academy fournit des modèles d’intelligences artificielles et de machine learning pour préserver les trésors littéraires de la culture chinoise et les rendre plus accessibles à un public mondial.

Alibaba DAMO Academy (DAMO), l’institut mondial de recherches du groupe Alibaba, vient de lancer un nouveau projet pour numériser les livres rares et anciens du patrimoine chinois, en partenariat avec la Fondation Alibaba, la Bibliothèque de l’Université de Californie, l’Université du Sichuan, la Bibliothèque Nationale de Chine et la Bibliothèque de Zhejiang. Le programme vise à numériser et à regrouper les livres chinois anciens ainsi qu’à convertir les images scannées en textes en libre accès. De cette façon, les bibliothèques chinoises et étrangères peuvent travailler ensemble pour rendre les anciens livres chinois librement accessibles au monde entier.  

La numérisation des classiques de la littérature chinoise est un défi, car les anciens caractères chinois sont complexes. Au cours de l’histoire, un caractère chinois peut avoir plusieurs variantes et formes écrites. La numérisation des livres anciens chinois par le biais de la reconnaissance optique de caractères (OCR) facilite non seulement la lecture automatique, mais donne également une nouvelle vie à de nombreux livres anciens. 

La bibliothèque de l’Université de Berkeley a fourni les pages numérisées et les métadonnées, tandis que DAMO a utilisé la reconnaissance optique de caractères (OCR) pour transformer les images numérisées en texte. En outre, DAMO s’est associé à des chercheurs de l’université du Sichuan pour développer un modèle d’IA permettant l’indexation de caractères uniques, le regroupement automatique de caractères et diverses formes d’apprentissage automatique, tels que l’apprentissage autosupervisé et l’apprentissage en quelques clics.

Ce modèle donne un taux de précision de 97,5 % dans la reconnaissance des caractères anciens. Le nouveau modèle peut désormais reconnaître 30 000 caractères chinois anciens avec efficacité, dépassant de trente fois la vitesse de lecture humaine. 

« Alibaba continuera à investir dans les ressources et les technologies de pointe pour soutenir de tels projets. Mettre des livres anciens à la disposition du public est conforme à nos valeurs et à notre conviction que la technologie peut changer les choses », a déclaré Jeff Zhang, responsable de l’Alibaba DAMO Academy. « Nous sommes convaincus que la technologie peut jouer un rôle essentiel dans la préservation de précieuses reliques culturelles et du patrimoine, et nous sommes impatients de travailler avec des bibliothèques en Chine et à l’étranger pour concrétiser ce projet. Alibaba a prévu d’ouvrir à terme au grand public ces système d’IA pour la lecture automatique de livres anciens chinois» 

Le premier lot de classiques chinois à être numérisé provient du C.V. Starr East Asian Library de l’université de Californie, à Berkeley, l’une des plus grandes bibliothèques universitaires possédant un riche fonds de livres chinois. 200 000 pages d’anciens livres chinois sont désormais numérisées et disponibles, notamment des livres imprimés sur bois et des manuscrits de la dynastie Song et de la dynastie Yuan, une période de la Chine ancienne remontant à plus de 1 000 ans. D’autres documents comprennent les pages numérisées d’un volume original de Siku Quanshu四库全书, The Complete Works of Chinese Classics datant de la dynastie Qing.

https://www.alibaba.com/

https://damo.alibaba.com/