Version du 20 août 2020 à 14:03

But

Dans les écrans de recherche de documents, une image de la page de couverture est affichée par document. A l'origine, ces images sont recherchées à chaque passage sur cette page sur le site d'Amazon. Pour diminuer les interrogations sur un site externe, on peut vouloir les récupérer sur son propre serveur.

Procédure de récupération

La première étape consiste à récupérer ces images et à récupérer les nouvelles qui manqueraient encore suite par exemple à l'ajout d'un nouveau document. Nous avons choisi de la faire via un script sous Linux et à l'exécuter à intervalles réguliers.

Le nécessaire pour effectuer ce qui suit se trouve dans le fichier ZIP ci-dessous.

Télécharger le fichier ZIP des modifications concernant ces imagettes

La première étape consiste à créer l'arborescence nécessaire sous Linux.

Dans l'arborescence des fichiers du site WEB de Waterbear, il faut créer un répertoire qui regroupera les images. Nous garderons la base utilisée lors de l'installation.

mkdir /web/waterbear/IMG/isbn10

Nous allons placer les scripts Linus, écrits en Bash, dans un répertoire spécifique hors des fichiers du site WEB. En dessous de ce répertoire, on en place d'autres nécessaires au bon fonctionnement des scripts. Nous avons pour habitude de créer un répertoire de base qui accueille ces scripts de gestion: "/manager".

mkdir /manager
mkdir /manager/waterbear
mkdir /manager/waterbear/new
mkdir /manager/waterbear/image10
mkdir /manager/waterbear/autre10
mkdir /manager/waterbear/inconnu

Fonction de ces répertoires:

- new : recueille les images récupérées; elles seront déplacées dans l'arborescence du site WEB "/web/waterbear/IMG/isbn10"
- image10 : images déjà récupérées
- inconnu : images non trouvées
- autre10 : images récupérées mais non valides

Il y a deux scripts.

- isbn.bat : essaye de récupérer toutes les images non encore récupérées. Il est à exécuter rarement (une fois par semaine ou par mois par exemple).
- isbnred.bat : essaye de récupérer les images non encore récupérées sans chercher à le faire pour des images dont la recherche est restée infructueuse par le passé.

Le principe consiste à effectuer plusieurs tâches:

- récupérer la liste des codes ISBN de la base de données, de les mettre en une colonne, d'éliminer les doubles
- convertir ces codes en un code ISBN de 10 caractères. Sur le site d'Amazon, le nom des images est constitué de ce code.
- tester si les images (petites et moyennes) ont déjà été récupérées
- récupérer les images manquantes.
- les déplacer dans l'arborescence du site WEB

Note: Dans ces scripts, il faut adapter le mot de passe du user "root" de MySql.

Registre

->retour au menu Documents de Waterbear

« WATERBEAR:Imagettes » : différence entre les versions

Version du 20 août 2020 à 14:03

But

Procédure de récupération

Registre

Menu de navigation

« WATERBEAR:Imagettes » : différence entre les versions

Version du 20 août 2020 à 14:03

But

Procédure de récupération

Registre

Menu de navigation

Rechercher

« WATERBEAR:Imagettes » : différence entre les versions