Temps de traitement d'import de données croissant

cancel
Showing results for 
Search instead for 
Did you mean: 
yanock
Member II

Temps de traitement d'import de données croissant

Bonjour,

Je suis actuellement en train d'effectuer une reprise de donné dans mon entreprise. (Sur Alfresco 3.3g)

J'ai fait plusieurs jeux de tests

Mes temps de traitements explosent en fonction du nombre de documents présent dans Alfresco.
Je m'explique:
pour un nombre de documents présent dans Alfresco faible (moins de 1000 documents) je met en moyenne 0,7 secondes par doc.
pour un nombre plus important de documents présent dans Alfresco (plus de 60 000 documents) je met entre 0,7 et et 6 secondes par docs avec des pointes a 18 secondes

J'utilise le connecteur CMIS  pour intégrer les documents ainsi que les métadonnées associés(les "properties" dans alfresco) (une dizaines de métadonnées par documents) je précise que j'ai créé mes propres models.

Si je fait des lots d'import avec redémarrage du serveur entre chaque lots, les temps de traitements sont meilleurs mais ne sont pas aussi bon que lorsqu' Alfresco est vide.

De plus je classe mes fichiers dans des répertoires que je créé automatiquement et je vérifie qu'il n'existent pas déjà, de même pour les fichiers.

J'ai donc plusieurs questions:
Es ce que le connecteur CMIS est limité, ou n'est pas conçus pour attaquer Alfresco lorsqu'il contient beaucoup de documents?
Es ce qu'un folder est limité en nombre de fichier, répertoire?

J'ai de plus une erreur lorsque je parcours un folder trop volumineux –>"A systeme erro happened during the operation: GC overhead limit exceeded"

qu'en pensez vous?

merci d'avance.
5 Replies
rguinot
Customer

Re: Temps de traitement d'import de données croissant

L'erreur que vous rencontrez signifie que trop de temps est passé en GC (parallelGC http://java.sun.com/javase/technologies/hotspot/gc/gc_tuning_6.html#par_gc.oom) , plusieurs causes possibles : new gen mal taillée, code custom avec des leaks,…

plusieurs choses sans doute :

- mauvaise configuration de la JVM
- mauvais paramètrage de l'OS
- mauvaise gestion de lots de transaction

D'autre part, si cela est possible (je ne connais pas votre contexte, infrastructure, architecture de reprise de données, sources de données legacy), la "Foundation API" vous permettra d'aller plus vite : http://wiki.alfresco.com/wiki/Java_Foundation_API
rivarola
Active Member

Re: Temps de traitement d'import de données croissant

Es ce qu'un folder est limité en nombre de fichier, répertoire?

La réponse est non, mais cependant les interfaces natives d'Alfresco ne sont pas les plus adaptées à ces configurations. De plus certaines opérations seront plus lentes si de très nombreux espaces sont présents (recherches avec clause PATH par exemple), voir carrément à proscrire (requêtes XPath).
yanock
Member II

Re: Temps de traitement d'import de données croissant

Bonjour,

auriez vous d'autres documentation concernant Java_Foundation_API car je ne trouve pas assez d'informations pour effectuer une reprise de données ou alors peut être avez vous une autre façon de faire?

Il est dommage que CMIS ralentisse pour un paquet plus important de données car cette méthode était vraiment simple à mettre en place et collait parfaitement à ce que je veux faire.

Cordialement.
yanock
Member II

Re: Temps de traitement d'import de données croissant

Bonjour, j'amène quelques précisions avec des graphiques :

http://www.imagup.com/pics/1282728058.html

http://www.imagup.com/pics/1282728151.html

Ceci est un import de 55000 fichiers avec métadonnées fait en à peu près 16 heures.  On peut remarque qu'après 20 000 documents les temps commencent à exploser et je ne comprends pas pourquoi.

Je mets à disposition mon fichier excel regroupant mes temps : http://dl.free.fr/rjGo8RMWm

J'aimerai avoir une explication et peut être une solution car pour ma reprise de données, j'ai environ 1 million de documents et avec cette évolution de temps, cela risque de prendre une éternité.

En espérant que quelqu'un puisse m'aider.
rivarola
Active Member

Re: Temps de traitement d'import de données croissant

Je pense qu'il faudrait essayer d'identifier précisément quelle opération voit son temps de traitement se dégrader : est-ce la recherche de l'emplacement où mettre le fichier, l'ajout du fichier, la configuration des métadonnées ?
Ensuite, si personne ne fournit la solution sur ce forums, il faudrait créer un ticket pour soumettre le problème à Alfresco : https://issues.alfresco.com