Date: prev next · Thread: first prev next last
2021 Archives by date, by thread · List index


Bonjour à tous,

Tout d'abord, merci de vos réponses.
Je m'aperçois que ma demande est effectivement plus complexe que je ne me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; >250000 lignes / AS colonnes).

Malheureusement, je n'ai pas de linux à disposition; à des fins de support, ma machine est identique à celles de nos utilisateurs => W10.

J'ai commencé à creuser R + RStudio qui ont l'air de faire ce dont j'ai besoin. et j'utilise sed pour windows pour faire un nettoyage préalable des données (sans grand succès pour l'instant).

Le problème des nuages en ligne est l'impossibilité d'industrialiser.
L'objectif est de pouvoir extraire du sens de logs d'impressions afin d'identifier quels flux sont les plus matérialisés puis en éviter l'impression si possible (une approche qualitative plutôt que volumétrique en somme). En fonction des mots récurrents, je vais aussi savoir déterminer les services d'origine, les périodes de pics et de creux dans l'année, etc.

Idéalement, il faut que je puisse batcher (ou faire le moins de manoeuvres possible) pour pouvoir sortir les indicateurs chiffrés (Calc) + les nuages de mots sans y passer trop de temps.

Merci pour vos idées; je posterai la solution retenue avec un exemple quand la réalisation sera terminée.

A bientôt.

Nicolas.

Le 10/05/2021 à 18:55, Claire a écrit :
Bonjour

Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour faire ça.

En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit Jean Michel, si une même occurence comporte un espace, déjà c'est bancal.

Dit autrement Il te faudrait donc déjà un séparateur unique permettant d'identifier les occurences... sans que ce séparateur serve par ailleurs

Alors qu'il existe des outils qui, à partir d'un texte, te construisent des nuages de mots clés selon leur fréquence, ça peut même se paramétrer (toujours... avec R).

Mais des nuages de mots clés, ça se fait aussi directement en ligne, en copiant ton texte...

Il reste que tu auras toujours une problématique pour identifier les occurences si la chaine de caractère contient plusieurs mots...


Claire

Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :
Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
 j'aurais besoin de*trouver les mots les plus fréquents* et de compter le nombre d' occurrences.

Bonjour,

Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais pas par avance quels mots chercher/compter, les expressions régulières et les outils bash proposés par Bernard ne te seront d'aucun secours.

Et je ne vois pas d'outils simples pour réaliser ça....

Cordialement,



--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.