Bonjour à tous,
Tout d'abord, merci de vos réponses.
Je m'aperçois que ma demande est effectivement plus complexe que je ne
me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo;
>250000 lignes / AS colonnes).
Malheureusement, je n'ai pas de linux à disposition; à des fins de
support, ma machine est identique à celles de nos utilisateurs => W10.
J'ai commencé à creuser R + RStudio qui ont l'air de faire ce dont j'ai
besoin.
et j'utilise sed pour windows pour faire un nettoyage préalable des
données (sans grand succès pour l'instant).
Le problème des nuages en ligne est l'impossibilité d'industrialiser.
L'objectif est de pouvoir extraire du sens de logs d'impressions afin
d'identifier quels flux sont les plus matérialisés puis en éviter
l'impression si possible (une approche qualitative plutôt que
volumétrique en somme).
En fonction des mots récurrents, je vais aussi savoir déterminer les
services d'origine, les périodes de pics et de creux dans l'année, etc.
Idéalement, il faut que je puisse batcher (ou faire le moins de
manoeuvres possible) pour pouvoir sortir les indicateurs chiffrés (Calc)
+ les nuages de mots sans y passer trop de temps.
Merci pour vos idées; je posterai la solution retenue avec un exemple
quand la réalisation sera terminée.
A bientôt.
Nicolas.
Le 10/05/2021 à 18:55, Claire a écrit :
Bonjour
Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour
faire ça.
En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit
Jean Michel, si une même occurence comporte un espace, déjà c'est bancal.
Dit autrement Il te faudrait donc déjà un séparateur unique permettant
d'identifier les occurences... sans que ce séparateur serve par ailleurs
Alors qu'il existe des outils qui, à partir d'un texte, te
construisent des nuages de mots clés selon leur fréquence, ça peut
même se paramétrer (toujours... avec R).
Mais des nuages de mots clés, ça se fait aussi directement en ligne,
en copiant ton texte...
Il reste que tu auras toujours une problématique pour identifier les
occurences si la chaine de caractère contient plusieurs mots...
Claire
Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :
Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
j'aurais besoin de*trouver les mots les plus fréquents* et de
compter le nombre d' occurrences.
Bonjour,
Si les chaînes de caractères contiennent plusieurs mots et Si tu ne
sais pas par avance quels mots chercher/compter, les expressions
régulières et les outils bash proposés par Bernard ne te seront
d'aucun secours.
Et je ne vois pas d'outils simples pour réaliser ça....
Cordialement,
--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.