Re: [fr-users] Analyse sémantique d'un fichier csv ?

Nicolas Abel <nicolas.abel1 -AT- ac-reunion.fr>
Tue, 11 May 2021 12:44:56 +0400

Bonjour à tous,

Tout d'abord, merci de vos réponses.

Je m'aperçois que ma demande est effectivement plus complexe que je neme l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo;>250000 lignes / AS colonnes).

Malheureusement, je n'ai pas de linux à disposition; à des fins desupport, ma machine est identique à celles de nos utilisateurs => W10.

J'ai commencé à creuser R + RStudio qui ont l'air de faire ce dont j'aibesoin.et j'utilise sed pour windows pour faire un nettoyage préalable desdonnées (sans grand succès pour l'instant).


Le problème des nuages en ligne est l'impossibilité d'industrialiser.

L'objectif est de pouvoir extraire du sens de logs d'impressions afind'identifier quels flux sont les plus matérialisés puis en éviterl'impression si possible (une approche qualitative plutôt quevolumétrique en somme).En fonction des mots récurrents, je vais aussi savoir déterminer lesservices d'origine, les périodes de pics et de creux dans l'année, etc.

Idéalement, il faut que je puisse batcher (ou faire le moins demanoeuvres possible) pour pouvoir sortir les indicateurs chiffrés (Calc)+ les nuages de mots sans y passer trop de temps.

Merci pour vos idées; je posterai la solution retenue avec un exemplequand la réalisation sera terminée.


A bientôt.

Nicolas.

Le 10/05/2021 à 18:55, Claire a écrit :

Bonjour
Le souci c'est aussi de vouloir privilégier "son tableur préféré" pourfaire ça.
En réalité, il faudrait isoler d'abord chaque occurence. Comme le ditJean Michel, si une même occurence comporte un espace, déjà c'est bancal.
Dit autrement Il te faudrait donc déjà un séparateur unique permettantd'identifier les occurences... sans que ce séparateur serve par ailleurs
Alors qu'il existe des outils qui, à partir d'un texte, teconstruisent des nuages de mots clés selon leur fréquence, ça peutmême se paramétrer (toujours... avec R).
Mais des nuages de mots clés, ça se fait aussi directement en ligne,en copiant ton texte...
Il reste que tu auras toujours une problématique pour identifier lesoccurences si la chaine de caractère contient plusieurs mots...
Claire

Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :
Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
j'aurais besoin de*trouver les mots les plus fréquents* et decompter le nombre d' occurrences.
Bonjour,
Si les chaînes de caractères contiennent plusieurs mots et Si tu nesais pas par avance quels mots chercher/compter, les expressionsrégulières et les outils bash proposés par Bernard ne te serontd'aucun secours.
Et je ne vois pas d'outils simples pour réaliser ça....

Cordialement,


--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Context

[fr-users] Analyse sémantique d'un fichier csv ? · Nicolas Abel
- Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
  - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
- Re: [fr-users] Analyse sémantique d'un fichier csv ? · Jean-Michel COSTE
  - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Claire
    - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Nicolas Abel
      - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Jean-Michel COSTE
  - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Jean-Pierre Giraud
    - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Jean-Pierre Giraud
      - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
- Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
- Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
- Re: [fr-users] Analyse sémantique d'un fichier csv ? · yves dutrieux
  - Re: [fr-users] Analyse sémantique d'un fichier csv ? · Bernard Schoenacker
    - [fr-users] Re: Analyse sémantique d'un fichier csv ? · Dominique_sextant

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.