Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine

Jean-Baptiste Faure <jbf.faure -AT- orange.fr>
Sun, 17 Apr 2011 17:09:07 +0200

Re-bonjour Laurent,

Le 17/04/2011 15:36, Laurent BALLAND-POIRIER a écrit :

Le 17/04/2011 09:56, Jean-Baptiste Faure a écrit :

Le 17/04/2011 00:01, Laurent BALLAND-POIRIER a écrit :

Je suis heureux que tu lances le sujet car c'est une de mes issues
favorites (issue 34093), avec la régression polynomiale (issue 20819).

Pour moi ce sont deux demandes d'ordres différents.

Certes. Mais à partir du moment où on se décidera d'en résoudre une,
l'autre résolution suivra.

Les données peuvent ne pas passer exactement par zéro (ou une autre
valeur constituant un offset) alors que physiquement le phénomène doit
passer par l'origine. Par exemple si le nombre de données est faible, il
est peu probable que cela passe exactement par zéro.

Ok, mais dans ce cas la vraie question à se poser est : pourquoi ça ne
passe pas par zéro alors que ça devrait ?

Mais parce que dans la vraie vie il y a forcément des incertitudes de
mesure.


Certes, mais dans ce cas il faut évaluer ces incertitudes et en tenir
compte pour réaliser l'ajustement.

Pas de torturer les données pour leur faire dire ce qu'on a décidé
qu'elles devaient dire.

Il ne s'agit pas de "torturer". Est-ce que la relation linéaire trouvée
(y=ax+b) a plus de sens que la relation proportionnelle (y=mx) ?


Oui parce qu'elle respecte les données.
Si ensuite le modèle construit sur ces données ne permet pas de prédire
que pour une abscisse de 0 on doit obtenir 0 alors qu'on sait par
ailleurs qu'il doit en être ainsi, c'est que le modèle qu'on vient de
construire est faux. Ou au moins n'est peut-être pas suffisant.

Ce qui est en jeu ici c'est la distinction entre l'ajustement d'un
modèle (calibration in English) et la validation du modèle "calibré".
Quand on construit un modèle, en principe on sépare à l'aveugle ses
données expérimentales en deux parts. On utilise la première pour
définir un type de modèle (choisir la forme) et en ajuster les
paramètres. Une fois cela fait on vérifie sur le reste des données que
le modèle obtenu permet de bien les reproduire. Si ça ne marche pas
assez bien (en un sens à définir), on recommence, soit au niveau de
l'ajustement (changer de mesure de l'erreur ou d'algorithme) soit même
au niveau du choix de la forme du modèle (passer d'un modèle linéaire à
un modèle en loi puissance ou exponentiel par exemple).

Imposer à une droite de passer par l'origine c'est ajouter des données
extérieures aux données expérimentales en leur donnant un poids bien
plus important que les autres. Et si ce sont des données valides
pourquoi ne pas les ajouter au jeu de données utilisé pour calculer la
régression linéaire ?

Je ne suis pas d'accord : le résultat numérique n'est pas le même.

L'exemple donné dans la question sur la ML développeurs
(http://nabble.documentfoundation.org/needful-function-on-calc-tp2824180p2824180.html)

est le suivant :
distance parcourue par une voiture en fonction de sa vitesse :
1 m/s : 5 m
2 m/s : 11 m
Si on ajoute (0,0) au jeu de données la relation n'est pas linéaire.
Pourquoi la forcer ?

Et pourquoi pas ? Si l'utilisateur a envie ? Il a le droit de choisir le
couleur de la police dans laquelle il va écrire l'équation (il peut même
choisir en blanc sur fond blanc) et il ne pourrait pas choisir son
équation ?
De toute façon, l'utilisateur peut forcer l'ordonnée à l'origine à 0
avec la fonction DROITEREG. Donc pourquoi lui interdire de faire la même
chose avec la courbe de tendance ? S'il veut une autre valeur, c'est
encore possible, juste un peu plus sioux.

Pour moi ce n'est pas une démarche scientifique.

Parce qu'une relation linéaire est une démarche scientifique ? Il ne
s'agit que d'une équation plus ou moins arbitraire. Je ne comprends pas
pourquoi cela gêne davantage d'écrire y=mx plutôt que y=mx+b.


Ce n'est pas la relation linéaire qui est ou n'est pas une démarche
scientifique, c'est la façon dont on construit une théorie à partir de
données qui l'est ou ne l'est pas.

Dans le cas de l'exemple cité, forcer la droite à passer par l'origine
masque les deux conclusions possibles qu'il faudrait donc analyser plus
en détail :
- soit les données sont fausses c'est à dire qu'il y a des erreurs de
mesure anormales
- soit le modèle linéaire ne rend pas correctement compte des données,
ce qu'on peut effectivement facilement mettre en évidence puisqu'on peut
trouver un ajustement en loi puissance qui donne un R² meilleur.

En attendant, je rappelle que MS-Excel supporte une telle fonctionnalité
depuis le siècle dernier (1993 avec MS-Excel 5.0),


Certes, et depuis longtemps aussi des générations d'étudiants font dire
n'importe quoi à leurs données. :-)

D'un autre coté on peut bien ajouter toutes les formes d'ajustement que
l'on veut. Le problème est alors d'être bien clair sur ce que le
logiciel fait. Et dans le cas présent ce n'est plus une régression
linéaire. Il faut trouver un autre nom pour ne pas induire en erreur.

Si tu forces l'ordonnée à l'origine à 0, il s'agit d'une régression
proportionnelle. Si tu forces à une autre valeur, il s'agit toujours
d'une régression linéaire.

Je te laisse le soin de répondre en ce sens à la question sur la liste
dév ? Tu le feras sans doute plus gentiment que moi ;-)

Merci pour le lien. Je n'avais pas été fichu de trouver le fil dont tu
parlais ;-) J'espère que cela pourra être un nouveau départ pour cette
problématique qui me tient à cœur. Pourtant, je reste réaliste quant à
l'importance de ces fonctionnalités pour une suite bureautique
généraliste. Lorsque j'ai pris mon bâton de pèlerin sur les différents
forums francophones et anglophones pour trouver des témoignages de
personnes ayant des besoins concrets dans ce domaine, afin d'illustrer
la demande de changement de format auprès d'OASIS, j'ai essuyé un grand
silence respectueux.


Cela conforte l'idée qu'une extension est une bonne façon de satisfaire
la demande. D'ailleurs je pense que tu ne devrais pas te priver de faire
une entrée spéciale dans la FAQ de Calc sur le sujet. Ne signaler
l'extension CorelPolyGUI que dans l'article sur le solveur est
insuffisant à mon avis. Un article "Comment ajouter une courbe de
tendance" ou carrément "Comment ajuster une régression polynomiale" me
parait complètement justifié.


Bon je vais aller boire ma tisane pour me calmer.


Allons, une bonne discussion (en français c'est plus facile) permet
d'affiner ses arguments.


Bon dimanche au soleil !

Oui, mais un peu frisquet le soleil, je trouve. :-)

Bonne journée
JBF

-- 
Seuls des formats ouverts peuvent assurer la pérennité de vos documents.

-- 
Envoyez un mail à discuss+help@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être 
supprimés

Context

[fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
- Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
  - Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
    - RE: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Michel Rudelle
      - Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
    - Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
      - Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
        
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
        
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
        
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Jean-Baptiste Faure
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · Laurent BALLAND-POIRIER
        
        Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine · pierre choffardet

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.