Le 17/04/2011 17:45, Laurent BALLAND-POIRIER a écrit :
Je poursuis la discussion car le sujet me tracasse... :)
Le 17/04/2011 17:09, Jean-Baptiste Faure a écrit :
Les données peuvent ne pas passer exactement par zéro (ou une autre
valeur constituant un offset) alors que physiquement le phénomène doit
passer par l'origine. Par exemple si le nombre de données est
faible, il
est peu probable que cela passe exactement par zéro.
Ok, mais dans ce cas la vraie question à se poser est : pourquoi ça ne
passe pas par zéro alors que ça devrait ?
Mais parce que dans la vraie vie il y a forcément des incertitudes de
mesure.
Certes, mais dans ce cas il faut évaluer ces incertitudes et en tenir
compte pour réaliser l'ajustement.
Cela ne m'explique pas pourquoi il ne faut pas avoir la même démarche
sur une régression linéaire y= mx+b
Je voulais simplement dire que si on invoque les inévitables
incertitudes il faut en tenir compte dans le processus d'ajustement.
Quel que soit le modèle utilisé, en effet.
Tous tes points ne passent pas par ta droite. Pourquoi ? Pour les mêmes
raisons, que si je choisis une régression proportionnelle y=mx, tous mes
points ne passent pas par la droite.
Cela dépend des cas, mais dans mon exemple, les points expérimentaux ne
sont pas sur la droite de régression parce qu'ils ne suivent pas une loi
linéaire. Ce que permet justement de constater l'introduction du point
(0,0) dans le jeu de données.
Pas de torturer les données pour leur faire dire ce qu'on a décidé
qu'elles devaient dire.
Il ne s'agit pas de "torturer". Est-ce que la relation linéaire trouvée
(y=ax+b) a plus de sens que la relation proportionnelle (y=mx) ?
Oui parce qu'elle respecte les données.
En quoi y=mx+b respecte plus les données que y=mx ou y=ax²+bx+c ? Là il
faut m'expliquer car je ne comprends pas ce blocage sur une seule forme
de l'équation.
Je raisonnais sur l'exemple que j'ai donné. Le R² donne une mesure de la
qualité de l'ajustement.
Si ensuite le modèle construit sur ces données ne permet pas de prédire
Je crois que l'on tient là un point de départ pour expliquer notre
différence d'approche. Je n'utilise pas de régression pour "prédire" mes
valeurs de y ou x, mais parce que m représente physiquement quelque
chose et que je veux la valeur de la propriété "m".
D'une certaine façon si tu prédis cette valeur (0,0) : tu sais que ton
modèle doit passer par ce point. Si tes données expérimentales ne te
permettent pas de le retrouver c'est qu'il y a un problème quelque part.
Et c'est sans doute
pour cela que je n'ai jamais eu besoin de la fonctionnalité
d'extrapolation de la courbe de tendance, et sans doute aussi pour cela
que les programmeurs se sont contentés au début de tracer la courbe de
tendance sans en donner la valeur. J'ai donc le sentiment qu'en
utilisant le même outil, on ne cherche pas tous la même chose.
Ce n'est pas la relation linéaire qui est ou n'est pas une démarche
scientifique, c'est la façon dont on construit une théorie à partir de
données qui l'est ou ne l'est pas.
Dans le cas de l'exemple cité, forcer la droite à passer par l'origine
masque les deux conclusions possibles qu'il faudrait donc analyser plus
en détail :
- soit les données sont fausses c'est à dire qu'il y a des erreurs de
mesure anormales
- soit le modèle linéaire ne rend pas correctement compte des données,
ce qu'on peut effectivement facilement mettre en évidence puisqu'on peut
trouver un ajustement en loi puissance qui donne un R² meilleur.
Je ne vois toujours pas pourquoi on propose y =mx+b, y = b.x^m, etc.
mais pas y=mx ou y = ax²+bx+c
En général y=mx sur-détermine le problème.
À vrai dire dans mon domaine je ne me souviens pas avoir rencontré un
ajustement sur une loi polynomiale, ce sont toujours des lois puissance
ou exponentielle.
Le problème de changer de loi est le même : tu regardes R² et tu
décides. Plus tu ajoutes de paramètres et plus c'est facile de faire
coller tes points à ta régression. Donc choisir y=mx+b pour avoir un
meilleur R² qu'avec y=mx pourrait être fallacieux, puisque cela te
masque les points aberrants.
Absolument. D'ailleurs dans mon exemple les deux modèles, linéaire ou
proportionnel, sont faux tous les deux.
L'argument que cela tromperait l'utilisateur est le même quelle que soit
la loi employée. Il faut certes regarder la valeur de R², mais également
le sens physique de l'équation employée.
Évidemment mais on n'a pas toujours de quoi donner un sens physique à
l'équation obtenue. D'où l'importance de l'étape de validation du modèle.
Cela conforte l'idée qu'une extension est une bonne façon de satisfaire
la demande. D'ailleurs je pense que tu ne devrais pas te priver de faire
une entrée spéciale dans la FAQ de Calc sur le sujet. Ne signaler
l'extension CorelPolyGUI que dans l'article sur le solveur est
insuffisant à mon avis. Un article "Comment ajouter une courbe de
tendance" ou carrément "Comment ajuster une régression polynomiale" me
parait complètement justifié.
Je l'ajoute à ma liste des choses à faire ;-)
Merci. :-)
Bonne fin de journée
JBF
--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents.
--
Envoyez un mail à discuss+help@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être
supprimés
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.