venerdì 10 aprile 2009

Modelli quantitativi per il marketing

DATASET=contiene info sulle preferenze dei consumatori,sulle loro caratteristiche e sugli strum.di marketing in atto durante la transazione osservata.
Y=var.dipendente/di risposta,misura la performance dell’attività di marketing.
1)Modello di regressione lineare multipla(y var. dip. Continua=prezzo/vendite/quote di mercato)
2)Modelli a scelta binaria(y var. dip. Qualitative=scelta tra 2 marche)
3)Modelli a scelta multipla (y var. dip. Multinomiale=scelta tra + marche)
Strutture dei dati economici:-serie storiche:variabile z osservata su 1 unità statistica in ≠ istanti temporali;
-cross-sections:varia bile z osservata su ≠ unità statistiche allo stesso istante t.(Dataset ottenuto attr. campionamento casuale semplice⇒osservazioni indipendenti).
Modello di regr. Lineare multipla x dati cross-sections: yi=
Consente di misurare l’effetto di 1 variabile esplicativa sulla var. dipendente controllando le altre var. espl.,a parità di altri fattori(ceteris paribus).
β=K+1 (K regressori+costante); yi e εi sn var.casuali⇒cambiano se cambia il campione,mentre xik.. sn var. fisse.
Richiami sui momenti di 1 var.casuale:sia Z 1 var.casuale con valore atteso/momento primo E(Z) e momento secondoE(Z);siha:1)Var(Z)=E(Z-E(Z))=E(Z)-E(Z);2)E(a+bZ)=E(a)+E(bz)=a+bE(Z);3)Var(a+bZ)=Var(a)+bVar(Z
Assunzioni del modello di regr.lineare multipla:
1)nn esistono relazioni lineari esatte fra i vettori colonna xk (la loro somma nn è =1);
2)E(yi/Xi)=E(Xiβ+εi/Xi)=Xiβ→funzione di regressione; valore atteso=valore medio ke 1 var.casuale può assumere in 1 serie di prove.
3)var(yi/Xi)=var(Xiβ+εi/Xi)=σ
4)cov(yi,yj/Xi,Xj)=0, i≠j.
assunzioni⇒ yi=Xiβ+εi ⇒ εi=yi-Xiβ
E( )=0 :il termine di errore ha valore atteso nullo;
E( )= :varianza costante(omoschedasticità) al variare delle osservazioni;
E( )= :il termine di errore è incorrelato con le variabili esplicative x per ogni i;
E( )=0 , i≠j ;incorrelazione fra gli errori corrispondenti ad osservazioni ≠.
L’effetto di xik su yi si misura attr.:effetto marginale e elasticità.
Effetto marginale=variazione in yi a seguito della variazione di 1 unità di xik quando tutte le altre variabili restano costanti; la linearità del modello⇒effetti marginali delle var.esplicative sn costanti(nn dipendono dal valore della x); Δ
Elasticità= variazione percentuale in yi a seguito della variazione dell’1% di xik,quando tutte le altre variabili restano costanti(ceteris paribus);il modello nn ha elasticità costante xkè essa dipende dai valori di x e y(il termine lineare del modello si riferisce ai parametri βk e nn alle var.yi e xik) : η

Caso particolare: yi>0 e xik>0 per ogni i=1,..N e k=1,..k ,trasformazione logaritmica applicata a tutte le variabili:
ln
in questo modello -elasticità(ed è costante): η
-effetto marginale(dipende dal punto in cui è calcolato):
Stimatori dei minimi quadrati ordinari MQO:x quantificare l’impatto delle variabili esplicative sulla var. dip. Tramite l’effetto marginale e l’elasticità serve la stima dei coefficienti incogniti contenuti in β⇒metodo dei MQO,sceglie i valori x i coeff. β che minimizzano la somma dei quadrati degli errori commessi approssimando yi con la sua media condizionale: min

X minimizzare la quantità si calcolano le derivate dei k+1 coeff. E si pongono =0, poi
Matrice inversa di A=A ⇒ AA=AA=IM (nn di tt le matrici quadrate esiste quella inversa,ma se c’è A è invertibile).
Stima della funzione di regressione: E(yi/Xi)=Xiβ yi=
βk
.y rappresenta il valore previsto/stimato della var.dip. tramite il modello della regr.lin.multipla;
β =coeff. Stimato,rappr.1 stima dell’effetto marginale della var. xik sul valore previsto y ;è la variazione prevista di y a seguito di 1 variazione unitaria di xik,mantenendo fisse tutte le altre var. esplicative.
Stima della varianza dell’errore: ε yi=
In quanto stime degli errori i residui sn usati x ottenere 1 stima della ignota varianza del termine di errore εi.
σ La media campionaria dei residui è nulla ε
Misura della bontà di adattamento R:
media campionaria delle osservazioni:
media campionaria dei valori stimati:
SQT= :devianza totale della var.dip.,misura la variazione campionaria della y;
SQS= :devianza dei valori stimati,rappr.la variazione della y spiegata dal modello di regr.;
SQR= :devianza dei residui,rappr.la variazione della y nn spiegata dal modello di regr.
SQT=SQS+SQR R=

R =è 1 misura dell’adattamento del modello ai dati,della capacità esplicativa del modello;misura la frazione di varianza totale della var.dip. y spiegata dal modello di regr.
0≤SQS≤SQT 0≤R≤1
R=1 ⇔ SQS=SQT:la capacità esplicativa del modello è perfetta;
R=0 ⇔ SQS=0 :nn esiste nessuna relazione lineare fra la var.dip. e le esplicative.
Proprietà dei MQO in campioni finiti=proprietà di cui godono gli stimatori dei MQO quando il campione di osservazioni utilizzato x il loro calcolo è di 1 determinata numerosità N:
1)β è 1 stimatore corretto: E(β)=β ;correttezza=il valore atteso/media dello stimatore dei mqo di ogni coeff.è= al valore del coeff. Stesso;
2)Lo stimatore della varianza del termine di errore è corretto: E ;
3)la distribuzione degli elementi del vettore di var.casuali β sarà caratterizzata,oltre ke da 1 certa media,anche da 1 certa varianza:Matrice di varianze e covarianze:matrice simmetrica(sulla diagonale principale le varianze e fuori le cov): cov(
4)TEOREMA DI GAUSS-MARKOV=β è lo stimatore con varianza minima fra quelli lineari(nelle y)e corretti se si prende come criterio di bontà di 1 stimatore quello di avere varianza minima.
Proprietà asintotiche dei MQO=proprietà di cui godono gli stimatori MQO in grandi campioni,quando N aumenta indefinitamente,tendendo all’infinito:
1)β e σ sn stimatori consistenti: + numerosità del campione⇒stime + precise;
2)β ha distribuzione asintotica normale: β
Richiami sulla distribuzione normale: Z var.casuale normale: Z
Funzione di densità:
Funzione di ripartizione:
media:
varianza:
proprietà:
standardizzazione:
Inferenza sui parametri:

X sottoporre a verifica il sistema di ipotesi è necessario disporre di 1 quantità pivotale,1Statistica test con distribuzione nota quando è vera H0.
.z =statistica osservata,il valore ke la statistica assume nel campione analizzato.Ha distribuzione asintotica.


Bisogna definire 1 intervallo di valori possibili=regione di accettazione:
-se z cade nella regione di accettazione ⇒si accetta H ;
-se z nn cade nella regione di accettazione⇒si rifiuta H .
Il test statistico è soggetto a 2 tipi di errore:
1)errore di 1 tipo:rifiutare H quando è vera,livello di significatività;
2)errore di 2 tipo:accettare H quando nn è vera.
X definire la regione di accettazione del test si sceglie di controllare la probabilità di errore di 1 tipo(entrambi nn è possibile),quindi si fissa 1 livello di significatività= α. Prob(rifiutare H /H è vera)=α
Di solito α=0,01,α=0,05,α=0,10;distribuzione normale standardizzata.Intervallo[ ] definisce la reg.di acc.
-se
-se
prob (z
i valori sn: α
α
α
Test di significatività:caso di verifica dell’ipotesi di uguaglianza a zero di 1 coefficiente:
H (la var.esplicativa xik nn può spiegare la yi;βk nn è significativo);
H
Statistica test : t=distribuzione t di student con gradi di libertà pari a N-(k+1)


- =stima dei minimi quadrati del coefficiente ;
- =stima dell’errore standard( ) del coeff. Stimato;
- :valore della statistica x il test di significatività del coeff. .
Il valore p=è il + piccolo livello di significatività al quale si può rifiutare l’ipotesi nulla.
P=2xprob(


Valore p=1 informazione ke consente di concludere a favore/sfavore dell’ipotesi nulla in corrispondenza di ≠ livelli di significatività;se p è inferiore al livello di sign. Ke si è disposti a scegliere x il test si conclude x il rifiuto dell’ipotesi nulla.
Intervalli di confidenza=stime intervallari:forniscono 1 intervallo di valori probabili x parametro βk;


Variabili indipendenti di tipo qualitativo:quando assumono 2 modalità=variabile binaria/dummy/di comodo (valori 0 e 1).
La variabile dummy:può assumere +di 2 modalità⇒si suddividono le osservazioni campionarie in g gruppi.
-1 singola var.indipendente dummy:osservazioni campionarie divise in 2 gruppi:
yi=
la dummy è: di1=

E(yi/di1=1,xi2) – E(yi/di1=0,xi2) = β1 (parametro ignoto ke dipende dalla dummy)
Esempio della funzione di prezzo edonico.
“Trappola” della variabile dummy: di1+di2=1
Viola l’assunzione del modello di regr.lineare multipla=nn devono esistere relazioni lineari esatte fra i regressori⇒Si deve inserire nel modello solo 1 delle 2 dummy(scelta arbitraria).
-Uso della variabile dummy x modificare la pendenza della funzione di regressione:
di1xi2=

var.di1xi2=interazione fra di1 e xi2: yi=
-1° funzione di regr: si sostituisce di1xi2=1:
-2° funzione di regr:si sostituisce di1xi2=0 :
differenza E(yi/di1=1,xi2) – E(yi/di1=0,xi2)=β1+β3xi2
-Variabili dummy x categorie multiple: campione diviso in g gruppi:si definisce prima 1 dummy Di x categorie multiple(valori da 1 a g),poi si creano g variabili dummy binarie; fra le g dummy esiste 1 relazione lineare esatta: Di=di1+di2+…+dig=1 ⇒si deve scegliere 1 gruppo di riferimento ke si omette dal modello.
-Uso simultaneo di 2 dummy di tipo dicotomico: di1 e di2 :ognuna delle 2 suddivide il campione in 2 gruppi⇒contengono 2 info diverse e sn indipendenti tra loro,quindi calcoliamo i 4 modelli di regr.:
yi=

-gruppo 1:di1=0,di2=0
-gruppo 2: di1=0,di2=1
-gruppo 3: di1=1,di2=0
-gruppo 4: di1=1,di2=1
L’effetto di 1 dummy nn dipende dal valore assunto dall’altra; esempio funzione di prezzo edonico.
Termine di interazione fra 2 dummy di tipo dicotomico⇒l’effetto di 1 dummy dipende dal valore dell’altra:
di1di2= yi=

Il metodo della massima verosimiglianza=metodo di stima ke si basa sull’assunzione di 1 determinata distribuzione di probabilità x la variabile ke si vuole modellare;(≠MQO ke nn richiede assunzione,x e y nn influenzano la distribuzione);funzione di densità congiunta del campione considerata come funzione di ϑ per dati valori campionari y1,y2,…yN e x.
Funzione di densità




Proprietà: 1) è consistente per il vero valore ϑ;+ numerosità⇒stime + precise;
2) ha distribuzione asintotica normale:
è asintoticamente efficiente(ha varianza + piccola fra tutti gli stimatori consistenti e asintoticamente normali).
Il test del rapporto di verosimiglianza (TRV)=test utile x verificare la validità simultanea di 1 insieme di restrizioni(lineari e nn) di numerosità g(con g≤M) sul vettore di parametri ϑ;
ipotesi ke si possono sottoporre a verifica tramite il TRV:
- - -

4 passaggi:
1-si stima il modello attr.il metodo della massima verosimiglianza(MV) senza considerare i vincoli e si ottiene lo stimatore nn vincolato ;
2-imponendo i vincoli “ “ “ “ si ottiene lo stimatore vincolato ;
3-si calcolano i 2 valori massimizzati delle funzioni di logverosimiglianza corrispondenti ai modelli nn vincolato e vincolato:

4-TRV= -2 TRV
TRV è 1 test unilaterale. La regione di accettazione è l’intervallo[ ]e dipende sia dai gradi di libertà della distribuzione ke dal livello di significatività α scelto x il test.
.p=prob(TRV
Modelli per variabile dip. Dicotomica o binaria:caso in cui 1 var. yi è qualitativa e viene trasformata in 1 var. dicotomica o binaria (x es. scelta fra 2 marche da parte di 1 consumatore).
Richiami sulla variabile casuale di Bernoulli: distribuzione discreta,di Bernoulli,che attribuisce 1 probabilità ai 2 valori ke possono essere assunti dalla variabile discreta,tale che la somma delle 2 probabilità sia 1.
Y=

Media E(y)= var(y)=
.pi=prob(yi=1/Xi) = E(yi/Xi) = f(Xiβ)



Il modello lineare di probabilità:modelliamo la var. dip. Di Bernoulli yi tramite la regressione lineare multipla:
yi=
E(yi/Xi)=Xiβ= =pi
=βk

βk=variazione indotta sulla probabilità che yi sia pari a 1 da 1 variazione unitaria della variabile esplicativa continua xik quando tt le altre variabili esplicative rimangono costanti.
I coeff.del modello lineare di probabilità possono essere stimati ricorrendo al metodo dei MQO:
E
Problemi del modello lineare di probabilità:
1)il termine di errore nn può avere distribuzione normale⇒solo quella asintotica(valida in grandi campioni) e nn si può usare distribuzione t di student in campioni finiti;
2)il termine di errore è eteroschedastico=la sua varianza dipende dall’osservazione e nn è costante;si usa la matrice di varianze e covarianze di White;quando è violata l’assunzione di omoschedasticità gli stimatori di MQO sn ancora corretti e consistenti ma nn sn + efficienti,nn hanno + varianza minima;
3)la stima delle probabilità può assumere valori esterni all’intervallo [0,1];
4)gli effetti marginali rappresentati dai coefficienti sn costanti(nn dipendono dalle x).
Problemi⇒servono modelli nn lineari ke possono spiegare 1 var.dip. dicotomica e nn presentano i limiti del modello lineare di probabilità;visto ke sn modelli nn lineari nn si può + usare il metodo dei MQO x stimare i parametri incogniti ma si usa il metodo della Massima Verosimiglianza.
Modelli nn lineari:Modelli logit e probit:
pi=prob(
f( :modello lineare di probabilità:svantaggio di nn vincolare i valori della prob ad appartenere all’intervallo [0,1] :serve 1 funzione compresa fra 0 e 1= funzione di ripartizione/di densità cumulata di 1 variabile casuale continua.
G


.yi è 1var.continua nn osservabile,latente;supponiamo ke sia yi spiegabile attr. il modello di regr.lineare:
.yi= G

.yi= pi=

I modelli logit e probit si ottengono scegliendo 2 particolari distribuzioni x la variabile casuale εi.
Modello probit:



Modello logit:


Una nota sull’identificazione nei modelli probit e logit:in entrambi la varianza del termine di errore è posta pari a 1 costante nota e nn è oggetto di inferenza;la varianza nn è identificata(=quando ≠valori dello stesso portano ad osservazioni equivalenti).
Interpretazione dei modelli logit e probit come modelli di utilità stocastica:
teoria dell’utilità del consumatore=scelta osservata fra 2 possibili alternative come 1 decisione ottimale da parte dell’individuo; scelta fra 2 marche alternative (A e B) da parte di 1 consumatore;ad ogni alternativa è associato da parte del consumatore 1 livello di utilità.: u

yi=

yi=

Confronto tra modelli logit e probit:sn simili,indifferentemente usati nell’analisi di var.dip.binarie;sn ≠ x la forma delle code(+ spesse nella distribuzione logistica). Prob(

x valori negativi e alti in valore assoluto di Xiβ il modello logit fornisce valori + alti della prob(yi=1/Xi) : Λ(Xiβ)> Φ(Xiβ) ;
x valori positivi e alti di Xiβ il modello probit fornisce valori maggiori.
Relazione numerica fra i parametri dei modelli: β
Interpretazione dei modelli:a differenza del modello di regr.lineare,nei modelli logit e probit nn si possono + interpretare i coeff.come effetti marginali delle rispettive var.esplicative xkè nn sn lineari,nn lineare anke l’effetto di variazioni unitarie ceteris paribus delle var.esplicative sulla quantità ke stiamo modellando;x quantificare l’effetto si distinguono 2 casi:
variabili esplicative di tipo continuo:effetto marginale:
si ricorre al concetto di derivata parziale:
x modello probit:
x modello logit:
Note:
-il segno dell’e.m. della variabile xik coincide con quello del coefficiente βk poiché g x ogni argomento X
-1 aumento unitario di xik ha sulla prob( effetto della stessa magnitudine e di segno opposto rispetto all’effetto sulla prob( ;
-l’e.m. nn è costante,dipende oltre che da βk da tutti gli altri coefficienti contenuti in β; x poter disporre di 1 misura sintetica dell’e.m. della variabile xik ci sn 2 strade:
1)si calcola la media campionaria degli N e..m. corrispondenti alle N osservazioni campionarie;
2)si individua 1 osservazione rappresentativa.
variabili esplicative di tipo continuo:quasi elasticità:


La quasi elasticità si ottiene moltiplicando l’effetto marginale E.M.(xik) x il valore della variabile xik;
variabili esplicative di tipo dummy: xik=
si scelgono 2 osservazioni rappresentative:

effetto della dummy xik: prob(y=1/

x modello probit:
x modello logit:
Stima dei modelli col metodo della massima verosimiglianza: var.casuale di Bernoulli yi=
Si ricava la funzione di verosimiglianza a partire dalla densità congiunta del campione:

funzione di logverosimiglianza:
Si massimizza la funzione di verosomiglianza x avere 1 stima + precisa del campione e cambia x i 2 modelli:
-modello probit: prob(yi=1/Xi)=
si massimizza la quantità rispetto al vettore β di dimensioni (K+1)x1




-modello logit: prob(yi=1/Xi)=



Inferenza sui parametri dei modelli logit e probit:dopo aver ottenuto lo stimatore di massima verosimiglianza β e 1 stima della matrice di var e cov asintotica tramite 1 dei 2 modelli,si può procedere alla verifica di particolari ipotesi sui singoli elementi del vettore parametrico β:

Il sistema di ipotesi può essere sottoposto a verifica usando la statistica test:

Caso particolare:quando β=0 ke fornisce il test di significatività del coeff. Della var. esplicativa xik. Tramite il test del TRV si possono verificare l’ipotesi congiunte sui coeff.del vettore β: x es.
Stime delle probabilità e degli effetti delle variabili esplicative:
-x modello probit:
-x modello logit:
Sia j 1 nuova unità statistica nn compresa nel campione ma può essere stimata cmq dal modello della probabilità stimata;inoltre disponendo di β si può:-stimare gli effetti marginali delle var.esplicative continue;
-ottenere 1 stima dell’impatto sulla prob.delle var.espl.cont. dummy(quando il loro valore passa da 0 a 1).
Bontà della stima:indice di bontà di adattamento di modelli probit e logit analogo al coefficiente di determinazione R nel contesto della regressione lineare= PSEUDO R.
.denota il valore massimizzato della funzione di logverosimiglianza ottenuto incorporando nel modello(probit o logit) il solo termine costante(imponendo il vincolo che tutti i coefficienti delle variabili xik siano pari a 0).
Il massimo vincolato di 1 funzione nn può essere maggiore del massimo nn vincolato:


Il valore 1 nn può mai essere raggiunto dal momento che nn si verifica mai la condizione
La bontà del modello può essere valutata attr. il TRV x H0 ke tt i coeff. Tranne la costante siano =0:
; k restrizioni; TRV= -2 x
Previsione e valutazione della capacità previsiva:
yi= c=

1 indicatore della capacità di classificare le osservazioni/capacità previsiva del modello è la percentuale di osservazioni correttamente classificate:

Nessun commento:

Posta un commento