Wednesday, October 12, 2016

Bewegende Gemiddelde Stata Ucla

Welkom by die Instituut vir digitale Navorsing en Onderwys SAS Vrae: Hoe kan ek lag te skep en lei veranderlikes in longitudinale data As jy op soek na inligting oor konsekwent eenhede van tyd (jare, kwartiere, maande), is daar dikwels belangstelling in die skep van veranderlikes op grond van hoe data vir 'n gegewe tydperk kan vergelyk word met die tydperke voor en na. As jy 'n longitudinale data, wat jy wil om te kyk oor eenhede van tyd binne 'n enkele onderwerp. Wanneer jou data in 'n lang vorm (een waarneming per keer punt per vak), hierdie kan maklik in Stata hanteer standaard veranderlike skepping stappe as gevolg van die manier waarop Stata prosesse datastelle: dit die hele datastel winkels en kan maklik na enige wys in die datastel wanneer genereer veranderlikes. SAS werk anders. SAS veranderlikes is tipies geskep deur 'n data stap waarin SAS beweeg deur die dataset, waarneming deur waarneming, die uitvoering van die berekeninge vir die gegewe waarneming en toegang tot slegs een waarneming in 'n tyd. Hierdie stelsel van die stoor van data en toegang maak dit moontlik vir SAS groot datastelle, maar ook baie moeilik om tydreekse veranderlikes in SAS behulp van 'n data stap skep analiseer. Maar processed brei bied 'n maklik-om-te gebruik alternatief vir die data stap. Kom ons begin met 'n voorbeeld dataset met slegs een vak. Die onderstaande datastel bevat Amerikaanse werkloosheid vanaf September 2006 tot Augustus 2008. Vir elke maand, ons wil die verskil tussen die tempo en die tempo van die vorige maand weet (r (i) - r (i-1)), sy koers en die tempo van die volgende maand (R (i1) - r (i)), en hierdie twee verskille ((r (i1) r (i)) - (r (i) r (i-1) ). om dit te doen, sal ons processed gebruik te brei na 'n nuwe datastel insluitend hierdie veranderlikes op te wek. In die processed brei lyn, ons sal die nuwe dataset unemplaglead noem. ons dui daarop dat ons nie wil die waardes te transformeer (met behulp van 'n spline, byvoorbeeld), maar net om die ongetransformeerde data van die gespesifiseerde rekord gryp. ons dui daarop dat ons tyd reeks word gedefinieer volgens datum in die ID-lyn en in die drie omskep lyne, skep ons die drie waardes wat ons wil hê vir elke keer punt in ons data: die tempo, die vorige koers (ratelag1), en die volgende koers (ratelead1) in elke lyn, ons vertel SAS die naam van die veranderlike in ons nuwe dataset, die tipe transformasie (lag lei.) en die getal. tyd punte om terug of vorentoe vir die transformasie (1 in hierdie voorbeeld) lyk. Ons kan die gevolglike dataset sien. Op grond van hierdie datastel, kan ons nou maklik bereken die drie tydreekse veranderlikes ons vroeër beskryf. Maar wat as ons het data vir verskeie lande Die dataset hieronder bevat werkloosheid data van 2000-2005 vir drie lande. Ons wil lag in elke land te skep en lei veranderlikes. Om dit te doen, kan ons processed gebruik te brei met 'n deur verklaring na sortering op land. Met processed uit te brei. Jy kan ook genereer bewegende gemiddeldes, splines, en geïnterpoleer waardes. Vir meer besonderhede, sien die processed brei bladsye van die SAS Online dokumentasie. Hierdie datastruktuur is nogal ongeskik vir doel. Die aanvaarding van 'n identifiseerder ID wat jy nodig het om te hervorm. bv Dan is maklik 'n bewegende gemiddelde. Gebruik tssmooth of net op te wek. bv Meer oor hoekom jou datastruktuur is nogal ongeskik: Nie net sou berekening van 'n bewegende gemiddelde het 'n lus (nie noodwendig wat egen), maar jy sal skep 'n hele paar nuwe ekstra veranderlikes. Die gebruik van dié in enige daaropvolgende ontleding sal iewers tussen ongemaklike en onmoontlik wees. EDIT Siek gee 'n voorbeeld lus, terwyl dit nie die beweging van my standpunt dat dit swak tegniek. Ek dont sien 'n rede agter jou naamkonvensie waardeur P1947 is 'n gemiddelde vir 1943-1945 Ek neem aan dis net 'n tikfout. Kom ons veronderstel dat ons data vir 1913-2012. Vir middel van 3 jaar, verloor ons 'n jaar aan elke kant. Dit kan meer saaklik geskryf, ten koste van 'n vlaag van makros binne makros. Die gebruik van ongelyke gewigte is maklik, soos hierbo. Die enigste rede om egen gebruik is dat dit nie die geval tou opgooi as daar missings, wat die bogenoemde sal doen. As 'n saak van volledigheid, daarop te let dat dit maklik is om missings hanteer sonder om Egen. en die deler As alle waardes ontbreek, dit verminder tot 0/0, of ontbreek. Andersins, indien enige waarde ontbreek, ons voeg 0 tot die teller en 0 om die deler, wat dieselfde is as ignoreer dit. Natuurlik die kode is redelik soos hierbo vir gemiddeldes van 3 jaar, maar óf vir so 'n geval of vir 'n gemiddelde oor meer jare, sal ons die lyne hierbo te vervang deur 'n lus, en dit is wat egen does. Stata: Data-analise en statistiese sagteware Nicholas J . Cox, Durham Universiteit, die Verenigde Koninkryk Christopher Baum, Boston College egen, MA () en sy beperkinge Statarsquos mees voor die hand liggend bevel vir die berekening van bewegende gemiddeldes is die ma () funksie van egen. Gegewe 'n uitdrukking, dit skep 'n - periode bewegende gemiddelde van daardie uitdrukking. By verstek, is geneem as 3. moet vreemd wees. Maar, soos die handleiding inskrywing dui, egen, MA () mag nie gekombineer word met die varlist:. en, net vir hierdie rede is dit nie van toepassing op paneel data. In elk geval, dit staan ​​buite die stel instruksies wat spesifiek vir tydreekse geskryf sien tydreekse vir meer inligting. Alternatiewe benaderings tot bereken bewegende gemiddeldes vir paneel data, is daar ten minste twee keuses. Beide is afhanklik van die dataset nadat vooraf tsset. Dit is baie moeite werd te doen: nie alleen kan bespaar jy jouself herhaaldelik spesifiseer paneel veranderlike en tyd veranderlike, maar Stata optree slim enige gapings in die data gegee. 1. Skryf jou eie definisie met behulp genereer Gebruik time-reeks operateurs soos L. en F.. gee die definisie van die bewegende gemiddelde as die argument om 'n te genereer verklaring. As jy dit doen, jy, natuurlik, nie beperk tot die gelyke gewigte (ongeweegde) gesentreer bewegende gemiddeldes bereken deur egen, MA (). Byvoorbeeld, ewe-geweeg drie-tydperk bewegende gemiddeldes sal deur gegee word en 'n paar gewigte kan maklik gespesifiseerde: Jy kan natuurlik, spesifiseer 'n uitdrukking soos log (myvar) in plaas van 'n veranderlike naam soos myvar. Een groot voordeel van hierdie benadering is dat Stata doen outomaties die regte ding vir paneel data: voorste en agter waardes uitgewerk binne panele, net soos logika dikteer hulle behoort te wees. Die mees noemenswaardige nadeel is dat die command line eerder lank kan kry as die bewegende gemiddelde behels verskeie terme. Nog 'n voorbeeld is 'n eensydige bewegende gemiddelde wat slegs gebaseer is op vorige waardes. Dit kan nuttig wees vir die opwekking van 'n aangepaste verwagting van wat 'n veranderlike sal suiwer gebaseer op inligting tot op hede: wat kan iemand voorspelling vir die huidige tydperk gebaseer op die afgelope vier waardes, met behulp van 'n vaste gewig skema (A 4-tydperk lag kan wees veral algemeen gebruik met kwartaallikse tijdreeksen.) 2. gebruik egen, filter () van SSC gebruik die gebruiker geskryf egen funksie filter () van die egenmore pakket op SSC. In Stata 7 (opgedateer na 14 November 2001), kan jy die pakket installeer deur waarna help egenmore punte om besonderhede oor filter (). Die twee voorbeelde hierbo sou word gelewer (In hierdie vergelyking genereer die benadering is dalk meer deursigtig, maar ons sal 'n voorbeeld van die teenoorgestelde in 'n oomblik sien.) Die lags is 'n numlist. lei dat negatiewe lags: in hierdie geval -1/1 brei om -1 0 1 of lei 1, lag 0, lag 1. Die Coëf ficients, 'n ander numlist, vermeerder die ooreenstemmende sloerende of leidende items: in hierdie geval die items is F1.myvar. myvar en L1.myvar. Die effek van die opsie normaliseer is aan elke koëffisiënt skaal deur die som van die koëffisiënte sodat Coëf (1 1 1) normaliseer is gelykstaande aan koëffisiënte van 1/3 1/3 1/3 en Coëf (1 2 1) normaliseer is gelykstaande om koëffisiënte van 1/4 1/2 1/4. Jy moet nie net die lags, maar ook die koëffisiënte spesifiseer. Omdat egen, MA () gee die ewe geweegde geval, die belangrikste rasionaal vir egen, filter () is om die ongelyk geweegde geval, waarvoor jy moet koëffisiënte spesifiseer ondersteun. Dit kan ook gesê word dat die verpligting om gebruikers te koëffisiënte spesifiseer 'n bietjie ekstra druk op hulle om te dink oor wat koëffisiënte wat hulle wil. Die belangrikste rede vir gelyke gewigte is, ons dink, eenvoud, maar gelyke gewigte het gemeen frekwensiedomein eienskappe, om net 'n oorweging te noem. Die derde voorbeeld hierbo kan óf waarvan net omtrent so ingewikkeld as die genereer benadering. Daar is gevalle waar egen, filter () gee 'n eenvoudiger formulering as genereer. As jy 'n nege-termyn binomiaal filter, wat klimatoloë nuttig vind wil, kyk dan miskien minder aaklig as, en makliker om reg as kry, net soos met die genereer benadering, egen, filter () werk behoorlik met paneel data. Trouens, soos hierbo genoem, dit hang af van die dataset nadat vooraf tsset. 'N Grafiese punt Na die berekening van jou bewegende gemiddeldes, sal jy waarskynlik wil hê om te kyk na 'n grafiek. Die gebruiker geskrewe tsgraph is slim oor tsset datastelle. Installeer dit in 'n up-to-date Stata 7 deur SSC Inst tsgraph. Wat van subsetting met as een van die bogenoemde voorbeelde maak gebruik van as beperkings. Om die waarheid te egen, sal ma () nie toelaat dat indien gespesifiseer word. Soms mense wil gebruik as die berekening bewegende gemiddeldes, maar die gebruik daarvan is 'n bietjie meer ingewikkeld as wat dit is gewoonlik. Wat sou jy verwag van 'n bewegende gemiddelde bereken met as. Kom ons identifiseer twee moontlikhede: Swak interpretasie: Ek dont wil enige resultate vir die uitgesluit Waarnemings sien. Sterk interpretasie: Ek dont selfs wil hê jy moet die waardes vir die uitgesluit waarnemings. Hier is 'n konkrete voorbeeld. Veronderstel as gevolg van 'n paar as voorwaarde, waarnemings 1-42 ingesluit maar nie Waarnemings 43 op. Maar die bewegende gemiddelde vir 42 sal afhang, onder andere, op die waarde vir waarneming 43 as die gemiddelde strek heen en weer en is van lengte ten minste 3, en dit sal op soortgelyke wyse afhanklik van 'n paar van die waarnemings 44 en verder in sekere omstandighede. Ons raaiskoot is dat die meeste mense sal gaan vir die swak interpretasie, maar of dit korrek is, beteken egen, filter () nie ondersteun as óf. Jy kan altyd ignoreer wat jy donrsquot wil of selfs ongewenste waardes stel om daarna ontbreek deur die gebruik van te vervang. 'N Nota oor vermiste resultate aan die einde van 'n reeks Omdat bewegende gemiddeldes is funksies van sloerings en lei, egen, MA () produseer ontbreek waar die lags en lei nie bestaan ​​nie, aan die begin en einde van die reeks. 'N opsie nomiss dwing die berekening van korter, uncentered bewegende gemiddeldes vir die sterte. In teenstelling hiermee het nie genereer word nie egen, filter () doen, of laat, niks spesiaal ontbreek resultate te vermy. Indien enige van die waardes wat nodig is vir die berekening ontbreek, dan is dit gevolg ontbreek. Dit is aan gebruikers om te besluit of en watter korrektiewe chirurgie nodig is vir sulke waarnemings, vermoedelik na te kyk na die datastel en die oorweging van enige onderliggende wetenskap wat tot bear. Smoothing gebring kan word: Lowess Ons sal saam met die data van die Colombia WFS Huishoudelike Opname , wat in 1975-1976. Ek getabuleer die ouderdomsverspreiding van alle lede van die huishouding en gered word in 'n ascci lêer, wat ons nou lees en plot: Soos jy kan sien, die verspreiding lyk ietwat minder glad as die data van die Filippyne wat ons vroeër bestudeer. Kan jy bereken die Myers-indeks vir hierdie verdeling Running beteken en Lines Die eenvoudigste manier om 'n PUNTEDIAGRAM glad is om 'n bewegende gemiddelde gebruik. ook bekend as 'n lopende gemiddelde. Die mees algemene benadering is om 'n venster van 2k 1 waarnemings te gebruik, k aan die linkerkant en k aan die regterkant van elke waarneming. Die waarde van k is 'n kompromis tussen gladheid van passingstoetse. Spesiale sorg moet geneem word by die uiterstes van die reeks. Stata kan bereken hardloop middel via lowess met die opsies beteken en noweight. 'N Algemene probleem met die bestuur middel is vooroordeel. 'N Oplossing is om gewig wat meer waarde aan die naaste bure en minder te gee aan diegene verder weg te gebruik. 'N Gewilde gewig funksie is Tukeys Tri-kubus, gedefinieer as w (d) (1-D 3) 3 vir d LT 1 en 0 anders, waar d die afstand na die teiken punt uitgedruk as 'n fraksie van die bandwydte. Stata kan doen hierdie berekening via lowess met die opsie beteken as jy noweight laat. Selfs 'n beter oplossing is om hardlooplyne gebruik. Ons definieer weer 'n woonbuurt vir elke punt, tipies die k naaste bure aan weerskante, pas 'n regressielyn met die punte in die buurt, en dan gebruik dit om 'n gladder waarde vir die indeks waarneming voorspel. Dit klink soos 'n baie werk, maar die berekeninge kan doeltreffend gedoen word met behulp van regressie opdatering formules. Stata kan 'n lopende lyn via lowess bereken as jy bedoel laat maar sluit noweight. Nog beter is om geweegde hardlooplyne gebruik. gee meer gewig aan die naaste waarnemings, en dit is wat die lowess gladder doen. 'N variant volg hierdie skatting met 'n paar iterasies tot 'n meer robuuste lyn te kry. Dit is duidelik die beste tegniek in die familie. Statas lowess gebruik 'n geweegde hardloop lyn as jy weglaat beteken en noweight R implemente die lowess gladder deur die funksies lowess () en die nuwer loess (), wat 'n formule koppelvlak gebruik met een of meer voorspellers en ietwat anders standaard. Die parameter graad beheer die graad van die plaaslike polinoom die verstek is 2 vir kwadratiese, alternatiewe 1 vir lineêre en 0 vir die uitvoer van middel. Beide implementering kan 'n robuuste beramer gebruik, met die aantal iterasies beheer deur 'n parameter iter of iterasies. Tik loess en lowess in die R konsole vir meer inligting. In ggplot () kan jy 'n lowess gladder deur te bel geomsmooth trek () Die onderstaande figuur toon die Colombiaanse data en 'n lowess gladder met 'n span of bandwydte gelyk aan 25 van die data. Jy kan wil om te probeer verskillende badwidths om te sien hoe die resultate wissel. Syfer voorkeur Revisited glad die ouderdomsverspreiding bied 'n beter manier om syfer voorkeur as Myers vermenging te evalueer. Kom ons bereken die laaste syfer van ouderdom en tabuleer dit oor die hele reeks van die data met behulp van die waargenome frekwensies en 'n lowess gladder. Die rou frekwensies toon tekens van voorkeur vir eeue eindig in 0 en 5, en dit is baie algemeen, en waarskynlik 2 sowel. Ons gebruik nou die gladde as gewig Die stryk frekwensies te wys dat ons minder mense verwag by 'n hoër syfers, selfs in 'n gladde verspreiding, met meer eindig in 0 as 9. Ons is nou gereed om 'n indeks van syfer voorkeur, gedefinieer as die helfte van die bereken som van absolute verskille tussen waargenome en gladde frekwensies: ons sien dat ons nodig sou wees om te skommel 5.5 van die waarnemings syfer voorkeur uit te skakel. Dalk wil u hierdie resultaat te vergelyk met die Myers-indeks. afskrif 2016 Germaacuten Rodriacuteguez, Princeton UniversityThe Wetenskap van Vereniging: navorsing, onderrig en Dienslewering in die openbare belang is. UC San Diegos Afdeling Sosiale Wetenskappe is 'n diverse versameling van uitstaande departemente, programme en navorsing eenhede wat fokus op 'n paar van die mees dringende en belangrike kwessies van ons tyd. Die afdeling werk nie wat saak maak, nou en vir die toekoms. Departemente en programme departemente interdissiplinêre programme Ander interdissiplinêre programme en Studies Navorsing Centers Nuus en gebeure goeie skole vir Almal: Wanneer om te oorweeg Spesiale Ed In 'n onlangse Voice of San Diego podcast, 160Shana Cohen160of Onderwys Studies praat oor hoe kinders van verskillende agtergronde soms uiteenlopende vlakke te ontvang dienste vir ontwikkelings gestremdhede. Hou die datum 28 Oktober: Kontekstuele Robotics Forum 2016 Met Andrea Chiba, Virginia de sa and160Ayse Saygin160of Kognitiewe Wetenskap. Sosiale Wetenskappe Dean160Carol Padden160will gee opmerkings. Landmerk Nasionale Studie van adolessente brein nou aan die gang Die adolessente brein Kognitiewe Ontwikkeling studie sal volg 10,000 kinders vir 10 jaar, in vroeë volwassenheid. UC San Diego Interdissiplinêre Initiative160Hiring160 Die universiteit is die launch van 'n kampuswye inisiatief om verblyfreg-spoor of die vaste fakulteit navorsing te doen met die breë doel van die begrip van menslike kennis, leer en kreatiwiteit te huur. Nasies No 1 Openbare Universiteit UC San Diego is ingedeel die nommer een openbare universiteit in die land vir die versorging van die openbare belang, deur Washington Maandeliks.


No comments:

Post a Comment