Etikettarkiv | Statistik

QGIS 2.10 Statistik

Igår berörde jag den mest påtagliga visuella förändringen i QGIS, nämligen lagereffekter.

I övrigt så känns gränssnittet igen väldigt mycket. Det enda jag kan hitta så här långt är faktiskt en ny panel och en funktion som berör statistik.

Skärmbild från 2015-06-01 18:52:37I bilden ovan har jag valt ut alla byggnader i Eksjö från Open Street Map och skrivit in ett uttryck för den statistiska beräkningen, nämligen area.

Det går att ta bort statistikrubriker från listan om man vill, men här har jag med alla.

Första gången jag gjorde detta så blev det konstiga värden, vilket berodde på att lagret var lagrat i WGS84 och inte projicerat i exempelvis SWEREF99TM. Rätt projicerat så går det att se att det finns 1174 byggnader i urvalet och att den totala byggnadsytan är drygt en halv miljon kvadratmeter. I snitt är en byggnad 440 kvadratmeter medan den enskilt minsta är ca 8 och den största över 26’000.

Statistik kan beräknas på valfritt attribut (som det går att få statistik ur), eller som här genom ett uttryck.

Nu skall jag leta vidare efter nyheter och förbättringar…

Använda Textfält i Intervall

I QGIS kan man välja stilen ”Intervall” för att exempelvis med en färgramp skapa symboler som går gradvis från en nyans till en annan beroende på värdet i fältet.

En förutsättning är att det är ett numeriskt värde… eller?

När jag hämtade hem statistik från IMF så formaterades dessa som text vilket inte blir användbart om jag skall visualisera data gradvis för jämförelser mellan nationer.

När jag råkat ut för detta tidigare så har jag suckat lite och sedan skapat egna attribut med rätt datatyp, baserade på värdet i textfälten.

Helt onödigt i QGIS!

Screenshot from 2014-12-06 17:55:19Det går fortfarande bara att välja fält som innehåller numeriska värden, men det går att skriva in ett uttryck också. Genom att helt enkelt skriva in ”toreal()” så talar jag i princip om för QGIS att programmet helt enkelt skall tolka värdet i det aktuella fältet som ett numeriskt decimalvärde.

Vill man ”tolka” ett värde som heltal så skriver man i stället ”toint()” runt fältnamnet.

Varför har jag inte tänkt på detta tidigare?

Nåja, det kanske finns fler där ute som är lika korkade som jag och inte tänkt på detta tidigare därav detta korta tips.

Vi tror på färg

Detta inlägg är inspirerat av en artikel med rubriken ”We Put 700 Red Dots On A Map” där man diskuterar vår fascination för kartor och vad symboler på dessa kan representera, och sedan lite mindre specifikt att ”vår nation har problem” och ”hur går vi vidare” etc, så artikeln tillför inte så mycket i övrigt.

Jag tänkte ta ett svenskt perspektiv på detta och försöka visa på att fascinationen och känslorna runt statistik är starka även här, trots att vi kanske inte är så medvetna om det.

Hur lite färg och ett skickligt hantverk kan uppröra, sprida glädje eller okunskap, men även informera och utbilda vid en ärlig och objektiv användning.

statistik1I bilden ovan så dras man direkt till rubriken, som är lätt att tolka. Nästa steg blir att granska bilden översiktligt och då det saknas en ”nyckel” eller teckenförklaring så bildar man sig själv snabbt en personlig uppfattning om hur bilden skall tolkas. Sedan använder man denna tolkning för att hitta platser eller liknande som man är intresserad av, och så blir man upprörd, glad eller i bästa fall ifrågasättande till det som presenteras.

statistik2Det lustiga är att om den initiala tolkningen av vad det är man ser förstärker det man redan trodde sig veta eller misstänkte, så ifrågasätter man inte statistiken i samma utsträckning som om det talar emot den uppfattning man tidigare haft.

Valet av färger och fördelning av data är verktyg jag som tillverkare av dessa kartor kan använda för att dessutom vinkla statistiken till ett syfte som passar mig. Med en väl vald rubrik, en anpassad färgskala och en noga vald indelning av statistiken kan jag styra hur du skall uppfatta det du ser i kartan. Vill jag att något skall framhävas som dåligt i förhållande till något bra så använder jag exempelvis trafikljusfärger, rött, gult och grönt. Använder jag en ljus till mörk skala så kan jag vända på den om det förstärker mitt syfte.

statistik5Om man dessutom avsiktligt är vag i sina beskrivningar så kan man likt rubriksättare i tabloidpressen styra läsaren till innehåll som egentligen inte är så intressanta eller värdefulla, bara genom att använda starka ord eller antyda att det finns en koppling till ett aktuellt ämne.

I bilderna ovan så har jag använt exakt samma data och samma värden, men ändrat färgskalor och fördelningen på olika sätt. Rubrikerna har jag valt helt godtyckligt, utan att försöka provocera för mycket, men ni förstår säkert principen.

Vad det egentligen är för statistik?

statistik4Det är helt enkelt det antal tecken som kommunens namn (enligt SCB data) innehåller. Med andra ord i det närmaste nonsens, men hur reagerade du när du tittade på kartorna ovan?

Som konsument kan man aldrig vara säker på vilket syfte tillverkaren av en statistisk karta har haft. Saknas det källhänvisningar, tabeller eller teckenförklaringar så bör man med all rätt vara kritisk i sin granskning. Även om det finns tydliga hänvisningar till en källa, så är det heller inte säkert att dessa data framställts på ett särskilt vetenskapligt sätt, vilket kan vara betydligt svårare att kontrollera. I bland får man helt enkelt bedöma om källan brukar vara trovärdig, om det är data man ifrågasätter.

Om man som karttillverkare försöker vara objektiv och tydlig så är dock statistik på kartor väldigt hjälpsamma när det gäller att belysa statistiska förhållanden där alternativet är ändlösa tabeller med siffror i oklara skalor. Men även om det är du själv som gör kartan så kan man bli lurad av resultatet. Budskapet blir därför:

  1. Använd kartan som hjälpmedel för att visualisera statistik, men var ärlig och tydlig.
  2. Gör det enkelt för konsumenten att själv kontrollera uppgifterna.
  3. Som konsument så skall man även vara uppmärksam på varningssignaler som:
    • alarmerande rubriker,
    • extrema färger samt framför allt
    • avsaknad av teckenförklaringar och källhänvisningar.

Underbara statistik!

Få saker kan få ”snålvattnet” att rinna som stora mängder statistik, om man är GIS intresserad (undrar hur Google translate översatte den meningen?).

Nu har jag hittat en sida som får detta snålvatten att likna Amazonas.

Screenshot from 2014-10-26 10:45:28Klicka på bilden för att gå till sidan.

Här finns massor med olika data och statistik som i många fall passar utmärkt att visualisera med QGIS. Jag tänkte här visa några exempel som jag slängt ihop som hastigast.

googlestatsI kartan ovan har jag lite slarvigt slängt ut statistik från Google om hur många begäran om utlämnande av uppgift som inkommit från olika länder under de första sex månaderna 2014. För att ge en rättvis bild så hade jag behövt slå ihop den delning som görs av begäran från USA. Dessa är indelade i ”Akuta uppgiftsutlämnanden” (171), ”Order om nummerregistrering” (165), ”Husransakningsorder” (3187), ”Order om avlyssning” (7), ”Övriga domstolsbeslut” (798) och ”Stämning” (8211), vilket om man rakt av summerar dessa blir 12539 st… Det finns mer statistik i denna tabell så jag vill inte dra några slutsatser av just detta, det får du själv göra.

Tabellen finns dessutom att hämta från Google på adressen http://www.google.com/transparencyreport/userdatarequests/data/.

Internetanvändare2012Från Världsbanken kan man hämta massor med statistik. I kartan ovan har jag valt andel Internetanvändare per 100 invånare. Vissa länder har låga siffror, men detta skall inte enbart kopplas till fattigdom. Annan statistik gör exempelvis gällande att andelen unga barn, som kanske normalt sett inte använder Internet, är ofta mycket hög i dessa länder. Man kanske därför bör koppla denna typ av statistik även till övrig demografi?

webbindexJag avslutar med en karta med ranking av 81 länder och hur dessa använder Internet. Jag har inte analyserat detaljerna utan konstaterar bara att Sverige är nummer 1.

Reflektioner av valresultatet

(Hoppsan! Här har artiklar publicerats i lite fel ordning, den artikel som refereras till som skulle publicerats igår publiceras i morgon i stället)

Igår I morgon tittar jag lite på hur man kan läsa in statistik från valresultatet och visualisera detta i QGIS.

Idag tänkte jag ta upp några intressanta resultat när man tittar lite närmare på siffrorna.

Men först! I inlägget så ger jag statistiska exempel och spekulativa förklaringar på orsakerna. Den som är intresserad måste själv värdera resultatet och dra egna slutsatser. Statistiken är baserad på valresultatet i Riksdagsvalet fördelat på valkretsar, och inga andra statistiska uppgifter har vägts in och därför skall slutsatser inte tas för givet.

Screenshot from 2014-10-11 16:43:44Diagrammen är färgsatta enligt ovan och valdistrikten i övrigt är färgsatta efter om det är majoritet för Alliansen, Regeringsalternativet, eventuellt med stöd av vänstern, samt övriga.

För det första så har exempelvis Eksjö fortsatt styre av Alliansen, men det beror inte så mycket på att man är småborgerliga inne i staden, utan mera på att Centern är stark på landsbygden, om man får tolka bilden nedan lite fritt.

Screenshot from 2014-10-11 16:06:24Om man i stället tittar på exempelvis Linköping så framträder en bild som skulle kunna tolkas som att staden är väldigt segregerad eftersom man röstar väldigt olika i olika valdistrikt.

Screenshot from 2014-10-11 16:09:53Samtidigt så verkar inte exempelvis SD vara speciellt överrepresenterade så en eventuell segregation är sannolikt ekonomisk eller ideologisk, men vad vet jag? Jag bara spekulerar nu…

I Malmö är spridningen liknande:

Screenshot from 2014-10-11 16:13:07Till skillnad från Linköping så kan man här se ett mera varierat stöd för SD, vilket skulle kunna tyda på att segregationen kan ha andra orsaker.

Tendenserna med att man röstar olika i olika delar av städer upprepar sig på många platser, men det känns inte som att det är lika stor spridning i huvuddelen av fallen, men det är svårt att bedöma utifrån statistiken. Det är heller inte främst större städer där det är vanligt. I bilden nedan finns exempelvis Ronneby som också uppvisar liknande tendenser.

Screenshot from 2014-10-11 16:28:09

I statistiken finns även information om valdeltagande. Om detta kan man också dra förhastade slutsatser men det går exempelvis att jämföra den tidigare bilden från Malmö och lägga på valdeltagande för att få fram en ny bild som det kanske går att reflektera över.

Screenshot from 2014-10-11 16:54:05Till skillnad från den tidigare spekulationen om segregation så verkar lågt valdeltagande vara nästan uteslutande ett storstadsfenomen. Det finns undantag där exempelvis Byske i Skellefteå kommun har mycket lågt valdeltagande.

Screenshot from 2014-10-11 18:14:29Områden med lägre än 55 procents valdeltagande visas i bilden nedan (berörda områden är förstorade för att synas).

Screenshot from 2014-10-11 18:29:48När man tittar närmare på ett valresultat på det här sättet så uppträder det en hel del mönster, där jag belyst endast några stycken här. Oavsett hur man väljer att tolka resultatet så kan det här finnas massor med viktig information att ta del av och analysera inte minst ur ett kommunalt perspektiv om man exempelvis drar slutsatsen att det finns segregationer i samhället.

Valresultat 2014

Då var det röstat och klart, det preliminära resultatet levererades igår och sluträkningen påbörjas nu i samma stund som detta publiceras.

I resultatet från natten så finns exempelvis inte alla poströster medräknade och man har heller inte räknat de röster på partier som man inte bedömt få något mandat i resultatet. Man har heller inte räknat några personröster ännu.

På onsdag så väntas ett nytt mera exakt men fortfarande preliminärt valresultat, man kallar detta för ett uppdaterat valresultat.

Det slutgiltiga resultatet som räknas på en annan plats av annan personal beräknas vara klart till på fredag. I alla fall när det gäller val till Riksdagen.

http://www.val.se/ kan man följa resultatet på olika sätt, inte minst på en karta.

Successivt så kommer statistik att bli tillgänglig och då börjar det roliga GIS-arbetet med att se om det går att dra några slutsatser baserade på geografiska betingelser.

Jag har gjort detta tidigare och tänkte passa på att hänvisa till några inlägg:

Val 2014

Statistik, sanning eller förbannad lögn?

Militärutgifter

För ett tag sedan skrev jag på digital-geography.com om militära utgifter för olika länder och hur man använder QGIS för att visualisera denna typ av data. Nu tänkte jag göra något liknande här.

Data kommer från Stockholm International Peace Research Institute – SIPRI och går att ladda hem fritt (läs licensvilkoren) i xlsx-format.

För att vara användbart i QGIS så funkar inte xlsx och det behöver fixas några saker till för att det skall fungera på ett bra sätt.

Screenshot from 2014-07-24 11:18:11

Jag tänker använda militära utgifter som procent av BNP (GDP) och målsättningen är att skapa en ”tab” separerad textfil med rubriker och något referensfält. Till att börja med så finns det en hel del icke-numeriska tecken i tabellen som måste bort. Dessa ersätts med ”ingenting” via en enkel ”sök och ersätt” funktion. Ta bort såväl ”. .” som ”xxx”, men även något enstaka ”..”.

Kolumnen Notes behöver jag inte och den innehåller dessutom en massa konstiga tecken så ta bort hela den kolumnen.

Rubriker kan inte börja med en siffra så lägg till ”Y” före varje årtal.

De första fem raderna är onödiga, och även om det inte är nödvändigt att ta bort dem så gör jag det, tillsammans med några kommentarsrader längst ned i tabellen.

För att koppla data till landsplygoner så behövs ett gemensamt attribut. ”Country” skulle fungera om inte stavningen och sättet att skriva ut olika namn skilde sig. Nu går det ju att rätta alla namn, men jag tycker att det finns ett bättre sätt.

Många polygoner har ett attribut för landskod enligt FIPS eller ISO, i det här fallet har jag valt FIPS eftersom mina geodata har detta attribut.

Jag skapar helt enkelt en ny kolumn längst till vänster och infogar dessa FIPS-koder för varje land. Vill du inte göra detta själv så kan du öppna min textfil och markera och kopiera allt samt klistra in det i den översta rutan i den nyss skapade kolumnen. Glöm inte att kontrollera så att alla rader hamnar på rätt ställe. Jag har angett koden ”XX” på några ställen men det är för att dessa inte finns som standard eller saknas på annat sätt.

Screenshot from 2014-07-24 11:39:51

Det färdiga kalkylarket sparas som ”CSV” och i Libre Office så skall man se till att markera ”redigera filterinställningar” innan man trycker på spara.

Screenshot from 2014-07-24 11:41:53

Eftersom jag har ”komma” som decimaltecken så väljer jag att använda {Tabb} som fältavgränsare (bild ovan), sedan sparar jag filen med ett klick på OK.

Mitt polygonlager är från 2012 och är hämtat från geocommons.com och innehåller som sagt FIPS-koder för varje land.

Screenshot from 2014-07-24 11:52:31

I QGIS så ”lägger jag till separerad textfil” med rätt knapp och söker rätt på min csv-fil. Jag ser till att ”Tabb” är inställd som separerare, att första raden är rubriker och att decimaltecknet är ett komma. Dessutom så måste jag ange att filen inte har någon geometri innan det går att importera.

I lageregenskaperna för polygonlagret med länder så lägger jag sedan till en ”Sammanslagning” med textfilen och kontrollerar att sammanslagningen görs på attributet ”FIPS_CNTRY” i båda filerna (förutsatt att du följt instruktionerna tidigare).

Sedan kan man laborera lite med stilar och etiketter och skapa olika lager för olika år, etc.

MilExpEurope.jpg

I bilden ovan så har jag färglagt länderna så att ju mörkare nyans desto större andel av BNP satsar man. Dessutom så skriver jag ut procentsatsen och lägger till ett diagram som illustrerar ändringen över tiden. Den vänstra stapeln representerar 1993, den i mitten 2003 och den högra 2013.

Om man använder samma metod för flera av bladen i kalkyldokumentet så kan man illustrera ytterligare data:

MilExpdollarpercapita

Dollar per Capita (per person)

MilExpdollartotal

Dollar totalt (omräknat i 2011 års dollarvärde)

Vem i världen lägger då mest på försvarsutgifter? Det får du faktiskt ta reda på själv genom att följa instruktionerna i detta inlägg. Lycka till!