DatorerInformationsteknik

Modern datorseende. Uppgifter och datorseende teknik. Programmering Datorseende i Python

Hur du lär en dator att förstå vad som visas i bild eller bilder? Detta verkar enkelt, men för en dator är bara en matris som består av nollor och ettor som du vill extrahera viktig information.

Vad är datorseende? Det är förmågan att "se" din dator

Vision - är en viktig källa till information för den person som använder det, vi får, enligt olika uppskattningar, från 70 till 90% av all information. Och naturligtvis, om vi vill skapa en smart bil, måste vi genomföra samma kompetens och dator.

Problemet med datorseende kan anges tydligt. Vad är "se"? Det är underförstått att där det är bara genom att titta. Som avslutade skillnaderna i datorseende och mänskliga ögat. Vision för oss - det är en källa till kunskap om världen, liksom en källa till metrisk information - det vill säga förmågan att förstå avstånden och storlekar.

Semantisk kernel image

Om man tittar på bilden, kan vi beskriva det med ett antal attribut, så att säga, för att extrahera semantisk information.

Till exempel tittar på den här bilden, kan vi säga att det är utomhus. Vad är stadstrafik. Att det finns bilar. Vi kan gissa att detta är Sydostasien på konfigurationen av byggnaden och hieroglyfer. Porträttet av Mao Zedong förstår att detta är Peking, och om någon såg live-video eller själv hade varit där, skulle gissa att detta är den berömda Himmelska fridens torg.

Vad vi kan säga mer om bilden, ser det? Vi kan identifiera objekt i bilden, för att säga, att det finns människor här närmare - staket. Här paraplyer, att byggnadens affischer. Dessa är exempel på klasser är mycket viktiga föremål som är engagerade i sökandet efter tillfället.

Ändå kan vi lära en del av de funktioner eller attribut av föremål. Till exempel, här kan vi konstatera att detta inte är ett porträtt av en vanlig kinesiska, nämligen Mao Zedong.

Enligt fordonet kan bestämmas att det är ett rörligt objekt, och det är svårt, som ej deformeras under rörelsen. Om flaggor kan sägas att det objekt, de är också i rörelse, men de är inte svårt, ständigt deformerad. Och i scenen finns vinden, vilket kan fastställas genom att utveckla flaggor, och kan även bestämma riktningen av vinden, till exempel, är det blåser från vänster till höger.

Avstånden och längder i datorseende

Mycket viktigt är det metriska information om datorseende vetenskap. Detta är alla typer av avstånd. Till exempel för rover är särskilt viktigt eftersom lagen är från jorden ca 20 minuter och svara så mycket. Således länken dit och tillbaka - 40 minuter. Och om vi gör en plan för rörelse kommandon på jorden, måste du ta hänsyn till detta.

Framgångsrikt integrerat tekniken för datorseende i videospel. Enligt videon kan du bygga tredimensionella modeller av föremål, människor och bilder på användaren kan återställa tredimensionella modeller av städer. Och sedan gå på dem.

datorseende - ett ganska stort område. Det är tätt sammanflätad med olika andra vetenskaper. En del av datorseende Den fångar bildbehandlingsområdet och ibland tilldelar datorseende, historiskt.

Analys, mönsterigenkänning - vägen till skapandet av överlägsen intelligens

Låt oss undersöka dessa koncept separat.

Bildbehandling - detta är ett område av algoritmer, där ingång och utgång - image, och vi har honom göra något.

bildanalys - är den del av datorseende, som fokuserar på att arbeta med den tvådimensionella bilden och dra slutsatser av detta.

Pattern Recognition - en abstrakt matematisk disciplin som erkänner data i form av vektorer. Det vill säga, vid ingången - vektor och vi har något att göra med det. Där vektorn är att vi inte är så viktigt att veta.

Datorseende - det ursprungligen var att återställa strukturen av tvådimensionella bilder. Idag är detta område har blivit bredare och det kan tolkas som ett godkännande av alla de fysiska objekt gör, baserat på bilden. Det vill säga, det är uppgiften av artificiell intelligens.

Parallellt med datorseende på ett helt annat område, i geodesi har fotogrammetri utvecklats - en mätning av avståndet mellan objekt på tvådimensionella bilder.

Robotar kan "se"

Och slutligen - är denna maskin vision. Under maskinvision innebär en vision av robotar. Det är beslutet vissa produktionsproblem. Vi kan säga att datorseende - är en stor vetenskap. Den kombinerar några av de andra vetenskapsdelen. Och när datorseende får någon speciell applikation, omvandlar den till en maskin vision.

Datorseende regionen har en massa praktiska tillämpningar. Det är förknippat med automatisering av produktionen. Vid företagen blir mer effektivt att ersätta manuellt arbete med maskin. Maskinen blir inte trött, inte sova, hon hade oregelbunden arbetsschema, är hon beredd att arbeta 365 dagar om året. Så använder maskinen arbete, kan vi få en garanterad resultat vid en viss tidpunkt, och det är ganska intressant. Alla uppgifter har en tydlig användning för datorvisionsystem. Och det finns inget bättre än att se resultatet direkt på bilden endast i beräkningen stadiet.

På tröskeln till en värld av artificiell intelligens

Plus området - det är svårt! En betydande del av hjärnan som ansvarar för syn, och man tror att om du lär din dator att "se", det vill säga fullt utnyttjande datorseende, det är ett av målen för fullt artificiell intelligens. Om vi kan lösa problemet på det mänskliga planet, troligen samtidigt kommer vi att lösa problemet med AI. Det är mycket bra! Eller inte särskilt bra, om man ser "Terminator 2".

Varför är visionen - det är svårt? Eftersom bilden av samma objekt kan variera mycket beroende på yttre faktorer. Beroende på syftet med observationspunkter ser annorlunda ut.

Till exempel, en och samma figur, tagna från olika vinklar. Och vad som är mest intressant i figuren kan vara en halv ett öga, två ögon och. Och beroende på sammanhanget (om denna bild av människan i en skjorta med målade ögon), ögat kan vara mer än två.

Datorn fortfarande inte förstår, men det "ser"

En annan faktor som gör det svårt - det är belysningen. Samma scen med olika belysning kommer att se annorlunda ut. objektstorlek kan variera. Dessutom de objekt av någon klass. Hur kan du säga om en man som hans höjd av 2 meter? Ingenting. Mänsklig tillväxt och kan vara 2,3 m och 80 cm. I likhet med andra typer av föremål är emellertid objekt av samma klass.

Särskilt levande föremål genomgå en mängd olika stammar. Hår Människor, idrottare, djur. Titta på bilder av hästar körs, avgöra vad som händer med deras man och svans är helt enkelt omöjligt. En överlappande föremål i en bild? Om du skjuta en datorbild, även de mest kraftfulla maskin har svårt att ge rätt beslut.

Nästa vy - det är en förklädnad. Vissa föremål, djur maskering som miljö, och ganska skickligt. Och samma fläckar och färgämnen. Ändå ser vi dem, men inte alltid på avstånd.

Ett annat problem - rörelsen. Föremål i rörelse otänkbart undergår deformation.

Många av föremålen är mycket varierande. Här, till exempel, i de två bilderna nedan föremålet för "stol".

Och på detta kan du sitta. Men att lära en maskin, så att de olika sakerna i form, färg, material, är allt ett objekt "stol" - är mycket svårt. Detta är utmaningen. Att integrera metoder för datorseende - är att lära en maskin för att förstå, analysera, spekulera.

Integration av datorseende i olika plattformar

Massan av datorseende började tränga 2001, då han skapade den första ansiktsdetektorn. Vi gjorde det två författare: Viola, Jones. Det var den första snabb och tillräckligt tillförlitlig algoritm, som visade kraften i maskininlärningsmetoder.

Nu datorseende har tillräckligt många nya praktiska tillämpningar - erkännande av det mänskliga ansiktet.

Men att känna igen mannen som i filmerna - på måfå vinklar, olika ljusförhållanden - det är omöjligt. Men för att lösa problemet, eller en som är olika människor med olika belysning eller i en annan pose, liknande som i fotografiet i passet, är det möjligt med en hög grad av förtroende.

ett passfoto krav i stor utsträckning på grund av funktionen av ansiktsigenkänning algoritmer.

Till exempel, om du har ett biometriskt pass i vissa moderna flygplatserna kan du använda den automatiska passkontrollen system.

Olöst problem med datorseende - förmågan att känna igen någon text

Kanske någon som används OCR-system. En av dessa - en Fine Reader är mycket populär i RuNet systemet. Det finns många olika former där du fyller i uppgifterna, de är perfekt skannas, informationen känns igen av systemet mycket väl. Men med all text i bilden är situationen mycket värre. Detta problem är fortfarande olöst.

Spel med datorseende, fånga rörelse

Separat stort område - är att skapa tredimensionella modeller och motion capture (vilket är ganska framgångsrikt i datorspel). Det första programmet, som använder datorseende - ett system för interaktion med datorn med hjälp av gester. När det skapades det var en hel del saker öppna.

Algoritmen är konstruerad helt enkelt, men för att konfigurera det tog att skapa en generator av syntetiska bilder av människor att få en miljon bilder. Superdator med dem att välja parametrarna för algoritmen, som han arbetar nu bra.

Det är en miljon bilder och vecka kvantifierbart superdator möjliga tid för att skapa en algoritm som förbrukar 12% av kapaciteten hos en processor och tillåter en person att uppfatta position i realtid. Denna Microsoft Kinect-system (2010).

Sök efter bilder av innehåll låter dig ladda upp bilder till systemet, och resultaten av det kommer att ge alla bilder med samma innehåll och är tillverkade av samma vinkel.

Exempel på datorseende: tredimensionella och tvådimensionella kartor görs nu med det. Kartor för navigation bilar uppdateras regelbundet i enlighet med DVR.

Det finns en databas med miljarder geotaggade foton. Genom att ladda ner bilden i databasen, kan du avgöra var det gjordes, och även med lite perspektiv. Naturligtvis under förutsättning att platsen är nog att populära på en gång turister och gjort ett antal bilder av området har varit där.

robotar är överallt

Robotics i dagsläget, överallt, utan att det på något sätt. Nu finns det fordon som har särskilda kameror som känner igen fotgängare och vägmärken för att överföra kommandon till föraren (detta på ett sätt ett datorprogram för att visa, hjälper bilisten). Och det finns en helt automatiserad robotfordon, men de kan inte enbart förlita sig på videokamerasystemet utan användning av en stor mängd ytterligare information.

Modern kamera - detta är en analog camera obscura

Låt oss tala om den digitala bilden. Moderna digitalkameror är placerade på principen om camera obscura. Bara i stället för det hål genom vilket ljus inträder strålen och projiceras på den bakre väggen av kammaren hos patienten kretsen, har vi en speciell optiskt system kallas linsen. Dess syfte är att samla in en stor ljusstråle och omvandla det så att alla strålar passera genom en virtuell punkt för att erhålla utsprånget och bilda en bild på film eller matris.

Moderna digitalkameror (matris) är sammansatt av enskilda element - pixlar. Varje pixel kan mäta energi ljus som infaller på den totala pixel, och utfärda ett utgångsnummer. Därför, i en digitalkamera, får vi i stället för bildens ljusstyrka set ljusmätningar, fångas i en enda pixel - dator synfält. Därför när bilden ser vi inte svepande linjer och tydliga konturer, och ett rutnät av färgade rutor i olika färger - pixlar.

Nedan ser du den första digitala bilden i världen.

Men i den här bilden är inte det? Color. Vad är färg?

Psykologiska uppfattning av färg

Färg - det är vad vi ser. Färgen på en och samma sak för människor och katter kommer att vara annorlunda. Eftersom vi (människor) och djur optiskt system - visionen är annorlunda. Därför färg - det är psykologiska kvaliteten på vår vision som uppstår när observera föremål och ljus. Och inte en fysisk egenskap hos objektet och ljuset. Färg - är ett resultat av samverkan av lätta komponenter, och scenen i vår visuella systemet.

Programmering Datorseende i Python med hjälp av bibliotek

Om du har valt att engagera sig på allvar i studiet av datorseende, omedelbart bör förbereda sig för ett antal svårigheter, är denna vetenskap inte det enklaste och döljer ett antal fallgropar. Men "Programmering Computer Vision på Python" författarskap av Jan Erik Solema - en bok som beskriver alla de mest enkla språket. Här kommer du bekanta dig med metoder för igenkänning av olika objekt i 3D, lära sig att arbeta med stereobilden, virtuell verklighet och många andra tillämpningar av datorseende. I boken finns tillräckligt exempel i Python. Men förklaringarna presenteras, så att säga, generaliserad, för att inte överbelasta alltför mycket forskning och hårddata. Arbeta lämplig för studenter, amatörer och entusiaster. Ladda ner denna bok och andra om datorseende (pdf-format) kan vara i nätverket.

Just nu finns det open source bibliotek datorseende algoritmer och bildbehandling och numeriska algoritmer OpenCV. Det genomförs på de flesta moderna programmeringsspråk, är öppen källkod. Om vi talar om datorseende använder Python som ett programmeringsspråk, det har också stöd av biblioteket, dessutom är det ständigt utvecklas och har en stor gemenskap.

Företaget "Microsoft" erbjuder sina tjänster Api-kunna träna det neurala nätverk för att arbeta med bilder av människor. Det finns också möjlighet att tillämpa datorseende använder Python som programmeringsspråk.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sv.delachieve.com. Theme powered by WordPress.