Hvordan maskine-vision fremmer automatisering nu
2023-03-10
maskine-vision er en samling af teknologier, der giver automatiseret udstyr (industrielt eller andet) en forståelse på højt niveau af de umiddelbare omgivelser ud fra billeder. Uden software til maskine-vision ville digitale billeder ikke være andet end simple usammenhængende pixelsamlinger med forskellige farveværdier og toneintensiteter for sådant udstyr. Ved maskine-vision kan computere (typisk forbundet med maskinstyring) registrere kanter og former i sådanne billeder, så overordnet behandlingsrutiner kan identificere foruddefinerede interessante objekter. Billeder i denne forstand er ikke nødvendigvis begrænset til fotografiske billeder i det synlige spektrum; de kan også omfatte billeder, der er fremstillet ved hjælp af infrarøde, laser-, røntgen- og ultralydssignaler.
Figur 1: Brugen af maskine-vision til mere sofistikerede robotteknologiske applikationer er stigende. (Billedkilde: John6863373 | Dreamstime.com)
En ret almindelig anvendelse af maskine-vision i industrielle omgivelser er at identificere en bestemt del i en beholder med en tilfældigt arrangeret (sammenblandet) blanding af dele. Her kan maskine-vision hjælpe pick-and-place-robotter med automatisk at samle den rigtige del op. Selvfølgelig ville det være relativt nemt at genkende sådanne dele med billedfeedback, hvis de alle var pænt arrangeret og orienteret på samme måde på en bakke. Robuste algoritmer til maskine-vision kan imidlertid genkende objekter i forskellige afstande fra kameraet (og derfor i forskellige størrelser på billedsensoren) samt i forskellige orienteringer.
De mest sofistikerede maskine-vision-systemer har muliggjort nye og nye designs, der er langt mere sofistikerede end affaldsplukning - måske ikke mere genkendelige end f.eks. i autonome køretøjer.
Figur 2: Maskine-vision giver systemer (industrielle eller andre systemer) en forståelse på højt niveau af omgivelserne ud fra billeder. (Billedkilde: Wikimedia)
Teknologier i forbindelse med maskine-vision
Udtrykket maskine-vision er undertiden forbeholdt mere etablerede og effektive matematiske metoder til at udtrække oplysninger fra billeder. I modsætning hertil beskriver begrebet computervision typisk mere moderne og beregningskrævende systemer - herunder black-box-tilgange, der anvender maskinlæring eller kunstig intelligens (AI). maskine-vision kan imidlertid også tjene som en samlebetegnelse for alle metoder til udtrækning af information på højt niveau fra billeder; i denne sammenhæng beskriver computervision de underliggende teorier om driften.
Der findes mange teknologier til at udtrække mening på højt niveau fra billeder. Inden for forskningsverdenen betragtes sådanne teknologier ofte som adskilt fra maskine-vision. I praktisk forstand er de dog alle forskellige måder at opnå maskine-vision på ... og i mange tilfælde overlapper de hinanden.
Digital billedbehandling er en form for digital signalbehandling, der omfatter billedforbedring, -restaurering, -kodning og -komprimering. Fordelene i forhold til analog billedbehandling er bl.a. minimeret støj og forvrængning samt adgang til langt flere algoritmer. En af de tidlige anvendelser af billedforbedring var korrektion af de første nærbilleder af månens overflade. Der blev anvendt fotogrammetrisk kortlægning samt støjfiltre og korrektioner for geometriske forvrængninger, der skyldes billedkameraets justering af måneoverfladen.
Figur 3: DLPC350-controlleren med integreret kredsløb (IC) leverer ind- og udgangstriggersignaler til synkronisering af de viste mønstre med et kamera. Den fungerer med digitale mikromirror-enheder (DMD'er), der er designet til at give 3D-maskine-vision til industrielt, medicinsk og sikkerhedsmæssigt udstyr. Anvendelserne omfatter faktisk både 3D-scanning og metrologisystemer. (Billedkilde: Texas Instruments)
Digital billedforbedring indebærer ofte en forøgelse af kontrasten og kan også indeholde geometriske korrektioner for synsvinkel og objektivforvrængning. Komprimering opnås typisk ved at tilnærme et komplekst signal til en kombination af cosinusfunktioner - en type Fouriertransformation kaldet diskret cosintransformation (DCT). JPEG-filformatet er den mest populære anvendelse af DCT. Ved billedrestaurering kan der også anvendes Fouriertransformationer til at fjerne støj og sløring.
Fotogrammetri anvender en eller anden form for identifikation af funktioner til at udtrække målinger fra billeder. Disse målinger kan omfatte 3D-informationer, når flere billeder af den samme scene er blevet optaget fra forskellige positioner. De enkleste fotogrammetriske systemer måler afstanden mellem to punkter i et billede ved hjælp af en skala. Det er normalt nødvendigt at medtage en kendt skalareference i billedet til dette formål.
Ved hjælp af funktionalitetsdetektion kan computere identificere kanter og hjørner eller punkter i et billede. Dette er et nødvendigt første skridt for fotogrammetri og identifikation af objekter og bevægelser. Blob-detektion kan identificere områder med kanter, der er for glatte til at kunne registreres som kanter eller hjørner.
Mønstergenkendelse bruges til at identificere specifikke objekter. I sin simpleste form kan det betyde, at man leder efter en bestemt veldefineret mekanisk del på et transportør.
3D-rekonstruktion bestemmer 3D-formen af objekter ud fra 2D-billeder. Det kan opnås ved hjælp af fotogrammetriske metoder, hvor højden af fælles elementer (identificeret i billeder fra forskellige observationspunkter) bestemmes ved triangulering. 3D-rekonstruktion er også mulig ved hjælp af et enkelt 2D-billede; her fortolker softwaren (blandt andet) de geometriske relationer mellem kanter eller skyggeregioner.
Figur 4: 3D-scannere optager 2D-billeder af et objekt for at skabe en 3D-model af det. I nogle tilfælde bruges de digitale modeller derefter til at 3D-printe kopier. (Billedkilde: Shenzhen Creality 3D Technology Co.)
Et menneske kan mentalt let rekonstruere en terning ud fra en simpel stregtegning - og en kugle ud fra en skraveret cirkel. Skravering angiver overfladernes hældning. En sådan afledning er imidlertid mere kompliceret end det ser ud til, fordi skygge er en endimensionel parameter, mens hældning er todimensionel. Dette kan føre til tvetydigheder - hvilket kunst, der afbilder fysisk umulige genstande, er et bevis på.
Figur 5: Computerbaseret bestemmelse af et arbejdsstykkes 3D-form ud fra et 2D-billede er forbundet med mange udfordringer.
Hvordan maskine-vision-opgaver ordnes
Mange maskine-vision-systemer kombinerer gradvist ovennævnte teknikker ved at starte med operationer på lavt niveau og derefter gå over til operationer på højere niveau en efter en. På det laveste niveau opbevares alle billedets pixels som data med høj båndbredde. Derefter identificerer hver operation i sekvensen billedelementer og repræsenterer oplysninger af interesse med relativt små datamængder.
De lave operationer til billedforbedring og -restaurering kommer først, efterfulgt af registrering af kendetegn. Når der anvendes flere sensorer, kan operationer på lavt niveau derfor udføres af distribuerede processer, der er dedikeret til de enkelte sensorer. Når først funktionerne i de enkelte billeder er registreret, kan der foretages fotogrammetriske målinger på et højere niveau - ligesom enhver objektidentifikation eller andre opgaver, der er baseret på kombinerede data fra flere billeder og sensorer.
Direkte beregninger og indlæringsalgoritmer
En direkte beregning i forbindelse med maskine-vision er et sæt matematiske funktioner, der er manuelt defineret af en menneskelig programmør. De accepterer input som f.eks. billedpixelværdier for at give output som f.eks. objektets kantkoordinater. I modsætning hertil er læringsalgoritmer ikke direkte skrevet af mennesker, men trænes i stedet ved hjælp af eksempeldatasæt, der forbinder input med ønskede output. De fungerer derfor som sorte bokse. De fleste af disse maskinlæringsmetoder anvender nu dyb læring baseret på kunstige neurale netværk til at foretage beregningerne.
Figur 6: Billedsensorer fra iVu-serien kan identificere arbejdsstykker efter type, størrelse, placering, orientering og farve. maskine-vision-komponenterne kan acceptere konfiguration og overvågning via en integreret skærm, fjernbetjening af HMI eller pc. Kamera, controller, objektiv og lys er alle præintegreret. (Billedkilde: Banner Engineering Corp.)
Simpel maskinlæring til industrielle anvendelser er ofte mere pålidelig og mindre beregningskrævende, hvis den er baseret på direkte beregning. Der er naturligvis grænser for, hvad man kan opnå med direkte beregning. For eksempel kunne den aldrig håbe på at kunne udføre den avancerede mønstergenkendelse, der er nødvendig for at identificere personer ud fra deres ansigter, især ikke fra en videooptagelse af et overfyldt offentligt rum. I modsætning hertil håndterer maskinlæring sådanne anvendelser med stor dygtighed. Det er derfor ikke underligt, at maskinlæring i stigende grad anvendes til maskinvisionoperationer på lavere niveau, herunder billedforbedring, restaurering og detektering af funktioner.
Forbedring af undervisningsmetoder (ikke algoritmer)
Udviklingen af deep-learning-teknologien har gjort det klart, at det ikke er selve læringsalgoritmerne, der skal forbedres, men måden, de trænes på. En sådan forbedret træningsrutine kaldes data-centreret computervision. Her accepterer deep-learning-systemet meget store træningssæt bestående af tusindvis, millioner eller endda milliarder af billeder - og gemmer derefter de oplysninger, som algoritmerne uddrager af hvert enkelt billede. Algoritmerne lærer effektivt ved at øve sig ved at bruge arbejdseksempler og derefter henvise til en "svarbog" for at kontrollere, om de er nået frem til de rigtige værdier.
En gammel historie om den digitale mønstergenkendelses tidlige dage tjener som en advarende fortælling. Det amerikanske militær havde til hensigt at bruge maskine-vision til målgenkendelse, og demonstrationer udført af en forsvarsleverandør identificerede pålideligt amerikansk og russisk fremstillede kampvogne. Forskellige tanke blev alle korrekt identificeret på leverandørens luftfotos, den ene efter den anden. Men da systemet blev testet igen med Pentagons eget billedbibliotek, blev det ved med at give forkerte svar. Problemet var, at forsvarsfirmaets billeder alle afbildede amerikanske kampvogne i ørkener og russiske kampvogne på grønne marker. Systemet genkendte ikke forskellige tanke, men i stedet forskellige farvede baggrunde. Moralen? Indlæringsalgoritmer skal præsenteres for omhyggeligt kuraterede træningsdata for at være nyttige.
Konklusion: vision for sikkerhed i robotarbejdsceller
maskine-vision er ikke længere en nicheteknologi. Det er i industrielt øjemed, at der sker den største stigning i anvendelsen. Her er den mest dramatiske udvikling den måde, hvorpå maskine-vision nu supplerer sikkerhedssystemer på industrianlæg, der giver lydalarm eller lydmeddelelser, når anlægspersonalet går ind i et arbejdsområde uden hjelm, maske eller andet korrekt beskyttelsesudstyr. maskine-vision kan også supplere systemer, der anmelder, når mobile maskiner som f.eks. gaffeltrucks kommer for tæt på mennesker.
Disse og lignende maskine-vision-systemer kan undertiden erstatte hårde beskyttelsesanordninger omkring industrirobotter for at muliggøre mere effektive operationer. De kan også erstatte eller forbedre sikkerhedssystemer baseret på lysafskærmninger, der blot stopper maskinerne, hvis en fabriksmedarbejder går ind i en arbejdscelle. Når maskine-vision overvåger fabriksgulvet omkring arbejdscellen, er det muligt for robotter i sådanne celler at sætte farten gradvist ned, når folk nærmer sig.
Efterhånden som industrimiljøerne udvikler sig til at kunne rumme samarbejdsrobotter og andet arbejdscelleudstyr, som det er sikkert for fabrikspersonalet at bevæge sig rundt (selv mens udstyret fungerer), vil disse og andre systemer baseret på maskine-vision blive en langt mere almindelig del af fabriksprocesserne.
Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

