EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter

Innholdsfortegnelse:

EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter
EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter

Video: EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter

Video: EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter
Video: EfficientNet 2024, November
Anonim

Som en av de viktigste applikasjonene innen datasyn, blir gjenkjenning av objekter stadig viktigere i scenarier som krever høy presisjon, men har begrensede databehandlingsressurser, for eksempel robotikk og førerløse biler. Dessverre oppfyller mange moderne deteksjoner med høy presisjon ikke disse begrensningene. Enda viktigere, applikasjoner for gjenkjenning av objekter i den virkelige verden kjører på forskjellige plattformer, som ofte krever forskjellige ressurser.

Skalerbar og effektiv gjenkjenning av objekter
Skalerbar og effektiv gjenkjenning av objekter

Så det naturlige spørsmålet er hvordan man designer nøyaktige og effektive objektdetektorer som også kan tilpasse seg et bredt spekter av ressursbegrensninger?

EfficientDet: Skalerbar og effektiv gjenstandsdeteksjon, vedtatt på CVPR 2020, introduserer en ny familie av skalerbare og effektive objektdetektorer. Basert på tidligere arbeid med skalering av nevrale nettverk (EfficientNet) og inkorporering av et nytt toveis funksjonelt nettverk (BiFPN) og nye skaleringsregler, oppnår EfficientDet moderne presisjon mens den er 9 ganger mindre og bruker betydelig mindre beregning enn kjente moderne detektorer. Figuren nedenfor viser den generelle nettverksarkitekturen til modellene.

Bilde
Bilde

Optimalisering av modellarkitektur

Ideen bak EfficientDet stammer fra et forsøk på å finne løsninger for å forbedre beregningseffektiviteten ved systematisk å undersøke tidligere toppmoderne deteksjonsmodeller. Generelt har objektdetektorer tre hovedkomponenter: en ryggrad som trekker ut funksjoner fra et gitt bilde; et nettverk av objekter som tar flere nivåer av funksjoner fra ryggraden som inngang og sender ut en liste over kombinerte funksjoner som representerer karakteristiske egenskaper ved bildet; og et endelig klasse / boksenettverk som bruker kombinerte funksjoner for å forutsi klasse og plassering av hvert objekt.

Etter å ha gjennomgått designalternativene for disse komponentene, identifiserte vi flere viktige optimaliseringer for å forbedre ytelse og effektivitet. Tidligere detektorer bruker for det meste ResNets, ResNeXt eller AmoebaNet som ryggrader, som enten er mindre kraftige eller har lavere effektivitet enn EfficientNets. Med den første implementeringen av EfficientNet-ryggraden kan mye mer effektivitet oppnås. Fra for eksempel å starte med en RetinaNet-baseline som bruker en ResNet-50-ryggrad, viser vår ablasjonsstudie at bare å erstatte ResNet-50 med EfficientNet-B3 kan forbedre nøyaktigheten med 3% mens den reduserer beregningen med 20%. En annen optimalisering er å forbedre effektiviteten til funksjonelle nettverk. Mens de fleste av de tidligere detektorene bare bruker Downlink Pyramid Network (FPN), finner vi at nedstrøms FPN i seg selv er begrenset til en enveis informasjonsflyt. Alternative FPNer som PANet legger til ekstra oppstrøms på bekostning av ekstra beregning.

Nylige forsøk på å bruke Neural Architecture Search (NAS) har oppdaget en mer kompleks NAS-FPN-arkitektur. Imidlertid, selv om denne nettverksstrukturen er effektiv, er den også uregelmessig og svært optimalisert for en bestemt oppgave, noe som gjør det vanskelig å tilpasse seg andre oppgaver. For å løse disse problemene foreslår vi et nytt nettverk av toveisfunksjoner BiFPN, som implementerer ideen om å kombinere flerlagsfunksjoner fra FPN / PANet / NAS-FPN, som gjør at informasjon kan overføres både fra topp til bunn og fra bunn til topp. ved hjelp av vanlige og effektive forbindelser.

Bilde
Bilde

For ytterligere å forbedre effektiviteten, foreslår vi en ny rask normalisert synteseteknikk. Tradisjonelle tilnærminger behandler vanligvis alle innganger til FPN på samme måte, selv i forskjellige oppløsninger. Vi observerer imidlertid at inngangsfunksjoner med forskjellige oppløsninger ofte bidrar ulikt til utgangsfunksjonene. Dermed legger vi ekstra vekt på hver inngangsfunksjon og lar nettverket lære viktigheten av hver enkelt. Vi vil også erstatte alle vanlige krøller med billigere, dypt separerbare kramper. Med denne optimaliseringen forbedrer BiFPN ytterligere nøyaktigheten med 4% og reduserer beregningskostnadene med 50%.

Den tredje optimaliseringen innebærer å oppnå det beste kompromisset mellom nøyaktighet og effektivitet under ulike ressursbegrensninger. Vårt tidligere arbeid har vist at å skalere dybden, bredden og oppløsningen til et nettverk kan forbedre bildegjenkjenningsytelsen betydelig. Inspirert av denne ideen, foreslår vi en ny sammensatt skaleringsmetode for objektdetektorer som samlet øker oppløsningen / dybden / bredden. Hver nettverkskomponent, dvs. ryggrad, objekt og prediktivt nettverk for blokk / klasse, vil ha en kompleks skaleringsfaktor som styrer alle skaleringsdimensjoner ved bruk av heuristiske regler. Denne tilnærmingen gjør det enkelt å bestemme hvordan man skalerer modellen ved å beregne en skaleringsfaktor for en gitt målressursbegrensning.

Ved å kombinere den nye ryggraden og BiFPN, designer vi først en liten EfficientDet-D0-baseline og bruker deretter sammensatt skalering for å få EfficientDet-D1 til D7. Hver seriemodell har høyere beregningskostnader og dekker et bredt spekter av ressursbegrensninger fra 3 milliarder FLOP til 300 milliarder FLOPS, og gir høyere nøyaktighet.

Ytelsesmodell

Evaluering av EfficientDet på COCO-datasettet, et mye brukt referansesett for objektgjenkjenning. EfficientDet-D7 oppnår en gjennomsnittlig gjennomsnittsnøyaktighet (mAP) på 52,2, som er 1,5 poeng høyere enn den forrige moderne modellen, ved å bruke 4 ganger færre parametere og 9,4 ganger færre beregninger

Bilde
Bilde

Vi sammenlignet også parameterstørrelse og CPU / GPU-ventetid mellom EfficientDet og tidligere modeller. Med samme nøyaktighetsbegrensninger kjører EfficientDet-modeller 2–4 ganger raskere på GPU-en og 5–11 ganger raskere på prosessoren enn andre detektorer. Mens EfficientDet-modeller primært er ment for gjenkjenning av objekter, tester vi også effektiviteten i andre oppgaver som semantisk segmentering. For å utføre segmenteringsoppgaver, modifiserer vi EfficientDet-D4 litt ved å erstatte deteksjonshodet og hodetap og tap mens vi opprettholder samme skalerte ryggrad og BiFPN. Vi sammenligner denne modellen med tidligere moderne segmenteringsmodeller for Pascal VOC 2012, et mye brukt datasett for segmenteringstesting.

Bilde
Bilde

Med sin eksepsjonelle ytelse forventes EfficientDet å tjene som et nytt grunnlag for fremtidig gjenkjenningsforskning og potensielt gjøre svært nøyaktige objektgjenkjenningsmodeller nyttige i mange virkelige applikasjoner. Så åpnet alle brytpunktene for koden og forutdannet modell på Github.com.

Anbefalt: