EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter

2025 Forfatter: Ian Gardner | [email protected]. Sist endret: 2025-06-01 06:35

Som en av de viktigste applikasjonene innen datasyn, blir gjenkjenning av objekter stadig viktigere i scenarier som krever høy presisjon, men har begrensede databehandlingsressurser, for eksempel robotikk og førerløse biler. Dessverre oppfyller mange moderne deteksjoner med høy presisjon ikke disse begrensningene. Enda viktigere, applikasjoner for gjenkjenning av objekter i den virkelige verden kjører på forskjellige plattformer, som ofte krever forskjellige ressurser.

Så det naturlige spørsmålet er hvordan man designer nøyaktige og effektive objektdetektorer som også kan tilpasse seg et bredt spekter av ressursbegrensninger?

EfficientDet: Skalerbar og effektiv gjenstandsdeteksjon, vedtatt på CVPR 2020, introduserer en ny familie av skalerbare og effektive objektdetektorer. Basert på tidligere arbeid med skalering av nevrale nettverk (EfficientNet) og inkorporering av et nytt toveis funksjonelt nettverk (BiFPN) og nye skaleringsregler, oppnår EfficientDet moderne presisjon mens den er 9 ganger mindre og bruker betydelig mindre beregning enn kjente moderne detektorer. Figuren nedenfor viser den generelle nettverksarkitekturen til modellene.

Optimalisering av modellarkitektur

Ideen bak EfficientDet stammer fra et forsøk på å finne løsninger for å forbedre beregningseffektiviteten ved systematisk å undersøke tidligere toppmoderne deteksjonsmodeller. Generelt har objektdetektorer tre hovedkomponenter: en ryggrad som trekker ut funksjoner fra et gitt bilde; et nettverk av objekter som tar flere nivåer av funksjoner fra ryggraden som inngang og sender ut en liste over kombinerte funksjoner som representerer karakteristiske egenskaper ved bildet; og et endelig klasse / boksenettverk som bruker kombinerte funksjoner for å forutsi klasse og plassering av hvert objekt.

Etter å ha gjennomgått designalternativene for disse komponentene, identifiserte vi flere viktige optimaliseringer for å forbedre ytelse og effektivitet. Tidligere detektorer bruker for det meste ResNets, ResNeXt eller AmoebaNet som ryggrader, som enten er mindre kraftige eller har lavere effektivitet enn EfficientNets. Med den første implementeringen av EfficientNet-ryggraden kan mye mer effektivitet oppnås. Fra for eksempel å starte med en RetinaNet-baseline som bruker en ResNet-50-ryggrad, viser vår ablasjonsstudie at bare å erstatte ResNet-50 med EfficientNet-B3 kan forbedre nøyaktigheten med 3% mens den reduserer beregningen med 20%. En annen optimalisering er å forbedre effektiviteten til funksjonelle nettverk. Mens de fleste av de tidligere detektorene bare bruker Downlink Pyramid Network (FPN), finner vi at nedstrøms FPN i seg selv er begrenset til en enveis informasjonsflyt. Alternative FPNer som PANet legger til ekstra oppstrøms på bekostning av ekstra beregning.

Nylige forsøk på å bruke Neural Architecture Search (NAS) har oppdaget en mer kompleks NAS-FPN-arkitektur. Imidlertid, selv om denne nettverksstrukturen er effektiv, er den også uregelmessig og svært optimalisert for en bestemt oppgave, noe som gjør det vanskelig å tilpasse seg andre oppgaver. For å løse disse problemene foreslår vi et nytt nettverk av toveisfunksjoner BiFPN, som implementerer ideen om å kombinere flerlagsfunksjoner fra FPN / PANet / NAS-FPN, som gjør at informasjon kan overføres både fra topp til bunn og fra bunn til topp. ved hjelp av vanlige og effektive forbindelser.

For ytterligere å forbedre effektiviteten, foreslår vi en ny rask normalisert synteseteknikk. Tradisjonelle tilnærminger behandler vanligvis alle innganger til FPN på samme måte, selv i forskjellige oppløsninger. Vi observerer imidlertid at inngangsfunksjoner med forskjellige oppløsninger ofte bidrar ulikt til utgangsfunksjonene. Dermed legger vi ekstra vekt på hver inngangsfunksjon og lar nettverket lære viktigheten av hver enkelt. Vi vil også erstatte alle vanlige krøller med billigere, dypt separerbare kramper. Med denne optimaliseringen forbedrer BiFPN ytterligere nøyaktigheten med 4% og reduserer beregningskostnadene med 50%.

Den tredje optimaliseringen innebærer å oppnå det beste kompromisset mellom nøyaktighet og effektivitet under ulike ressursbegrensninger. Vårt tidligere arbeid har vist at å skalere dybden, bredden og oppløsningen til et nettverk kan forbedre bildegjenkjenningsytelsen betydelig. Inspirert av denne ideen, foreslår vi en ny sammensatt skaleringsmetode for objektdetektorer som samlet øker oppløsningen / dybden / bredden. Hver nettverkskomponent, dvs. ryggrad, objekt og prediktivt nettverk for blokk / klasse, vil ha en kompleks skaleringsfaktor som styrer alle skaleringsdimensjoner ved bruk av heuristiske regler. Denne tilnærmingen gjør det enkelt å bestemme hvordan man skalerer modellen ved å beregne en skaleringsfaktor for en gitt målressursbegrensning.

Ved å kombinere den nye ryggraden og BiFPN, designer vi først en liten EfficientDet-D0-baseline og bruker deretter sammensatt skalering for å få EfficientDet-D1 til D7. Hver seriemodell har høyere beregningskostnader og dekker et bredt spekter av ressursbegrensninger fra 3 milliarder FLOP til 300 milliarder FLOPS, og gir høyere nøyaktighet.

Ytelsesmodell

Evaluering av EfficientDet på COCO-datasettet, et mye brukt referansesett for objektgjenkjenning. EfficientDet-D7 oppnår en gjennomsnittlig gjennomsnittsnøyaktighet (mAP) på 52,2, som er 1,5 poeng høyere enn den forrige moderne modellen, ved å bruke 4 ganger færre parametere og 9,4 ganger færre beregninger

Vi sammenlignet også parameterstørrelse og CPU / GPU-ventetid mellom EfficientDet og tidligere modeller. Med samme nøyaktighetsbegrensninger kjører EfficientDet-modeller 2-4 ganger raskere på GPU-en og 5-11 ganger raskere på prosessoren enn andre detektorer. Mens EfficientDet-modeller primært er ment for gjenkjenning av objekter, tester vi også effektiviteten i andre oppgaver som semantisk segmentering. For å utføre segmenteringsoppgaver, modifiserer vi EfficientDet-D4 litt ved å erstatte deteksjonshodet og hodetap og tap mens vi opprettholder samme skalerte ryggrad og BiFPN. Vi sammenligner denne modellen med tidligere moderne segmenteringsmodeller for Pascal VOC 2012, et mye brukt datasett for segmenteringstesting.

Med sin eksepsjonelle ytelse forventes EfficientDet å tjene som et nytt grunnlag for fremtidig gjenkjenningsforskning og potensielt gjøre svært nøyaktige objektgjenkjenningsmodeller nyttige i mange virkelige applikasjoner. Så åpnet alle brytpunktene for koden og forutdannet modell på Github.com.

Anbefalt:

Hvordan Aktivere Innholdsforbud Mot MTS

MTS "Content Barring" -tjenesten lar deg beskytte abonnenten mot uønskede SMS-meldinger. Det gjør det også mulig å spare egne midler og begrense barn fra å bruke betalte tjenester. Hvorfor trenger jeg MTS "Content Ban"

Hvordan Beskytte Deg Mot Avlytting

I hver mobiltelefon, under utviklingen, er funksjoner innlemmet som lar deg spore abonnentens plassering, lytte og ta opp samtalene hans og så videre. Imidlertid er det spesielle betalte tjenester som lar deg omgå avlytting. For vårt land er de imidlertid ikke gyldige ennå

Hvordan Kurere Telefonen Mot Virus

Hvis telefonen slutter å svare eller opptrer uregelmessig, er det mulig at det er et virus i enheten. En mobiltelefon med virus kan ikke ringe, slå av seg selv eller lukke applikasjoner uventet. Du kan fjerne viruset fra mobiltelefonen og sette det i arbeidstilstand ved å bruke disse instruksjonene

Hvordan Beskytte Utstyr Mot Strømstøt

Spenningsbølger påvirker funksjonen til elektriske apparater negativt og kan ikke bare forårsake ødeleggelse, men også i noen tilfeller brann. For å beskytte utstyret brukes alle slags enheter som kan beskytte utstyr mot overspenninger og forhindre negative konsekvenser for hjemmeutstyr

Hvordan Lage En Effektiv Salgsannonse På Avito

Under høy konkurranse på dette nettstedet må du tenke nøye gjennom hvert element i annonsen. Hva må vurderes for at annonsen din skal bli lagt merke til blant lignende? Selv om du har et unikt og nyttig element, er det veldig enkelt å ikke selge det hvis du oppretter en annonse som ikke vil tiltrekke seg oppmerksomheten til en veldig interessert kjøper

EfficientDet: Mot Skalerbar Og Effektiv Gjenkjenning Av Objekter

Innholdsfortegnelse:

Optimalisering av modellarkitektur

Ytelsesmodell

Anbefalt:

Hvordan Aktivere Innholdsforbud Mot MTS

Hvordan Beskytte Deg Mot Avlytting

Hvordan Kurere Telefonen Mot Virus

Hvordan Beskytte Utstyr Mot Strømstøt

Hvordan Lage En Effektiv Salgsannonse På Avito

15 Viktige Apper For Android

Hvordan Velge Et Musikksystem

Hvordan Forlenge Arbeidstiden

Hvorfor Apple Har Fjernet YouTube-appen Fra IOS 6

Hvordan Velge Utstyr

Hvordan Sette Opp Ru.TV

Hvordan Sjekke Telefonen På Rostest

Hvordan Finne En Parabolantenn

Hva Er 5d Kino

Hvordan Film Blir Laget I Farger

Hvordan Skrive Ut Brosjyrer

Hvordan Skrive Ut Et Dokument

Hvordan Fikser Jeg Skriveren?

Hvordan Skylle Skriverhodet

Hvordan Velge En Fargelaserskriver