Sis ema In e a i o de Con agem de Dedos usando YOLO 11
com Aplicação Web ia An il Uplink
Juan San os T igo Nasse 1
,Ana Paula A. C. Shiguemo i2
,
IFSP, Jaca eí, SP
Resumo
A con agem au omá ica de dedos é uma aplicação de isão compu acional com e-
le ância em in e aces ges uais, ensino in e a i o e inclusão digi al [1]. Mé odos que
pe mi em in e ação sem con a o ísico êm ganhado impo ância em con ex os edu-
cacionais, indus iais e de acessibilidade, a o ecendo expe iências na u ais e segu as
[2].
Es e abalho p opõe um sis ema in e a i o pa a de ecção e con agem de dedos u i-
lizando a ede YOLO 11, com implemen ação web ia An il [5], pe mi indo acesso
emo o sem necessidade de ins alação local. O conjun o de dados oi inicialmen e
compos o po 680 imagens o uladas manualmen e, expandido pa a 1.632 imagens
po meio de écnicas de aumen o de dados no amewo k Robo low [3]. A di isão
seguiu a p opo ção T ain Se (1.428), Valida ion Se (136) e Tes Se (68), ga an indo
equilíb io en e einamen o, ajus e ino e a aliação. O modelo oi einado po 10
épocas, com ba ch size de 16 e imagens edimensionadas pa a 640×640 pixels. O o i-
mizado u ilizado oi AdamW (lea ning a e = 0,002, momen um = 0,9, weigh decay =
0,0005), aliado a es a égias de da a augmen a ion como mosaic, lip ho izon al (50%)
e RandAugmen , além de pa âme os de wa m-up (3 épocas, wa mup momen um =
0,8, wa mup bias l = 0,1). O modelo a ingiu [email p o ec ed] de 97,3%, ap esen ando p e-
cisão (P) de 97,5% e ecall (R) de 97,3%, man endo desempenho consis en e mesmo
dian e de oclusões pa ciais, a iações de iluminação e di e sidade de poses. A média
de p ocessamen o po imagem oi de 13,8 ms (72 FPS), con i mando sua aplicabili-
dade em empo eal. A in e ace in e a i a pe mi e que o usuá io u ilize ges os pa a
esponde a desa ios numé icos, demons ando po encial pa a ensino de ma emá ica,
inclusão digi al e con ole ges ual em ambien es indus iais.
A análise c í ica dos esul ados indica que, embo a o modelo ap esen e al o desem-
penho, sua obus ez depende da di e sidade do da ase e da qualidade da o ulagem.
Fu u as in es igações podem explo a conjun os de dados mais a iados, in eg ação
com senso es adicionais e adap ação a cená ios complexos, como con ole emo o de
d ones e análise geoespacial, ampliando o espec o de aplicações p á icas da p opos a.
1[email p o ec ed]
2[email p o ec ed]
2
Figu a 1. Exemplo de saída do modelo YOLO 11 pa a de ecção de dedos. As caixas azuis indicam as
egiões de ec adas como “ inge ”, acompanhadas dos alo es de con iança da p edição.
Re e ências
[1] Redmon, J., Di ala, S., Gi shick, R. e Fa hadi, A. You Only Look Once: Uni ied, Real-Time Objec
De ec ion. P oceedings o he IEEE Con e ence on Compu e Vision and Pa e n Recogni ion, 2016.
[2] Glo o , X. e Bengio, Y. Unde s anding he di icul y o aining deep eed o wa d neu al ne wo ks.
P oceedings o he Thi een h In e na ional Con e ence on A i icial In elligence and S a is ics, 2010.
[3] Robo low Inc. Robo low: Image Da a Managemen o Compu e Vision, 2025. Disponí el em:
h ps:// obo low.com/.
[4] Keskin, C., Aga wal, A. e Fo sy h, D. A. Real- ime hand acking and modeling om a single dep h
image. 2011 In e na ional Con e ence on Compu e Vision, 1120–1127, IEEE, 2011.
[5] Lu , M. e Da ies, I. An il: A Pla o m o Rapid De elopmen o Web Apps wi h Py hon. P oceedings
o he 19 h Py hon in Science Con e ence, 2020. Disponí el em: h ps://an il.wo ks.