Visão computacional: os sentidos chegam à automação

A visão computacional, cada vez mais integrada em ferramentas como os robôs de picking, começa a ter uma maior relevância em empresas de todo o mundo e, segundo a DHL, as previsões indicam que o valor dessa tecnologia atingirá a cifra de 41,11 bilhões de euros em 2030. Estima-se que continuará a expandir-se pelas empresas de logística e de outros setores nos próximos cinco anos.

O que é a visão computacional?

A visão computacional é um campo da Inteligência Artificial que permite que os sistemas informáticos extraiam informações a partir de imagens digitais, vídeos e outras entradas visuais. Depois de processar os dados coletados através de algoritmos, os computadores podem adotar medidas ou fazer recomendações e sugestões. Se com a IA os computadores podem "pensar", com a visão computacional podem "ver "e" entender" seu ambiente.

Essas ferramentas devem ser treinadas da mesma forma que os humanos aprendem a distinguir objetos e a interpretar aquilo que veem. No entanto, o processo é mais rápido para a visão computacional devido à grande quantidade de referências que ela pode assimilar.

Como funciona um sistema de visão computacional?

Os sistemas de visão computacional funcionam utilizando duas tecnologias principais:

Deep learning. Esse tipo de machine learning utiliza algoritmos que fornecem aos computadores a capacidade de aprender por si mesmos o contexto dos dados visuais. Dessa forma, aprendem a distinguir umas imagens das outras por conta própria, sem necessidade de serem programados para reconhecer cada figura.
Rede Neural Convolucional (CNN). Para que os modelos de machine learning possam discernir sobre aquilo que veem, devem segmentar as imagens observando seus pixels, os quais, por sua vez, atribuem etiquetas. Em seguida, utilizam essas marcas para criar convoluções, ou seja, operações matemáticas sobre duas funções para gerar uma terceira função. A partir daí, os robôs fazem previsões e verificam sua precisão em uma série de iterações, o que lhes permite reconhecer objetos de forma semelhante à dos humanos.

O deep learning permite que os computadores aprendam por si mesmos sem necessidade de serem treinados para reconhecer cada objeto — O *deep learning* permite que os computadores aprendam por si mesmos sem necessidade de serem treinados para reconhecer cada objeto

Graças a esse conhecimento, a visão computacional analisa seu ambiente em três etapas:

Um dispositivo captura uma imagem. Pode ser uma câmera ou uma câmera de vídeo.
A imagem é enviada para um sistema de interpretação que aplica um padrão de reconhecimento para comparar a cena com outras cenas conhecidas.
Quando um usuário solicita informações, o programa fornece os resultados de sua análise.

Aplicações da visão computacional na indústria

Empresas de setores como o da logística, medicina, transporte e lazer já incorporaram a visão computacional ao seu funcionamento. As câmeras de segurança, controles de tráfego, telefones inteligentes (smartphones) e outros dispositivos lhes proporcionam uma infinidade de dados que são utilizados para diferentes finalidades. Um exemplo doméstico é o Google Translate, que permite capturar textos com uma câmera e traduzi-los instantaneamente para outro idioma.

Além disso, existem várias aplicações da visão computacional na indústria 4.0:

Realidade aumentada. As informações coletadas através da visão computacional servem para posicionar objetos virtuais em ambientes físicos.
Veículos autônomos. Os carros autodirigidos utilizam a identificação em tempo real para detectar o que está acontecendo na estrada e agir de acordo com a situação.
Fabricação. As máquinas podem ser monitoradas para garantir seu bom funcionamento, assim como avaliar a qualidade dos produtos e do packaging nas linhas de produção.
Análise espacial. Pessoas ou artigos são identificados no espaço e seus movimentos são registrados.
Saúde. A análise de imagens de dispositivos médicos auxilia os profissionais da medicina a identificar patologias e obter diagnósticos mais rápidos e precisos.
Agricultura. Vigiar o campo a partir de satélites, drones ou aviões torna possível monitorar as colheitas, detectar possíveis emergências ou deficiências nutricionais. Empresas como a Patatas Meléndez selecionam as batatas que irão chegar aos seus clientes através dessa tecnologia.
Extração de textos. O processamento automático pode ajudar a descobrir conteúdo relevante entre grandes quantidades de texto.

Quem foi o criador da visão computacional?

De acordo com Thomas Huang, pesquisador e professor emérito da Universidade de Illinois (EU A) e um dos líderes em visão computacional, a história dessa tecnologia remonta à década de 60, quando Larry Roberts discutiu a possibilidade de extrair informações geométricas 3D a partir de perspectivas 2D em sua tese do Massachusetts Institute of Technology (MIT). Naquela época, a IA surgia como um campo acadêmico de estudo e, em 1963, os computadores começaram a transformar imagens bidimensionais em tridimensionais.

A história da visão computacional remonta à tese que Larry Roberts apresentou no MIT na década de 60

O Reconhecimento Óptico de Caracteres (OCR) surgiu em 1974, e o Reconhecimento Inteligente de Caracteres (ICR) conseguiu decifrar textos manuscritos através de redes neurais. Em 1982, o neurocientista David Marr determinou que a visão funciona de forma hierárquica e desenvolveu algoritmos para que as máquinas detectassem bordas, cantos, curvas e outras formas geométricas. Simultaneamente, o cientista da computação Kunihiko Fukushima criou uma rede de células para o reconhecimento de padrões denominada Neocognitron. Os avanços prosseguiram no início do século XXI e, em 2012, o modelo AlexNet conseguiu reduzir o índice de erros para uma pequena porcentagem.

A visão computacional em logística

A logística e o gerenciamento da cadeia de suprimentos também são setores onde a visão computacional tem um grande potencial e várias aplicações, algumas ligadas à robótica:

Envios. A visão inteligente é usada para calcular o espaço ocupado pelos objetos em transportes e depósitos contribuindo para melhorar os dados coletados pelo Sistema de Gerenciamento de Armazém (WMS). Também é utilizada para verificar se as etiquetas dos produtos são legíveis.
Manutenção. Como coleta informações de vários equipamentos, a IA pode detectar quando será preciso fazer consertos.
Operações. A Inteligência Artificial pode traçar as rotas mais eficientes para o picking dos operadores, assim como é útil para controlar o acesso. A visão computacional pode detectar pessoas que correm pelas instalações ou acessam áreas restritas para facilitar uma rápida intervenção através de alertas.
Segurança. Monitorar os movimentos de veículos e pessoas em armazéns e estacionamentos permite adotar ações imediatas para minimizar riscos. As câmeras também detectam se os EPIs foram vestidos corretamente e monitoram os motoristas para que descansem quando surgirem os primeiros sinais de fadiga.

Visão computacional nos robôs de picking

Outro aspecto em que a visão inteligente vai revolucionar na logística são os robôs de picking ou cobots de pick and place. Esses aparelhos são adequados para centros logísticos que gerenciam um grande volume de expedições diárias, pois são capazes de preparar pedidos com muita rapidez, atingindo os 1.000 picks por hora. Funcionam de forma ininterrupta e seu software de visão computacional calcula os pontos de picking mais adequados para cada produto. Os algoritmos de IA lhes permitem coletar artigos desconhecidos sem necessidade de passar por um treinamento prévio.

A Mecalux trabalha para que os armazéns se mantenham na vanguarda da tecnologia e aproveitem avanços como a visão computacional em operações como o picking. Caso você deseje que sua empresa se situe em um patamar superior e queira saber mais sobre nosso robô de picking ou outras soluções, não hesite em entrar em contato conosco. Poderemos assessorá-lo sobre as opções que melhor se adaptem às suas necessidades e acompanhá-lo durante todo o processo de instalação.