RECONHECIMENTO – Investigador da UC vence Prémio “Melhor Tese de Doutoramento” com estudo na área de “machine learning”

0
1

Um estudo, desenvolvido pelo investigador Filipe Rodrigues, no Departamento de Engenharia Informática da
Faculdade de Ciências e Tecnologia da Universidade de Coimbra (FCTUC), venceu o
prémio “Melhor Tese de Doutoramento”, atribuído pela Associação Portuguesa de
Reconhecimento de Padrões (APRP).
Intitulada “Probabilistic Models for Learning from Crowdsourced Data”, a
tese, que também recebeu uma menção honrosa da Associação Portuguesa para a
Inteligência Artificial (APPIA), foi orientada pelos docentes Francisco Câmara
Pereira e Bernardete Ribeiro.
O estudo propõe um conjunto de modelos probabilísticos para aprendizagem a
partir de dados gerados pela multidão (crowd). Este tipo de dados tem vindo a
alterar a forma como muitos problemas de aprendizagem de máquina (machine
learning, uma subárea da inteligência artificial) são abordados em diferentes
áreas do domínio científico, tais como o processamento de linguagem natural, a
visão computacional e a música.
Durante os últimos anos, explica Bernardete Ribeiro, «têm-se verificado grandes desenvolvimentos na área de “machine
learning”, permitindo ter, hoje em dia, sistemas inteligentes capazes de
reconhecer a nossa voz e responder a perguntas, traduzir textos de forma
automática, conduzir veículos de forma autónoma, etc. Por detrás deste recente
progresso estão contribuições ao nível da teoria e novos algoritmos de
aprendizagem, bem como a crescente disponibilidade de dados – vulgarmente
designados de “Big Data”. Contudo, o sucesso dos algoritmos de
machine learning está frequentemente dependente da disponibilidade de grandes
volumes de exemplos etiquetados
».
Para se perceber melhor, a docente e investigadora da FCTUC exemplifica com
um cenário: «imaginemos que queremos
desenvolver um sistema capaz de distinguir imagens de peões de imagens de
automóveis. Para isso é necessária a criação de um conjunto de dados
etiquetados com centenas, ou idealmente milhares ou milhões, de exemplos de
imagens de peões e imagens de automóveis
».
Tipicamente, as grandes dimensões destes conjuntos de dados tornam
impraticável o recurso à etiquetagem manual dos dados por um único anotador,
sendo por isso prática comum o recurso a plataformas de
“crowdsourcing”, como por exemplo a Amazon Mechanical Turk (AMT). No
entanto, os diferentes vieses e níveis de perícia individual dos diversos
anotadores que colaboram nestas plataformas tornam necessário o desenvolvimento
de abordagens específicas e direcionadas para este tipo de dados multi-anotador.
Considerando «o problema da
heterogeneidade dos anotadores, na tese são propostos modelos probabilísticos
capazes de diferenciar, de forma automática e totalmente não-supervisionada, os
anotadores confiáveis dos menos confiáveis ou até identificar anotadores cujas
respostas são dadas de forma aleatória ou pouco premeditada
», sublinha Bernardete
Ribeiro.
Na segunda parte da tese, são usados dados gerados pela crowd como entradas adicionais de forma
a melhorar modelos de machine learning.
Nomeadamente, é considerado o problema
de compreender a procura em sistemas de transportes na presença de eventos
,
tais como concertos, eventos desportivos ou festivais.

Com os modelos propostos é possível «descobrir,
por exemplo, que das 5000 pessoas que viajaram para uma dada zona da cidade a
uma dada hora, existem 3000 pessoas acima do expectável em condições normais, e
que dessas 3000 pessoas, 2500 dirigiram-se a um concerto de música Pop e as restantes 500 a uma peça de
teatro. Tendo em conta o poder disruptivo de certos eventos ou combinações de
eventos, é fundamental ter em conta o seu impacto nas previsões da procura de
transportes bem como compreender o seu papel na maneira como as pessoas se
deslocam em espaços urbanos
», conclui a docente e investigadora.