Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

EXEMPLO DE ANÁLISE DE AGRUPAMENTOS., Exercícios de Inteligência Artificial

EXEMPLO DE ANÁLISE DE AGRUPAMENTOS.

Tipologia: Exercícios

2023

Compartilhado em 13/09/2023

sepol-orlando-3
sepol-orlando-3 🇧🇷

2 documentos

1 / 11

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
1
CAPÍTULO 1 EXEMPLO DE ANÁLISE DE AGRUPAMENTOS.
1.1. Introdução.
Este capítulo irá ilustrar as principais etapas do procedimento de A.A., ressaltando as
propriedades comuns à maioria dos métodos. Pretende-se também propor um procedimento
“científico” que ajude os usuários dessa cnica a avaliar os seus procedimentos. A estrutura
básica da aplicação de técnicas de A.A., pode ser decomposta nas seguintes etapas:
(i) Definição de objetivos, critérios, escolha de variáveis e objetos.
(ii) Obtenção dos dados.
(iii) Tratamento dos dados.
(iv) Escolha de critérios de similaridade ou dissimilaridade (parecença).
(v) Adoção e execução de um algoritmo de A.A.
(vi) Apresentação dos resultados.
(vii) Avaliação e interpretação dos resultados.
Convém observar que essas etapas não são independentes. Às vezes, torna-se
necessário voltar a etapas anteriores para corrigir e aprimorar etapas posteriores. Mas com a
adoção das etapas acima espera-se providenciar ao usuário de A.A. um procedimento
metodológico útil. Em capítulos seguintes serão descritas algumas dessas etapas com maiores
detalhes.
As diversas etapas serão apresentadas através de um exemplo hipotético, artificial,
cujo único objetivo é ilustrar e apresentar as principais decisões necessárias à aplicação de
técnicas de A.A.
1.2. Definição do Problema.
Pretende-se investigar, exploratoriamente, o histórico de crescimento da massa
corpórea das pessoas. O pesquisador gostaria de escolher representantes “típicos” da
população para tentar traçar diferentes históricos, através de questionários mais complexos.
Desse modo seria conveniente classificar a população alvo em grupos homogêneos
segundo alguma característica de interesse. Conseguida essa divisão, poder-se-ia restringir o
estudo a um representante de cada grupo, obtendo resultados mais variados e menos
custosos. A primeira dificuldade que aparece é a de encontrar um modo rápido de especificar
a característica de interesse “massa corpórea”. Após investigar o assunto o pesquisador
concluiu que as variáveis peso e altura seriam dois indicadores próximos da sua característica
de interesse.
Assim, o objetivo operacional passou a ser o de agrupar os indivíduos da população alvo
segundo duas variáveis facilmente mensuráveis: peso e altura.
Esta fase é a mais importante de A.A., a de fixação dos critérios de homogeneidade.
Critérios distintos levam a grupos homogêneos distintos, e o tipo de homogeneidade depende
dos objetivos a serem alcançados.
pf3
pf4
pf5
pf8
pf9
pfa

Pré-visualização parcial do texto

Baixe EXEMPLO DE ANÁLISE DE AGRUPAMENTOS. e outras Exercícios em PDF para Inteligência Artificial, somente na Docsity!

CAPÍTULO 1 – EXEMPLO DE ANÁLISE DE AGRUPAMENTOS.

1.1. Introdução.

Este capítulo irá ilustrar as principais etapas do procedimento de A.A., ressaltando as

propriedades comuns à maioria dos métodos. Pretende-se também propor um procedimento

“científico” que ajude os usuários dessa técnica a avaliar os seus procedimentos. A estrutura

básica da aplicação de técnicas de A.A., pode ser decomposta nas seguintes etapas:

(i) Definição de objetivos, critérios, escolha de variáveis e objetos. (ii) Obtenção dos dados. (iii) Tratamento dos dados. (iv) Escolha de critérios de similaridade ou dissimilaridade (parecença). (v) Adoção e execução de um algoritmo de A.A. (vi) Apresentação dos resultados. (vii) Avaliação e interpretação dos resultados.

Convém observar que essas etapas não são independentes. Às vezes, torna-se

necessário voltar a etapas anteriores para corrigir e aprimorar etapas posteriores. Mas com a

adoção das etapas acima espera-se providenciar ao usuário de A.A. um procedimento

metodológico útil. Em capítulos seguintes serão descritas algumas dessas etapas com maiores

detalhes.

As diversas etapas serão apresentadas através de um exemplo hipotético, artificial,

cujo único objetivo é ilustrar e apresentar as principais decisões necessárias à aplicação de

técnicas de A.A.

1.2. Definição do Problema.

Pretende-se investigar, exploratoriamente, o histórico de crescimento da massa

corpórea das pessoas. O pesquisador gostaria de escolher representantes “típicos” da

população para tentar traçar diferentes históricos, através de questionários mais complexos.

Desse modo seria conveniente classificar a população alvo em grupos homogêneos

segundo alguma característica de interesse. Conseguida essa divisão, poder-se-ia restringir o

estudo a um representante de cada grupo, obtendo resultados mais variados e menos

custosos. A primeira dificuldade que aparece é a de encontrar um modo rápido de especificar

a característica de interesse “massa corpórea”. Após investigar o assunto o pesquisador

concluiu que as variáveis peso e altura seriam dois indicadores próximos da sua característica

de interesse.

Assim, o objetivo operacional passou a ser o de agrupar os indivíduos da população alvo

segundo duas variáveis facilmente mensuráveis: peso e altura.

Esta fase é a mais importante de A.A., a de fixação dos critérios de homogeneidade.

Critérios distintos levam a grupos homogêneos distintos, e o tipo de homogeneidade depende

dos objetivos a serem alcançados.

1.3. Obtenção dos Dados.

Como ainda é uma fase exploratória o pesquisador decidiu usar as informações de seis

pessoas de seu conhecimento como estudo piloto. A altura foi medida em centímetros e o

peso em quilogramas. Os resultados estão na Tabela 1.1.

Tabela 1.1. Dados Pessoais de Seis Indivíduos do Estudo-Piloto

INDIVÍDUO ALTURA PESO IDADE INSTRUÇÃO COR SEXO

A B C D E F

UNIV.

UNIV.

SECUND.

UNIV.

SECUND.

PRIMÁRIO

PRETA

BRANCA

BRANCA

PARDA

PARDA

BRANCA

M M F F M F

Este é o material básico para a aplicação das técnicas de A.A., a matriz de dados. Ela

indica os valores das características por objetos de interesse. Convencionamos neste livro

indicar os objetos nas linhas e as variáveis nas colunas. Veja Quadro 1.1. (a).

Quadro 1.1. Matrizes de Dados.

(a) Brutos (b) Relativos (Padronizados).

1 2

1 11 12 1 2 21 22 2 3 4 1 2

p

p p

n n np

X X X

a x x x

a x x x

X

a

a x x x

11 12 1 21 22 2

1 2

p p

n n np

z z z z z z Z

z z z

Usualmente pretende-se agrupar objetos semelhantes segundo suas características

(variáveis). Mas nada impede que o interesse seja o de agrupar variáveis segundo os valores

obtidos pelos objetos. Em capítulos posteriores essa questão voltará a ser tratada.

É muito importante a definição do objeto, e a correspondente atribuição do valor da

característica. Por exemplo, o objeto pode ser pessoa e a variável de interesse salário. Ou o

objeto pode ser família e a variável de interesse o salário do chefe. Observe que a

característica é a mesma, mas associada a objetos distintos, e com significado bem distinto

para o processo de agrupar.

onde zi(.) indica o valor da variável Zi para o ponto indicado. Aplicando esta fórmula para todos

os pares da matriz Z , obtêm-se a matriz de parecença D derivada da matriz Z. Ela está

construída no Quadro 1.2.(a). A inspeção desta matriz, além de confirmar os resultados

observados na figura, explicita outras conclusões que não estavam tão claras. Por exemplo, B

está mais próximo de A do que de C. Mais ainda, analisando apenas a matriz de similaridade

chegar-se-iam aos mesmos resultados da inspeção gráfica.

Figura 1.1. Representação Cartesiana do Peso e Altura do Estudo Piloto.

(a) Dados Brutos.

(b) Dados Padronizados.

Quadro 1.2. Matriz de Similaridade entre os objetos do Estudo-Piloto, segundo a Distância

Euclidiana dos Dados Padronizados.

(a) Distância Usual

A B C D E F

A B C D D E F

(b) Distância Reduzida.

A B C D E

B

C

D D

E

F

Outra vantagem ocorre quando existem muitos atributos classificatórios onde torna-se

inviável a inspeção gráfica, mas é possível criar coeficientes de parecença entre os objetos. Um

exemplo simples é a generalização da distância euclidiana para um espaço de dimensão p , a

saber 1/ 2 2 1

p i i i

d A B z A z B p (1.5.3.)

Neste livro, a menos que seja especificado, sempre será usada esta última expressão

para a distância euclideana. No Quadro 1.2.(b), aparece a distância reduzida para o Estudo-

Piloto. Aproveitou-se também para eliminar uma linha e uma coluna da matriz, por terem

significados óbvios.

1.6. Aplicação da Técnica de Agrupamento.

A escolha de um particular algoritmo de agrupamento exige o conhecimento de suas

propriedades aliado aos objetivos da pesquisa. Neste exemplo ilustrativo supor-se-á, sem mais

explicações, que a escolha recaiu no método da média das distâncias (M.M.D.). Este é um

processo hierárquico, e em cada passo diminui uma dimensão da matriz de parecença pela

reunião de pares semelhantes até reunir todos os pontos em um único grupo.

Abaixo aparecem os diversos passos da aplicação do método ao exemplo ilustrativo.

É necessário reconstruir a nova matriz de similaridade. Como os pontos A , B , C e E não

sofreram alterações as distâncias entre eles também continuam as mesmas. Veja no Quadro

1.1.(b) os resultados. É necessário definir a distância entre o conjunto ( DF ) e os demais pontos.

É aqui que a maioria dos métodos se diferencia, e algumas das alternativas serão abordadas no

Capítulo 3. O M.M.O., define a distância entre dois grupos com a média entre os valores

individuais dos objetos de um dos grupos com os do outro. Assim:

d A DF d A D d A F

d B DF d B D d B F

d C DF

d E DF

Com a obtenção da matriz de parecença (Quadro 1.3.(b)), conclui-se o passo 1, que

reuniu os pontos D e F , num nível igual à 0,37.

Passo 2. Analisando a nova matriz de similaridade nota-se que existem dois pares com a

mesma proximidade A com B e B com E. Embora raro de acontecer na prática, o processo

recomenda selecionar aleatoriamente um dos pares e criar o novo grupo. Porém, os pacotes

computacionais, por facilidade de programação, escolhem o primeiro par que aparece para

agrupar. Desse modo, neste passo agrupa-se A com B , obtendo-se os seguintes grupos: C , E ,

( DF ) e ( AB ). Como no caso anterior, as distâncias entre C , E e ( DF ) não se alteram, conforme

aparece na Tabela (c) do Quadro 1.3. As distâncias de ( AB ) com os demais pontos serão:

( , ) [ ( , ) ( , )] / 2 (1,41 0,74) / 2 1 ,

( , ) [ ( , ) ( , )] / 2 (0,79 0,67) / 2 0,

( , ) [ ( , ) ( , ) ( , ) ( , )] / 4

d C AB d C A d C B

d E AB d E A d E B

d DF AB d D A d D B d F A d F B

Termina aqui o passo 2 com A sendo reunido à B ao nível 0,67.

Passo 3. Reunir E com (AB) ao nível 0,73 de similaridade, obtendo-se os grupos C , ( DF ) e ( ABE ).

Recalculando as distâncias necessárias tem-se

( , ) [ ( , ) ( , ) ( , )] / 3

( , ) [ ( , ) ( , ) ( , ) ( , ) ( , ) ( , )] / 6

d C ABE d C A d C B d C E

d DF ABE d D A d D B d D E d F A d F B d F E

Com a construção da matriz (d), Quadro 1.3, encerra-se este passo.

Passo 4. Reunir C com ( DF ), ao nível 0,95, obtendo-se a partição ( ABE , CDF ). A distância entre

os dois grupos será:

( , ) [ ( , ) ( , ) ( , ) ( , ) ( , )

( , ) ( , ) ( , ) ( , )] / 9 1,

d ABE CDF d A C d A D d A F d B C d B D

d B F d E C d E D d E F

Conclui-se escrevendo a matriz (c) do Quadro 1.3.

Passo 5. O processo encerra reunindo num único grupo os conjuntos ABE e CDF, que são iguais

a um nível 1,64 de parecença.

Como já foi dito, existem diferentes métodos para agrupar elementos que serão

discutidos futuramente. O importante é conhecer suas propriedades, qualidade e deficiências,

pois irá ajudar à escolha daquele que melhor responde aos objetivos do trabalho.

1.7. Apresentação dos Resultados.

As etapas descritas na seção anterior, embora instrutivas acerca do processo de agrupar,

não facilitam a interpretação dos resultados. Necessita-se de instrumentos mais apropriados, e

um deles é o resumo das etapas descritivas acima. A Tabela 1.3. mostra em cada etapa a

formação dos grupos e os respectivos níveis em que eles são formados. É muito importante

entender o significado desse nível, e sugerimos ao leitor refletir um pouco mais acerca desse

conceito. Dificilmente dois objetos serão exatamente iguais, mas sendo condescendentes no

critério de “igual” pode-se aceitar que eles são “parecidos”. Assim, os objetos D e F podem ser

considerados semelhantes, e esse grau de semelhança é avaliado com uma nota 0,37. Observe

que não existe um padrão com o qual podemos comparar este número para afirmar se é muito

ou pouco. O conhecimento do processo e a familiaridade com as grandezas envolvidas é que

irão ajudar. Duplicando esse nível, ou seja, relaxando um pouco mais o conceito de

semelhança, concluir-se-ia que além de D e F também seriam considerados semelhantes entre

si, os objetos A , B e F. E assim por diante seriam interpretados os dados da tabela mencionada.

Tabela 1.3. Resumo do M.M.D. Aplicado aos Dados do Estudo-Piloto.

PASSO JUNÇÃO NÍVEL

D,F

A,B

AB,E

C,DF

ABE,CDF

A tabela resumo possui uma representação gráfica muito útil e muito usada em A.A.,

conhecida por dendrograma (gráfico em forma de árvore), ilustrado na Figura 1.2. A escala

vertical à esquerda, indica o nível de similaridade. No eixo horizontal são marcados os objetos,

numa ordem conveniente, as linhas verticais partindo dos objetos têm altura correspondente

ao nível em que os objetos são considerados semelhantes.

A grande vantagem do dendrograma é mostrar graficamente o quanto é necessário

“relaxar” o nível de parecença para considerar grupos próximos. Observando a Figura 1.2.,

notamos que o maior salto é observado na última etapa, sugerindo à existência de dois grupos

homogêneos: ( A , B , E ) e ( C , D , F ).

Tendo obtido esses resultados, é conveniente voltar aos dados para uma melhor

compreensão do processo de agrupar. Baseado no dendrograma é conveniente reescrever os

dados originais e a matriz de similaridade na ordem produzida pelo método de agrupamento.

Estes procedimentos foram feitos na Tabela 1.4 e Quadro 1.4.

1.8. Avaliação e Interpretação dos Resultados.

O dendrograma pode ser considerado a representação simplificada da matriz de

similaridade, e, portanto, se coloca a pergunta: é uma “boa” simplificação?. Uma das maneiras

de responder é verificar a capacidade do dendrograma em reproduzir a matriz de similaridade.

O primeiro passo para isso é construir a matriz cofenética, que é a matriz de distância entre os

objetos obtidos a partir do dendrograma. Por exemplo, a distância entre os pontos A e C é

dada pelo nível em que os dois são agrupados, e que é 1,64 pelo dendrograma. Já a distância

entre A e E será 0,73. Procedendo de modo análogo para os demais pontos constrói-se a

matriz cofenética do Quadro 1.5.

Quadro 1.5. Matriz Cofenética Baseada no Dendrograma da Figura 1.2.

A B C D E F

C

Quadro 1.6. Cálculo do Coeficiente de Correlação Cofenético.

PAR S C PAR S C PAR S C

AB

AC

AD

AE

AF

BC

BD

BE

BF

CD

CE

CF

DE

DF

EF

s ... distância da matriz de similaridade. c ... distância da matriz cofenética. cc = corr(s, c) = 0,75 = 1,27 = 1,28 ss = 0,63 sc = 0,

Deve-se agora verificar a proximidade das duas matrizes, e esta é fornecida pelo

coeficiente de correlação entre os valores da matriz de similaridade e os correspondentes da

matriz cofenética. Este índice é chamado Coeficiente de Correlação Cofenética. As operações

necessárias aos cálculos estão no Quadro 1.6. No caso do Estudo-Piloto este indicador é 0,75.

Quanto mais próximo da unidade melhor será a representação, e quanto mais próximo de zero

será pior. O valor observado 0,75 é alto ou baixo?. Responder a isto é tão difícil como

responder, na maioria das situações, o que é um alto coeficiente de correlação entre duas

variáveis. Depende da área de estudo e de padrões que vão se desenvolvendo com a prática.

Pode-se adiantar que em A.A., algo em torno de 0,8 já pode ser considerado bom ajuste.

Analisando todos os resultados do exemplo ilustrado, poder-se-ia concluir que a

amostra piloto sugere dois tipos de indivíduos: pequenos e grandes. Para continuar o estudo

retrospectivo bastaria escolher (ou sortear) apenas duas pessoas: Uma do conjunto ( A , B , E ) e

outra de ( C , D , F ), e teríamos elementos “representativos” do grupo, segundo os critérios de

altura e peso, na crença de que essas variáveis sejam substitutas da característica de interesse.

1.9. Sumário.

As técnicas de A.A. exigem de seus usuários a tomada de uma série de decisões

interdependentes, que requerem o conhecimento das propriedades dos diversos algoritmos a

disposição. Algumas dessas decisões envolvem conteúdos mais metodológicos, enquanto que

outras mais o caráter técnico. Deve-se iniciar explicitando claramente o objeto e os objetivos

desejados com a aplicação da A.A. Também devem ser explicitados os critérios (variáveis) que

irão definir as semelhanças entre os objetos. Muitas vezes essas variáveis necessitam de

transformações para tornarem-se mais adequadas aos objetivos enunciados. Obtida a matriz

de dados transformados o próximo passo é a escolha de um coeficiente de semelhança entre

os objetos. Em seguida escolher o método de obter os grupos homogêneos e a apresentação

dos resultados obtidos. Finalmente, avaliar e interpretar, à luz dos objetivos, os resultados

produzidos. Outras questões também aparecem como as de encontrar quantos grupos

homogêneos existem nos dados.

1.10. Exercícios.

  1. Usando as informações sobre instrução e sexo dos dados na Tabela 1.1.

(a) procure construir uma matriz de parecença entre os objetos;

(b) construa um dendrograma descrevendo o processo de agrupamento.

  1. Estudando a multicolinearidade entre 5 variáveis encontrou-se a seguinte matriz de

correlação entre elas:

R

Proponha e realize um procedimento análogo ao descrito neste capítulo para agrupar as

variáveis.