Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Atividade Algoritmo para Ciência de Dados, Provas de Algoritmos

Atividades para Algoritmo para Ciência de Dados

Tipologia: Provas

2021

Compartilhado em 03/06/2022

fabio-shinno
fabio-shinno 🇧🇷

5

(5)

2 documentos

1 / 4

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
ALGORITMOS PARA CIÊNCIA DE DADOS -
ESTUDOS DE CASOS
1 - Você terá que analisar as características dos clusters gerados e relacioná-los
com as regras geradas pelo apriori, descreva isso em um relatório e com as regras
e clusters gerados.
Tabela1: Erro RMS X Cluster
O algoritmo de clustering k-means foi proposto por MacQueen (1967) e utiliza medidas de
similaridade entre os objetos. O algoritmo recebe como parâmetro a quantidade de clusters nos quais
se deseja agrupar os objetos, então, escolhe aleatoriamente N objetos que se tornam representantes
de cada cluster, os centroides. Os objetos são então alocados nos clusters, colocados no cluster do
centroide mais próximo, e a cada iteração do o algoritmo, o centroide é recalculado, usando a média
das distâncias entre todos os integrantes do cluster.
Como existem uma grande variedade de algoritmos de clustering,também uma grande
variedade de técnicas de validação, que levam em consideração medidas internas aos clusters e
medidas externa, considerando o modelo completo. Aqui utilizaremos a técnica de medidas internas
das Somas dos Erros Quadrados.
pf3
pf4

Pré-visualização parcial do texto

Baixe Atividade Algoritmo para Ciência de Dados e outras Provas em PDF para Algoritmos, somente na Docsity!

ALGORITMOS PARA CIÊNCIA DE DADOS -

ESTUDOS DE CASOS

1 - Você terá que analisar as características dos clusters gerados e relacioná-los

com as regras geradas pelo apriori, descreva isso em um relatório e com as regras

e clusters gerados.

Tabela1: Erro RMS X Cluster

O algoritmo de clustering k-means foi proposto por MacQueen (1967) e utiliza medidas de

similaridade entre os objetos. O algoritmo recebe como parâmetro a quantidade de clusters nos quais

se deseja agrupar os objetos, então, escolhe aleatoriamente N objetos que se tornam representantes

de cada cluster, os centroides. Os objetos são então alocados nos clusters, colocados no cluster do

centroide mais próximo, e a cada iteração do o algoritmo, o centroide é recalculado, usando a média

das distâncias entre todos os integrantes do cluster.

Como existem uma grande variedade de algoritmos de clustering, há também uma grande

variedade de técnicas de validação, que levam em consideração medidas internas aos clusters e

medidas externa, considerando o modelo completo. Aqui utilizaremos a técnica de medidas internas

das Somas dos Erros Quadrados.

A medida de soma dos erros quadrados mostrar o valor da soma total das distâncias entre

cada instância e seus respectivos centroides. Caso esse valor seja muito alto, significa que o cluster

em si não é coeso e, possivelmente, poderá ser separado e, caso esse valor seja muito baixo,

significa que o cluster está muito especializado e poderá se juntar ao outro. Para se validar esse

modelo deve-se executar essa validação para inúmeras quantidades de clusteres, ou seja, executar

o algoritmo iniciando com 1 cluster e aumentando gradativamente; para cada execução do algoritmo,

calcular o RMS e plotar em um gráfico. A minimização dessa soma de erros quadrado ilustrará

graficamente a qualidade do modelo gerado. O ponto ideal do número de cluster será no chamado

“joelho” da curva, no meio termo é um número ideal de clusters para o modelo.

Para a atividade, foi executado o experimento kmeans com a base de dados disponibilizada

no programa Weka. Primeiramente, executando com 1 cluster e gerando um RMS, e aumentando

gradativamente a quantidade de clusterers. A cada cluster adicionado, o número do RMS era

armazenado, gerando os dados da tabela 1.

Os dados das quantidades de clusteres e respectivos RMS foram plotados em um gráfico.

Foi gerado dois gráficos, um com os clusteres até 2000 (gráfico 1) e outro com os clusteres até 14

(Gráfico 2), para uma melhor visualização e identificação do joelho do gráfico, ponto onde o RMS não

é nem tão alto nem tão baixo. Identificou-se então que a quantidade mais razoável de clusteres para

esse modelo são sete (7).

Gráfico 1

Erro RMS

  • Gráfico