Como baixar o banco de dados Greenplum
O Greenplum Database é um banco de dados de código aberto poderoso e escalável baseado em PostgreSQL e projetado para análise de big data. Neste artigo, você aprenderá o que é Greenplum Database, quais são seus benefícios e requisitos, como baixá-lo e instalá-lo e como usá-lo para suas necessidades de dados.
download greenplum
O que é banco de dados Greenplum?
O Greenplum Database é um banco de dados SQL de processamento paralelo massivo (MPP) que pode lidar com cargas de trabalho de dados em escala de petabytes sem comprometer o desempenho e a taxa de transferência da consulta. É baseado no PostgreSQL, o que significa que herda seus recursos, sintaxe e compatibilidade. No entanto, ele também estende o PostgreSQL com recursos adicionais, como:
Acesso a dados federados: você pode consultar fontes de dados externas com o otimizador Greenplum e o mecanismo de processamento de consultas, como Hadoop, armazenamento em nuvem ou outros armazenamentos de dados poliglotas.
Armazenamento de dados polimórficos: você pode escolher entre armazenamento e processamento orientado a linhas ou colunas para qualquer tabela ou partição, dependendo de como você acessa seus dados. Você também pode controlar a configuração, execução e compactação de seus dados.
Análise integrada no banco de dados: você pode executar tarefas de aprendizado de máquina e IA no banco de dados Greenplum usando o Apache MADlib, uma biblioteca de código aberto de funções de aprendizado de máquina em cluster. O MADlib oferece suporte a recursos de vários nós, várias GPUs e aprendizado profundo.
Inovação na otimização de consulta: você pode aproveitar o primeiro otimizador de consulta baseado em custo de código aberto do setor, projetado para cargas de trabalho de big data, que pode dimensionar análises interativas e de modo de lote para grandes conjuntos de dados em petabytes.
Benefícios do banco de dados Greenplum
Alguns dos benefícios de usar o banco de dados Greenplum são:
Potência em escala: você pode lidar com grandes volumes de dados com alto desempenho e eficiência, graças à sua arquitetura MPP, carregamento paralelo, processamento de consultas distribuídas e gerenciamento de recursos.
Verdadeira flexibilidade: você pode implantar o banco de dados Greenplum onde quiser, seja no local, em nuvens públicas ou privadas ou em ambientes híbridos. Você também pode usar quaisquer ferramentas ou idiomas de sua preferência para interagir com seus dados.
Código aberto: você pode evitar o bloqueio do fornecedor e ter mais controle sobre seu software usando o Greenplum Database, que é licenciado sob a licença Apache 2 e desenvolvido por uma comunidade ativa de código aberto.
De BI a IA: você pode executar uma ampla variedade de tarefas analíticas com o Greenplum Database, desde inteligência de negócios e relatórios até aprendizado de máquina e IA. Você também pode convergir cargas de trabalho analíticas e operacionais em um único ambiente.
Requisitos para banco de dados Greenplum
Para usar o Greenplum Database, você precisa ter os seguintes requisitos:
Um sistema operacional Linux compatível com Greenplum Database, como CentOS, Red Hat Enterprise Linux (RHEL), SUSE Linux Enterprise Server (SLES) ou Ubuntu.
Um mínimo de quatro hosts (servidores) que formam o cluster Greenplum. Cada host deve ter pelo menos uma instância de segmento (um banco de dados PostgreSQL) que armazena e processa uma parte dos dados.
Um host mestre que atua como coordenador do cluster. Ele não armazena nenhum dado, mas gerencia os metadados, distribui consultas e coleta resultados dos hosts de segmento.
Um host mestre em espera que atua como um backup para o host mestre em caso de falha. Ele sincroniza os metadados com o host mestre.
Um mínimo de 8 GB de RAM e 16 GB de espaço em disco por host de segmento.
Um switch de rede que conecta todos os hosts no cluster e permite a transferência de dados em alta velocidade entre eles.
Como baixar e instalar o banco de dados Greenplum
Existem duas maneiras de baixar o Greenplum Database: no site oficial ou no GitHub. Você pode escolher o método que melhor lhe convier, dependendo de suas preferências e necessidades.
Baixe o banco de dados Greenplum do site oficial
O site oficial do Greenplum Database oferece pacotes binários para várias distribuições do Linux, bem como código-fonte e documentação. Para baixar o banco de dados Greenplum do site oficial, você precisa seguir estas etapas:
Vá para e escolha a distribuição Linux que corresponde ao seu sistema operacional.
Clique no link de download para obter a versão mais recente do banco de dados Greenplum. Você precisará se registrar com seu endereço de e-mail e aceitar os termos e condições antes de poder baixar o arquivo.
Salve o arquivo no local desejado em seu host mestre. O nome do arquivo terá o formato greenplum-db--.zip, onde é o número da versão do banco de dados Greenplum e é o nome da distribuição do Linux.
Descompacte o arquivo usando o comando unzip greenplum-db--.fecho eclair. Isso criará um diretório chamado greenplum-db-, que contém os arquivos de instalação do Greenplum Database.
Baixe o banco de dados Greenplum do GitHub
Se você deseja baixar o código-fonte do Greenplum Database e construí-lo você mesmo, pode usar o GitHub, que é uma plataforma para hospedar e colaborar em projetos de código aberto. Para baixar o banco de dados Greenplum do GitHub, você precisa seguir estas etapas:
Instale o Git, que é uma ferramenta para gerenciar sistemas de controle de versão, em seu host principal. Você pode usar o comando sudo yum install git ou sudo apt-get install git, dependendo da sua distribuição Linux.
Clone o repositório Greenplum Database do GitHub usando o comando git clone Isso criará um diretório chamado gpdb, que contém o código-fonte do Greenplum Database.
Mude para o diretório gpdb usando o comando cd gpdb e verifique a ramificação estável mais recente usando o comando git checkout , onde é o nome da ramificação que você deseja usar. Você pode encontrar a lista de filiais em .
Instale as dependências para construir o Greenplum Database usando o comando ./README.ubuntu.bash ou ./README.centos.bash, dependendo da sua distribuição Linux.
Configure e compile o Greenplum Database usando os comandos ./configure e make.
Instale o banco de dados Greenplum no Linux
Depois de baixar o banco de dados Greenplum, como um pacote binário ou como um código-fonte, você precisa instalá-lo em seu host mestre e nos hosts de segmento. Para instalar o banco de dados Greenplum no Linux, você precisa seguir estas etapas:
Crie uma conta de usuário chamada gpadmin em cada host usando o comando sudo useradd -m -d /home/gpadmin -s /bin/bash gpadmin. Este usuário possuirá e executará os processos e arquivos do banco de dados Greenplum.
Crie uma senha para gpadmin em cada host usando o comando sudo passwd gpadmin e digite uma senha segura.
Adicione gpadmin ao arquivo sudoers em cada host usando o comando sudo visudo e adicionando a linha gpadmin ALL=(ALL) NOPASSWD: ALL no final do arquivo. Isso permitirá que o gpadmin execute comandos como root sem inserir uma senha.
Crie um par de chaves SSH para gpadmin no host mestre usando o comando ssh-keygen -t rsa e pressionando Enter para aceitar as opções padrão. Isso criará dois arquivos: /.ssh/id_rsa (a chave privada) e /.ssh/id_rsa.pub (a chave pública).
Copie a chave pública do host mestre para todos os hosts de segmento usando o comando ssh-copy-id gpadmin@, onde é o nome do host ou endereço IP de cada host de segmento. Isso permitirá que o gpadmin faça login nos hosts do segmento sem inserir uma senha.
Copie os arquivos de instalação do banco de dados Greenplum do host mestre para todos os hosts de segmento usando o comando scp -r greenplum-db- gpadmin@:/home/gpadmin, onde é o número da versão do banco de dados Greenplum e é o nome do host ou endereço IP de cada host de segmento.
Efetue login em cada host como gpadmin usando o comando ssh gpadmin@ e mude para greenplum-db- diretório usando o comando cd greenplum-db-.
Execute o script de instalação em cada host usando o comando ./greenplum_install. Isso instalará o banco de dados Greenplum no /usr/local/greenplum-db- diretório e crie um link simbólico chamado /usr/local/greenplum-db que aponte para ele.
Adicione as seguintes linhas ao arquivo /.bash_profile do gpadmin em cada host usando um editor de texto como vi ou nano:
# Defina GREENPLUM_HOME export GREENPLUM_HOME=/usr/local/greenplum-db # Adicione GREENPLUM_HOME ao PATH export PATH=$PATH:$GREENPLUM_HOME/bin # Adicione GREENPLUM_HOME ao LD_LIBRARY_PATH export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$GREENPLUM_HOME/lib
Crie o arquivo /.bash_profile em cada host usando o comando source /.bash_profile. Isso definirá as variáveis de ambiente para o banco de dados Greenplum.
Instale o banco de dados Greenplum no Windows
Se você deseja usar o Greenplum Database no Windows, precisa instalar um software de máquina virtual, como VMware Workstation ou VirtualBox, e criar uma máquina virtual Linux que atenda aos requisitos do Greenplum Database. Você pode seguir as etapas para instalar o Greenplum Database no Linux em sua máquina virtual.
Como usar o banco de dados Greenplum
Depois de instalar o Greenplum Database, você pode começar a usá-lo para suas necessidades de dados. Você pode se conectar ao banco de dados Greenplum, criar e carregar dados nele e consultar e analisar dados com ele.
Conecte-se ao banco de dados Greenplum
Para se conectar ao banco de dados Greenplum, você precisa usar uma ferramenta cliente que suporte PostgreSQL, como psql, pgAdmin ou DBeaver. Você também pode usar qualquer linguagem de programação que tenha um driver PostgreSQL, como Python, Java ou R. Para se conectar ao Greenplum Database, você precisa fornecer as seguintes informações:
O nome do host ou endereço IP do host mestre.
O número da porta do host mestre, que é 5432 por padrão.
O nome do banco de dados, que é postgres por padrão.
O nome de usuário e senha do gpadmin ou qualquer outro usuário que você criou.
Por exemplo, se você deseja se conectar ao banco de dados Greenplum usando psql, pode usar o seguinte comando:
psql -h master -p 5432 -d postgres -U gpadmin
Criar e carregar dados no banco de dados Greenplum
Para criar e carregar dados no banco de dados Greenplum, você precisa usar comandos SQL compatíveis com PostgreSQL. Você pode criar tabelas, exibições, índices, funções e outros objetos no Greenplum Database usando a instrução CREATE. Você também pode especificar a política de distribuição, tipo de armazenamento, tipo de compactação e esquema de particionamento para suas tabelas usando a cláusula WITH.
Para carregar dados no banco de dados Greenplum, você pode usar vários métodos, como:
O comando COPY: Você pode usar este comando para carregar dados de um arquivo ou uma entrada padrão em uma tabela ou visualização. Você também pode especificar o formato, delimitador, cabeçalho, codificação e outras opções para seu arquivo de dados usando a cláusula WITH.
O utilitário gpload: você pode usar este utilitário para carregar dados de uma fonte externa em uma tabela ou exibição. Você também pode realizar transformações, validações e tratamento de erros em seus dados usando um arquivo de configuração YAML.
O utilitário gpcopy: Você pode usar este utilitário para copiar dados de um cluster de banco de dados Greenplum para outro. Você também pode especificar as tabelas, esquemas, bancos de dados e hosts de origem e destino usando várias opções.
Consulte e analise dados com o banco de dados Greenplum
Para consultar e analisar dados com o Greenpl um Database, você precisa usar comandos SQL compatíveis com PostgreSQL. Você pode executar várias operações em seus dados, como selecionar, filtrar, agrupar, juntar, agregar, classificar e ordenar. Você também pode usar várias funções e operadores suportados pelo banco de dados Greenplum, como string, numérico, data e hora, array, JSON e funções de janela.
Para analisar dados com o Greenplum Database, você pode utilizar diversas ferramentas e frameworks que estão integrados a ele, como:
Apache MADlib: você pode usar esta biblioteca para executar tarefas de aprendizado de máquina e IA no banco de dados Greenplum. Você pode usar várias funções e algoritmos que estão disponíveis no MADlib, como regressão, classificação, agrupamento, recomendação, análise de gráfico, aprendizado profundo e processamento de linguagem natural.
Greenplum PL/Container: você pode usar esta extensão para executar o código Python ou R em contêineres isolados no banco de dados Greenplum. Você pode usar várias bibliotecas e pacotes disponíveis em Python ou R, como pandas, scikit-learn, TensorFlow, PyTorch ou ggplot2.
Greenplum PXF: Você pode usar esta estrutura para consultar fontes de dados externas com o Greenplum Database. Você pode acessar dados de várias fontes, como Hadoop, armazenamento em nuvem, bancos de dados relacionais ou bancos de dados NoSQL.
Conclusão
Neste artigo, você aprendeu como baixar o Greenplum Database, um banco de dados de código aberto poderoso e escalável baseado em PostgreSQL e projetado para análises de big data. Você também aprendeu como instalar o Greenplum Database no Linux ou Windows e como usar o Greenplum Database para suas necessidades de dados. Você viu alguns dos benefícios e recursos do Greenplum Database, como acesso a dados federados, armazenamento de dados polimórficos, análise integrada no banco de dados e inovação na otimização de consultas. Você também viu algumas das ferramentas e estruturas integradas ao Greenplum Database, como Apache MADlib, Greenplum PL/Container e Greenplum PXF.
Resumo do artigo
A tabela a seguir resume os principais pontos do artigo:
Tema
Pontos chave
O que é banco de dados Greenplum?
Um banco de dados MPP SQL baseado em PostgreSQL que pode lidar com cargas de trabalho de dados em escala de petabytes.
Benefícios do banco de dados Greenplum
Potência em escala, verdadeira flexibilidade, código aberto, de BI a IA.
Requisitos para banco de dados Greenplum
Um sistema operacional Linux que suporta Greenplum Database, um mínimo de quatro hosts que formam o cluster Greenplum, um switch de rede que conecta os hosts.
Como baixar e instalar o banco de dados Greenplum
Faça o download no site oficial ou no GitHub, instale no host mestre e segmente os hosts usando o script de instalação ou o código-fonte.
Como usar o banco de dados Greenplum
Conecte-se usando uma ferramenta cliente ou uma linguagem de programação compatível com PostgreSQL, crie e carregue dados usando comandos ou utilitários SQL, consulte e analise dados usando comandos ou ferramentas e estruturas SQL.
perguntas frequentes
A seguir estão algumas perguntas frequentes sobre o banco de dados Greenplum:
Qual é a diferença entre o banco de dados Greenplum e o PostgreSQL?
O banco de dados Greenplum é baseado no PostgreSQL, mas o estende com recursos adicionais para análise de big data. Alguns desses recursos são acesso a dados federados, armazenamento de dados polimórficos, análise integrada no banco de dados e inovação na otimização de consultas.
Como o Greenplum Database atinge alto desempenho e escalabilidade?
O Greenplum Database alcança alto desempenho e escalabilidade usando uma arquitetura de processamento massivamente paralelo (MPP), que distribui os dados e a carga de trabalho em vários hosts de segmento. Cada host de segmento possui uma ou mais instâncias de segmento, que são bancos de dados PostgreSQL que armazenam e processam uma parte dos dados. O host mestre coordena o cluster e distribui as consultas aos hosts de segmento, que as executam em paralelo e retornam os resultados ao host mestre.
Como posso saber mais sobre o banco de dados Greenplum?
Você pode aprender mais sobre o banco de dados Greenplum visitando o site oficial , onde você pode contribuir para o desenvolvimento do banco de dados Greenplum, relatar problemas, solicitar recursos e participar de discussões.
Como posso obter suporte para o Greenplum Database?
Você pode obter suporte para o banco de dados Greenplum entrando em contato com a equipe Greenplum em , onde você pode fazer e responder perguntas relacionadas ao Greenplum Database.
Como posso atualizar para a versão mais recente do banco de dados Greenplum?
Você pode atualizar para a versão mais recente do banco de dados Greenplum seguindo as instruções em , onde você pode encontrar as etapas para atualizar de diferentes versões do Greenplum Database. Você também pode usar o utilitário gpupgrade, que é uma ferramenta que automatiza o processo de atualização e minimiza o tempo de inatividade.
0517a86e26
Comments