Exercícios da Apostila 1

Ver também

Resultados > Resultados de Análise de Texto

Apostila 1 Exercitando 01

Execute o que se pede. Logo após, cole a solução do exercício neste documento. Lembre-se de salvar seu programa, para estudos posteriores.

Imprima as palavras dos documentos neg/cv002_tok-3321.txt e pos/cv003_tok-8338.txt

Implementado em textanalysis.booklet.booklet1.Ex01.words()

    def words(self, fileid: str, category: Optional[str] = None) -> iter[str]:
        """Iterador das palavras do corpus com ID ``fileid``

        :param fileid: ID desejado
        :type fileid: str

        :param category: Categoria desejada
        :type category: str

        :return: Iterador de string
        """
        for fid in self.findid(fileid, category):
            for word in self.corpus.wordlist(fid):
                yield word

Apostila 1 Exercitando 02

Execute o que se pede. Logo após, cole a solução do exercício neste documento. Lembre-se de salvar seu programa, para estudos posteriores.

Utilize o arquivo Noticia_1 disponível na pasta de dados da turma e liste os 50 bigramas e trigramas mais frequentes obtidos do texto.

Implementado em textanalysis.booklet.booklet1.Ex02.top_bigrams()

    def top_bigrams(self, top: Optional[int] = 20) -> iter[BiGramFreq]:
        """

        :param top:
        :type top: int

        :return: Iterador de tupla
        """
        for obj, freq in nltk.FreqDist(self.bigrams).most_common(top):
            yield obj, freq

Implementado em textanalysis.booklet.booklet1.Ex02.top_trigrams()

    def top_trigrams(self, top: Optional[int] = 20) -> iter[TriGramFreq]:
        """

        :param top:
        :type top: int

        :return: Iterador de tupla
        """
        for obj, freq in nltk.FreqDist(self.trigrams).most_common(top):
            yield obj, freq

Apostila 1 Exercitando 03

Execute o que se pede. Logo após, cole a solução do exercício neste documento. Lembre-se de salvar seu programa, para estudos posteriores.

Analise a frequência das palavras ['the', 'that'] no arquivo singles.txt e, depois, no arquivo pirates.txt.

Implementado em textanalysis.booklet.booklet1.Ex03.tokens_freq()

    @property
    def tokens_freq(self) -> nltk.FreqDist:
        return nltk.FreqDist(self.tokens)

Inclua a geração do gráfico de frequência.

Implementado em textanalysis.booklet.booklet1.Ex03.tokens_freq_plot()

    def tokens_freq_plot(self) -> str:
        out = dsutils.datadir.join(self.file.split('.')[0] + '.png')

        fig = pyplot.figure(figsize=(10, 4))
        pyplot.ion()
        self.tokens_freq.plot(50, cumulative=False)
        fig.savefig(out, bbox_inches="tight")
        pyplot.ioff()

        return out

Gere a lista dos 15 bigramas mais frequentes do texto.

Implementado em textanalysis.booklet.booklet1.Ex03.top_bigrams()

    @property
    def top_bigrams(self) -> list[BiGramFreq]:
        return nltk.FreqDist(self.bigrams).most_common(15)

Gere a lista dos 20 quadrigramas gramas mais frequentes que possuam a palavra life.

Implementado em textanalysis.booklet.booklet1.Ex03.top_life_quadrigrams()

    @property
    def top_life_quadrigrams(self) -> list[QuadriGramFreq]:
        return nltk.FreqDist(self.quadrigrams('life')).most_common(20)

Apostila 1 Exercitando 04

Execute o que se pede. Logo após, cole a solução do exercício neste documento. Lembre-se de salvar seu programa, para estudos posteriores.

O NLTK possui um corpus com as obras de Machado de Assis (from nltk.corpus import machado):

Execute print(machado.readme()) para conhecer melhor o corpus
Utilizando o corpus machado, elabore um programa que atenda aos requisitos:
1. Quais são as categorias presentes no corpus?
2. Quais são os documentos dentro desse corpus?
3. Imprima o conteúdo do arquivo do documento que contem a obra Memórias Postumas de Braz Cubas.
4. Analise a frequência das palavras ['olhos', 'estado'] em Memórias Postumas de Bras Cubas.
5. Quantas palavras há no texto? Use len(texto).
6. Quantas palavras distintas há na obra?
7. Qual é o vocabulário (palavras) presentes na obra?
8. Quais são os 15 termos mais repetidos no texto de Machado de Assis?
9. Tabular a frequência de palavras.
10. Gerar um gráfico com os 15 termos mais repetidos.
11. Remova os termos indesejados e repita as questões h a j.
12. Obter a lista de todos os trigramas do texto.
13. Obter a lista dos 15 bigramas que contenham a palavra olhos.
14. Gerar o gráfico dos bigramas com a palavra olhos.

Implementado na função textanalysis.booklet.booklet1.ex04()

def ex04():
    # Execute print(machado.readme()) para conhecer melhor o corpus
    print(machado.readme())

    # Utilizando o corpus machado, elabore um programa que atenda aos
    # requisitos:

    # a. Quais são as categorias presentes no corpus?
    print('Categorias: {}'.format(machado.categories()))

    # b. Quais são os documentos dentro desse corpus?
    print('Documentos: {}'.format(machado.fileids()))

    # c. Imprima o conteúdo do arquivo do documento que contem a obra
    #    Memórias Postumas de Braz Cubas
    book_fileid = 'romance/marm05.txt'
    print(machado.raw(book_fileid))

    # d. Analise a frequência das palavras [‘olhos’,’estado’] em
    #    Memórias Postumas de Bras Cubas
    book_text = machado.raw(book_fileid)
    book_tokens = tokenize.word_tokenize(book_text)
    book_freq = nltk.FreqDist(book_tokens)

    for w in ['olhos', 'estado']:
        print('Frequência da palavra {:>8s} : {:03}'.format(w, book_freq[w]))

    # e. Quantas palavras há no texto? Use len(texto)
    print('Total de palavras: {}'.format(len(book_text)))

    # f. Quantas palavras distintas há na obra?
    print('Total de palavras distintas: {}'.format(len(book_freq)))

    # g. Qual é o vocabulário (palavras) presentes na obra?
    print('Vocabulário: {}'.format(book_freq.keys()))

    # h. Quais são os 15 termos mais repetidos no texto de Machado de Assis?
    print('\n{:25s} {}'.format('Top 15', 'Frequência'))
    for w, f in book_freq.most_common(15):
        print('{:25s} {:03}'.format(w, f))

    # i. Tabular a frequência de palavras
    print('\n')
    book_freq.tabulate(15, cumulative=False)

    # j. Gerar um gráfico com os 15 termos mais repetidos
    book_freq.plot(15, title='Top 15 words', cumulative=False)

    # k. Remova os termos indesejados  e repita as questões 'h' a 'j'
    book_stopwords = stopwords.wordlist('portuguese')
    book_stopwords += ['\x97', '...', 'd.']
    book_stopwords += [p for p in string.punctuation]
    book_tokens = [t.lower() for t in book_tokens
                   if t.lower() not in book_stopwords]
    book_freq = nltk.FreqDist(book_tokens)

    print('\n{:25s} {}'.format('Top 15', 'Frequência'))
    for w, f in book_freq.most_common(15):
        print('{:25s} {:03}'.format(w, f))

    print('\n')
    book_freq.tabulate(15, cumulative=False)

    book_freq.plot(15, title='Top 15 words', cumulative=False)

    # l. Obter a lista de todos os trigramas do texto
    for trigram in ngrams(book_tokens, 3):
        print('{:35s}'.format(str(trigram)))

    # m. Obter a lista dos 15 bigramas que contenham a palavra 'olhos'
    olhos_bigram = [ng for ng in ngrams(book_tokens, 2) if 'olhos' in ng]
    olhos_freq = nltk.FreqDist(olhos_bigram)
    print('\n{:30s} {}'.format('Top 15 Olhos', 'Frequência'))
    for b, f in olhos_freq.most_common(15):
        print('{:30s} {:03}'.format(str(b), f))

    # n. Gerar o gráfico dos bigramas com a palavra 'olhos'
    olhos_freq.plot(15, cumulative=True)