Atividade da Aula

Ver também

Resultados > Resultados de Análise de Texto

Selecione uma notícia completa, copie-a e salve-a em um arquivo de texto. Utilize a notícia baixada e crie um script que realize o que se pede.

Contar o número de palavras no texto

Implementado em textanalysis.classactivity.News.sents_words_len

    @property
    def sents_words_len(self) -> int:
        """Quantidade de tokens

        Contabiliza a quantidade de tokens de todas as sentenças.

        :return: quantidade de tokens em todas as sentaças
        """
        return sum([1 for _ in self.sents for _ in _])

    @property
    def sents(self) -> Iterator[list[str]]:
        """Gera a lista de sentenças tokenizada

        Gera um iterador sobre cada sentença encontrada em :attr:`text`. Ao
        tokenizar (utilizando as funções :func:`nltk.tokenize.sent_tokenize` e
        :func:`nltk.tokenize.word_tokenize`, a sentença se torna uma lista de
        tokens.

        :return: iterador de lista de sentenças tokenizadas
        """
        for sent in nltk.tokenize.sent_tokenize(self.text):
            sent = sent.replace('\n', ' ')
            sent = nltk.tokenize.word_tokenize(sent)
            yield sent

Imprimir as 10 palavras mais utilizadas

Implementado em textanalysis.classactivity.News.top_words

    def top_words(self, n: int = 10) -> Iterator[tuple[str, int]]:
        """Gera as palavras mais frequentes

        Gera as palavras (neste caso, tokens) mais frequentes em :attr:`text`
        utilizando a classe :class:`nltk.probability.FreqDist`.

        :param n: número de palavras a retornar
        :type n: int
        :return: iterador de tupla (palavra, frequência)
        """
        freq = nltk.probability.FreqDist(_ for _ in self.sents_clean for _ in _)

        for word, top in freq.most_common(n):
            yield word, top

    @property
    def sents_clean(self) -> Iterator[list[str]]:
        """Gera a lista de sentenças tokenizadas sem *stopwords*.

        Mesma funcionalidade de :attr:`sents`, porém a sentença não contém
        tokens definidos em :attr:`stopwords`.

        :return: iterador de lista de sentenças tokenizadas
        """
        for sent in self.sents:
            for word in sent:
                if word.lower() in self.stopwords:
                    sent.remove(word)
            for word in sent:
                if word.lower() in self.stopwords:
                    sent.remove(word)
            yield sent

Imprimir os 10 bigramas mais utilizados

Implementado em textanalysis.classactivity.News.top_bigram

    def top_bigram(self, n: int = 10) -> Iterator[tuple[str, int]]:
        """Gera os bigramas mais frequentes no texto utilizando

        Gera os bigramas de :attr:`text` utilzando a classe
        :class:`nltk.probability.FreqDist` no resultado da função
        :func:`nltk.util.ngrams`.

        :param n: número de bigramas a retornar
        :type n: int
        :return: iterador de tupla (palavra, frequência)
        """
        bigrams = nltk.ngrams([_ for _ in self.sents_clean for _ in _], 2)
        freq = nltk.probability.FreqDist(bigrams)
        for bigram, top in freq.most_common(n):
            yield bigram, top

Contar o número de sentenças no texto

Implementado em textanalysis.classactivity.News.sents_len

    @property
    def sents_len(self) -> int:
        """Quantidade de sentenças

        Retorna o tamanho da lista de sentenças gerado por :attr:`sents`.

        :return: quantidade de sentenças
        """
        return sum([1 for _ in self.sents])

Realizar a classificação gramatical (POS e NER)

Implementado em textanalysis.classactivity.News.sents_pos

    @property
    def sents_pos(self) -> Iterator[list[tuple[str, str]]]:
        """Gera a lista de sentenças com tokens POS

        Realiza o tagueamento gramatical das sentenças retornadas por
        :attr:`sents` utilizando a função :func:`nltk.tag.pos_tag_sents`.

        :return: iterador de lista de tokens POS
        """
        for sent in nltk.tag.pos_tag_sents(self.sents):
            yield sent

    @property
    def sents_ner(self) -> Iterator[nltk.tree.Tree]:
        """Gera a lista de sentenças com tokens NER

        Realiza o reconhecimento de entidades nomeadas (NER) das sentenças
        retornadas por :attr:`sents` utilizando a função
        :func:`nltk.chunk.ne_chunk_sents`.

        :return: iterador de lista de tokens NER
        """
        for sent in nltk.chunk.ne_chunk_sents(self.sents_pos):
            yield sent