textanalysis.classactivity

class textanalysis.classactivity.News(newsfile='news.txt')[código fonte]

Implementa a atividade descrita em Atividade da Aula.

Parâmetros

newsfile (str) – Nome do arquivo contendo a notícia a ser analisada (veja a propriedade text para mais detalhes)

property stopwords: list[str]

Propriedade que define a lista de stopwords

Tipo de retorno

list[str]

Retorna

lista de stopwords

property newsfile: str

Propriedade que define o nome do arquivo de notícia

Tipo de retorno

str

Retorna

Nome do arquivo de notícia

property text: str

Conteúdo do arquivo definido em newsfile

Na primeira execução, abre o arquivo definido em newsfile como somente leitura, armazena e retorna seu conteúdo. Nas execuções seguintes, apenas retorna o valor armazenado.

Tipo de retorno

str

Retorna

conteúdo do arquivo definido em newsfile

property sents: collections.abc.Iterator[list[str]]

Gera a lista de sentenças tokenizada

Gera um iterador sobre cada sentença encontrada em text. Ao tokenizar (utilizando as funções nltk.tokenize.sent_tokenize() e nltk.tokenize.word_tokenize(), a sentença se torna uma lista de tokens.

Tipo de retorno

Iterator[list[str]]

Retorna

iterador de lista de sentenças tokenizadas

property sents_clean: collections.abc.Iterator[list[str]]

Gera a lista de sentenças tokenizadas sem stopwords.

Mesma funcionalidade de sents, porém a sentença não contém tokens definidos em stopwords.

Tipo de retorno

Iterator[list[str]]

Retorna

iterador de lista de sentenças tokenizadas

property sents_len: int

Quantidade de sentenças

Retorna o tamanho da lista de sentenças gerado por sents.

Tipo de retorno

int

Retorna

quantidade de sentenças

property sents_words_len: int

Quantidade de tokens

Contabiliza a quantidade de tokens de todas as sentenças.

Tipo de retorno

int

Retorna

quantidade de tokens em todas as sentaças

property sents_pos: collections.abc.Iterator[list[tuple[str, str]]]

Gera a lista de sentenças com tokens POS

Realiza o tagueamento gramatical das sentenças retornadas por sents utilizando a função nltk.tag.pos_tag_sents().

Tipo de retorno

Iterator[list[tuple[str, str]]]

Retorna

iterador de lista de tokens POS

property sents_ner: collections.abc.Iterator[nltk.tree.Tree]

Gera a lista de sentenças com tokens NER

Realiza o reconhecimento de entidades nomeadas (NER) das sentenças retornadas por sents utilizando a função nltk.chunk.ne_chunk_sents().

Tipo de retorno

Iterator[Tree]

Retorna

iterador de lista de tokens NER

top_words(n=10)[código fonte]

Gera as palavras mais frequentes

Gera as palavras (neste caso, tokens) mais frequentes em text utilizando a classe nltk.probability.FreqDist.

Parâmetros

n (int) – número de palavras a retornar

Tipo de retorno

Iterator[tuple[str, int]]

Retorna

iterador de tupla (palavra, frequência)

top_bigram(n=10)[código fonte]

Gera os bigramas mais frequentes no texto utilizando

Gera os bigramas de text utilzando a classe nltk.probability.FreqDist no resultado da função nltk.util.ngrams().

Parâmetros

n (int) – número de bigramas a retornar

Tipo de retorno

Iterator[tuple[str, int]]

Retorna

iterador de tupla (palavra, frequência)