textanalysis.classactivity
- class textanalysis.classactivity.News(newsfile='news.txt')[código fonte]
Implementa a atividade descrita em Atividade da Aula.
- Parâmetros
newsfile (str) – Nome do arquivo contendo a notícia a ser analisada (veja a propriedade
text
para mais detalhes)
- property newsfile: str
Propriedade que define o nome do arquivo de notícia
- Tipo de retorno
- Retorna
Nome do arquivo de notícia
- property text: str
Conteúdo do arquivo definido em
newsfile
Na primeira execução, abre o arquivo definido em
newsfile
como somente leitura, armazena e retorna seu conteúdo. Nas execuções seguintes, apenas retorna o valor armazenado.
- property sents: collections.abc.Iterator[list[str]]
Gera a lista de sentenças tokenizada
Gera um iterador sobre cada sentença encontrada em
text
. Ao tokenizar (utilizando as funçõesnltk.tokenize.sent_tokenize()
enltk.tokenize.word_tokenize()
, a sentença se torna uma lista de tokens.
- property sents_clean: collections.abc.Iterator[list[str]]
Gera a lista de sentenças tokenizadas sem stopwords.
Mesma funcionalidade de
sents
, porém a sentença não contém tokens definidos emstopwords
.
- property sents_len: int
Quantidade de sentenças
Retorna o tamanho da lista de sentenças gerado por
sents
.- Tipo de retorno
- Retorna
quantidade de sentenças
- property sents_words_len: int
Quantidade de tokens
Contabiliza a quantidade de tokens de todas as sentenças.
- Tipo de retorno
- Retorna
quantidade de tokens em todas as sentaças
- property sents_pos: collections.abc.Iterator[list[tuple[str, str]]]
Gera a lista de sentenças com tokens POS
Realiza o tagueamento gramatical das sentenças retornadas por
sents
utilizando a funçãonltk.tag.pos_tag_sents()
.
- property sents_ner: collections.abc.Iterator[nltk.tree.Tree]
Gera a lista de sentenças com tokens NER
Realiza o reconhecimento de entidades nomeadas (NER) das sentenças retornadas por
sents
utilizando a funçãonltk.chunk.ne_chunk_sents()
.
- top_words(n=10)[código fonte]
Gera as palavras mais frequentes
Gera as palavras (neste caso, tokens) mais frequentes em
text
utilizando a classenltk.probability.FreqDist
.
- top_bigram(n=10)[código fonte]
Gera os bigramas mais frequentes no texto utilizando
Gera os bigramas de
text
utilzando a classenltk.probability.FreqDist
no resultado da funçãonltk.util.ngrams()
.