ОБРАБОТКА ТЕКСТА В PYTHON

Edu.Vsu.Ru

Автор Николай Петрович На чтение 25 мин Опубликовано 18.12.2023

Коллокации — это фразы или выражения, состоящие из нескольких слов, которые с высокой вероятностью могут встречаться одновременно. Например — «социальные сети», «школьные каникулы», «машинное обучение», «Universal Studios Singapore» и т. д.

Словосочетания
два или более слова, которые часто встречаются вместе, например – Соединенные Штаты
. Есть много других слов, которые могут идти после United, например, United Kingdom и United Airlines. Как и во многих аспектах обработки естественного языка, контекст очень важен. А для словосочетаний контекст — это все. В случае словосочетаний контекстом будет документ в виде списка слов. Обнаружить словосочетания в этом списке слов означает найти общие фразы, которые часто встречаются в тексте.
Ссылка на ДАННЫЕ –
Монти Пайтон и сценарий Святого Грааля
Код №1: Загрузка библиотек

  
   # Инструментарий естественного языка: словосочетания и меры ассоциации 




   # URL:  

   # Информацию о лицензии см. в разделе ЛИЦЕНЗИЯ. ТХТ 



   Инструменты для определения словосочетаний --- слова, которые часто появляются подряд 

   --- внутри корпуса. Их также можно использовать для поиска других ассоциаций между 


   См. Manning and Schutze гл. 5 на https://nlp.stanford.edu/fsnlp/promo/colloc.pdf 

   и пакет Text::NSP Perl на http://ngram.sourceforge.net 


   Для поиска словосочетаний необходимо сначала вычислить частоты слов и 

   их появление в контексте других слов. Часто сборник слов 

   тогда потребуется фильтрация, чтобы сохранить только полезные термины контента. Каждый нграмм 

   слов затем можно оценить в соответствии с некоторой мерой ассоциации, чтобы 

  , чтобы определить относительную вероятность того, что каждая нграмма является словосочетанием. 


   Классы ``BigramCollocationFinder`` и ``TrigramCollocationFinder`` предоставляют 

   эти функциональные возможности, в зависимости от предоставления функции, которая оценивается 

   нграмм с учетом соответствующих частот. Ряд стандартных ассоциаций 

   меры представлены в bigram_measures и trigram_measures. 



   # Возможные задачи: 

   # - рассмотрим разницу между f(x,_) и f(x) и будет ли наш 

   # аппроксимация достаточно хороша для фрагментированных данных, и упомяните об этом 

   # — добавить средство поиска коллокаций n-грамм с мерами, которые используют только n-граммы 

   # и количество униграмм (raw_freq, pmi, Student_t) 


 

   # на эти два неиспользуемых импорта есть ссылки в collocations.doctest 

 
 
 
 
 

 
 
 


 
 
   Абстрактный базовый класс для поиска словосочетаний, целью которого является 

   собирает частоты кандидатов на словосочетания, фильтрует и ранжирует их. 


   Как минимум, средства поиска коллокаций требуют частоты каждого 

   слово в корпусе и совместная частота кортежей слов. Эти данные 

   следует предоставить через nltk.probability. Объекты FreqDist или 




 
 
 
 

 
 
 
 
 
   Заполните документ заполнителем в соответствии с размером окна 


 
 
 
 
 
 
 
 
 

 
 
   """Создает средство поиска словосочетаний по набору документов, 

  , каждый из которых представляет собой список (или повторяемый) токенов. 


   # return cls.from_words(_itertools.chain(*documents)) 

 
 
 

 
 
 

 
   """Общий фильтр удаляет нграммы из распределения частот 

  , если функция возвращает True при передаче кортежа ngram. 


 
 
 
 
 

 
   """Удаляет кандидатные nграммы, частота которых меньше min_freq.""" 

 

 
 
   имеет значение True. 


 

 
 


 

 
   """ Формирует пары (нграмм, оценка) в соответствии с оценкой 



 
 
 
 

 
   """Возвращает последовательность пар (нграмм, оценка), упорядоченных от наибольшего до .

   наименьший балл, определенный с помощью предоставленной функции оценки. 


 

 
   """Возвращает первые n граммов при оценке заданной функцией.""" 

 

 
   """Возвращает последовательность нграмм, упорядоченную по убыванию значения, чья 

   баллов превышают заданный минимальный балл. 


 
 
 
 
 


  



  



  





  



  



  



 
   """Находит словосочетания биграмм в файлах корпуса WebText.""" 

 
 
 
 
 

 
 
 
 

 

 
 

 
 

 
 
 

 
 
 
 
 
 
 


   # Слишком сильно замедляет загрузку 

   # bigram_measures = BigramAssocMeasures() 

   # trigram_measures = TrigramAssocMeasures()

Содержание

Джейми Лу
Блог
О
Часть I: Парсинг веб-страниц
Часть II: Обработка текста
Часть III: Словосочетания
Заключение
Методы корпусной лингвистики #
Подготовка данных корпуса #
Коллокации #
Применить фильтры #
POS-сочетания #
Коллокации, основанные на пропущенных биграммах #
Подсчет Нграмм #
Получить n-граммы #
Дисперсия #
Дельта П #
Проверка точности вычислений #
Согласие #
Список частот #
Список условных частот #
Зачем нужны словосочетания?
Питон3
Пример использования словосочетаний¶
Коллокации ¶
Обзор ¶
Искатели ¶
Фильтрация кандидатов ¶
Использование значений таблицы сопряженности ¶
Ранжирование и корреляция ¶
Ключевые слова ¶
Нлтк. словосочетания. BigramCollocationFinder¶
Основная идея
Питон3
Питон3
Решение для автоматического извлечения ключевых слов из документов. Реализовано на Python с помощью NLTK и Scikit-learn.

Джейми Лу

Аналитика и проектирование данных

Блог

О

Обработка текста в Python: словосочетания

Обработка текста в Python: словосочетания | Джейми Лу — Проектирование и визуализация анализа данных

Коллокации
Биграм
Триграмма

21 июля 2019 г.

Основываясь на моем предыдущем посте об обработке текста в Python, в котором описывался анализ отдельных слов из текстового резюме. В этом посте объясняется, как идентифицировать фразы из 2 и 3 слов .
с веб-страницы, в частности, фильтруя большой корпус текста на биграммы и триграммы с помощью пакета словосочетаний. Для анализа я выбрал текст со страницы википедии о песне «Надежда»
от The Chainsmokers, один из самых популярных саундтреков на Spotify, с которым я недавно столкнулся.

Часть I: Парсинг веб-страниц

Сначала укажите URL-адрес веб-страницы для выполнения обработки текста.

urllib.request
Модуль поможет нам сканировать веб-страницу, получая несколько элементов, таких как теги HTML, CSS, JavaScript и веб-контент.

Мы будем использовать Красивый суп
это библиотека Python для извлечения данных из файлов HTML и XML. BeautifulSoup предоставляет простой способ поиска текстового содержимого (т. е. не HTML) из HTML:

Однако найденный текст, скорее всего, будет содержать несколько элементов, которые мы не хотим включать в наше упражнение по предварительной обработке текста. Составьте список ненужных предметов и сохраните его как blacklist
.

Часть II: Обработка текста

Сначала загрузите библиотеку Python Natural Language Toolkit (NLTK):

Это позволит загрузчику NLTK выбрать, какие пакеты необходимо установить. Я скачал All Collections
для этого упражнения.

Далее нам нужно преобразовать весь выходной текст в нижний регистр, поскольку «Надежда» и «Надежда» будут читаться как два разных слова.

 # convert output text to lowercase

Теперь у нас есть список текста в нижнем регистре, полученный с веб-страницы, давайте преобразуем выходной_нижний в токены слов.

Далее, чтобы нормализовать токенизированные слова
, нам нужно удалить знаки препинания и пустые строки ''
от word_tokens
:

    
               
# remove empty strings

Часть III: Словосочетания

Коллокации — это выражения, состоящие из двух или более слов, которые соответствуют некоторому общепринятому способу высказывания вещей. Коллокации включают такие существительные, как романтическая любовь .
и оружие массового поражения
, фразовые глаголы типа , чтобы составить
и другие стандартные фразы, такие как богатые и влиятельные.

Коллокации важны для ряда приложений: генерация естественного языка (чтобы убедиться, что результат звучит естественно и ошибки, такие как идеализированная любовь
или принять решение
избегаются), компьютерная лексикография (для автоматического определения важных словосочетаний, которые будут перечислены в словарной статье), синтаксический анализ (чтобы можно было отдать предпочтение синтаксическому анализу с естественными словосочетаниями) и корпусные лингвистические исследования.

Теперь давайте добавим пакет словосочетаний из библиотеки nltk. Пакет словосочетаний предоставляет средства поиска словосочетаний, которые по умолчанию рассматривают все ngrams в тексте как возможные словосочетания:

Всех нграмм в тексте зачастую слишком много, чтобы их можно было использовать при поиске словосочетаний. Обычно полезно удалить некоторые стоп-слова или знаки препинания и установить минимальную частоту использования возможных словосочетаний.

 #get english stopwords
  
#function to filter for ADJ/NN bigrams

Выходные данные кадра filtered_bi
будет выглядеть так:

filtered_bi

Теперь попробуем отфильтровать триграммы:

 #function to filter for trigrams

Выходные данные кадра filtered_tri
будет выглядеть так:

filtered_tri

Заключение

Из результатов отфильтрованных биграмм и триграмм мы можем примерно сделать несколько выводов:

Песня «Hope» — результат сотрудничества The Chainsmokers и Вайноны Оук.
Это популярная танцевальная электронная песня, которая попала в чарты рекламных щитов.
А для поклонников The Chainsmokers вы, вероятно, легко определите, что песня «Hope» — один из синглов со второго студийного альбома The Chainsmokers под названием Sick Boy.
.

Интересно, не правда ли?

Методы корпусной лингвистики #

С
, мы легко можем реализовать немало корпусно-лингвистических методов
- Анализ соответствия (простой поиск слов)
- Анализ данных с помощью R
- Анализ соответствия (паттерны, конструкции?)
  - Образцы в строках предложений
  - Шаблоны в строках словесных тегов предложений

Подготовка данных корпуса #

Коллокации #

: Получите
который мы можем использовать для поиска n-грамм
: Получите
для определения словосочетаний (также доступно в
)
Использовать
методы выбора/фильтрации словосочетаний

  
   ## Словосочетания на основе текста

  
   ## биграммные словосочетания, основанные на различных мерах ассоциации

  
[('10 000 долларов в год', 'Рождённый во Франции'),
 («79,89 долларов», «ничего»),
 («$8,50», «вкладка»),
 («низкий», «негра»),
 («0,5 мВ/м», «50 процентов»),
 ('0,78', 'мэкв'),
 («1100», «ограничения»),
 («1 257 700», «несельскохозяйственные»),
 («11 дюймов», «запас высоты»),
 («11 выстрелов», «Безударный»)]

Применить фильтры #

Мы можем создать анонимную функцию в качестве помощника для удаления ненужных токенов слов перед вычислением словосочетания.

Например, удалим:

токены слов, длина символов которых < 3
жетоны слов, относящиеся к стоп-словам
словесные токены, содержащие хотя бы один неалфавитный символ

  
   ## Применить фильтры на основе частоты для биграммных словосочетаний 



   ## Применить функцию фильтрации слов 

 
 


 


   # фильтр по лексемам слов 

   # фильтр по биграммным минимальным частотам

  
[('Гонконг'),
 («Вьет», «Нам»),
 («Патет», «Лао»),
 («Симмс», «Пурдью»),
 ('Внутренний доход'),
 ('Пуэрто-Рико'),
 («Саксонец», «Берег»),
 («углерод», «тетрахлорид»),
 («незамужние», «матери»),
 ('Вооруженные силы')]

POS-сочетания #

  
   ## Создание коллокаций только на основе тегов

  
[('ADP', 'DET'),
 («ДЕТ», «СУЩЕСТВИТЕЛЬНОЕ»),
 («ПРОН», «ГЛАГОЛ»),
 («ADJ», «СУЩЕСТВИТЕЛЬНОЕ»),
 ('СУЩЕСТВИТЕЛЬНОЕ', '.'),
 («СУЩЕСТВИТЕЛЬНОЕ», «ДЕТ»),
 («ДЕТ», «АДЖ»),
 («СУЩЕСТВИТЕЛЬНОЕ», «АДП»),
 («ПРТ», «ГЛАГОЛ»),
 («ADP», «.»)]

Коллокации, основанные на пропущенных биграммах #

  
   ## Создание словосочетаний с промежуточными словами (n-граммы с пробелами)

  
[('Соединенные Штаты'),
 ('Нью-Йорк'),
 ('процент'),
 ('Род-Айленд'),
 ('много лет назад'),
 ('Лос-Анджелес'),
 ('Белый дом'),
 ('Корпус мира'),
 ('Мировая война'),
 ('Сан-Франциско')]

Подсчет Нграмм #

  
[(('Соединенные Штаты', 'Штаты'), 0,0003375841376792124),
 (('Нью', 'Йорк'), 0,00025491047130879306),
 (('за', 'цент'), 0,00012573286760501277),
 (('лет', 'назад'), 0,0001171210273580941),
 (('The', 'первый'), 8.267366637041936e-05),
 (('Род', 'Остров'), 7.750656222226816e-05),
 (('мог', 'видеть'), 7.492301014819255e-05),
 (('прошлый', 'год'), 5.856051367904705e-05),
 (('первый', 'время'), 5.769932965435518e-05),
 (('Белый', 'Дом'), 5.5976961604971446e-05)]

  
('Гонконг')
(«Вьет», «Нам»)
(«Патет», «Лао»)
(«Симмс», «Пурдью»)
('Внутренний доход')
('Пуэрто-Рико')
(«Саксонец», «Берег»)
(«углерод», «тетрахлорид»)
(«незамужние», «матери»)

Получить n-граммы #

— это распаковка вложенного списка и использование каждого элемента в качестве входных данных для вызова функции.
Поэтому мы можем использовать
чтобы отменить вложенный список. (Похоже на
в Р.

  
[(1, 2), (2, 3), (3, 4)]
[(1, 2, 3), (2, 3, 4), (3, 4, 5)]

Дисперсия #

Рассредоточение языковой единицы также важно.
Должен быть показатель, показывающий, насколько равномерно распределена языковая единица.

Как получить документальную частоту биграмм???

  
   # список частот ngram каждого файла в корпусе

  
   ## Функция для получения униграммной дисперсии

  
 
   # Словарь нельзя разрезать/подмножество 

   # Получить элементы() и преобразовать в список для подмножества

  
[('The', 500),
 («Фултон», 3),
 («Каунти», 45),
 («Гранд», 17),
 («Жюри», 4),
 («сказал», 314),
 («Пятница», 34),
 («ан», 498),
 («расследование», 34),
 ('из', 500),
 («Атланта», 2),
 («недавний», 114),
 («первичный», 59),
 («выборы», 28),
 («произведено», 66),
 ('``', 462),
 («нет», 455),
 («доказательства», 119),
 («''», 463),
 («это», 500)]

  
[('The_Fulton', 1),
 («Фултон_Каунти», 6),
 («Каунти_Гранд», 1),
 («Большое_Жюри», 2),
 («Жюри_сказал», 1),
 («сказал_Пятница», 4),
 («Пятница_ан», 1),
 («ан_расследование», 7),
 ('расследование_оф', 15),
 ("Из_Атланты", 1),
 («Последние_Атланты», 1),
 ('recent_primary', 1),
 ('primary_election', 2),
 ('election_produced', 1),
 ('произведено_``', 1),
 ('``_нет', 6),
 ('no_evidence', 14),
 ("evidence_''", 3),
 («''_это», 16),
 ('that_any', 31)]

  
[('The_Fulton', 1),
 («Фултон_Каунти», 1),
 («Каунти_Гранд», 1),
 («Большое_Жюри», 2),
 («Жюри_сказал», 1),
 («сказал_Пятница», 3),
 («Пятница_ан», 1),
 («ан_расследование», 7),
 («расследование_оф», 14),
 ("Из_Атланты", 1),
 («Последние_Атланты», 1),
 ('recent_primary', 1),
 ('primary_election', 2),
 ('election_produced', 1),
 ('произведено_``', 1),
 ('``_нет', 6),
 ('no_evidence', 12),
 ("evidence_''", 3),
 («''_это», 16),
 ('that_any', 30)]

Мы можем реализовать метрику дисперсии Delta P, предложенную Грайсом (2008)
.

Дельта П #

Это показатель направленной ассоциации.

  
   ## Наследовать BigramAssocMeasures 

 
 
 
   
   """Оценивает нграммы по их частоте""" 

 
 
 
 
 
   
   """Вычисляет биграммы с использованием DP вперед 

   Это может быть показано относительно таблицы непредвиденных обстоятельств:: 


   w1 ~w1 






   = n_ix ВСЕГО = n_xx 


 
 

 

 
 
   
   """Вычисляет биграммы, используя DP в обратном направлении 

   Это может быть показано относительно таблицы непредвиденных обстоятельств:: 


   w1 ~w1 






   = n_ix ВСЕГО = n_xx

  
[(('10 000 долларов в год', 'Рожденный во Франции'), 1.0),
 (('$79,89', 'ничего'), 1,0),
 (('$8,50', 'вкладка'), 1,0),
 (("низкий", "негры"), 1.0),
 (('0,5-мв./м', '50-процент'), 1,0),
 (('0,78', 'мэкв'), 1,0),
 (('1100', 'ограничения'), 1,0),
 (('1 257 700', 'несельскохозяйственное'), 1,0),
 (('11 дюймов', 'высота'), 1,0),
 (('11-зарядный', 'безударный'), 1.0)]

  
[(('10 000 долларов в год', 'Рожденный во Франции'), 1.0),
 (('$79,89', 'ничего'), 1,0),
 (('$8,50', 'вкладка'), 1,0),
 (("низкий", "негры"), 1.0),
 (('0,5-мв./м', '50-процент'), 1,0),
 (('0,78', 'мэкв'), 1,0),
 (('1100', 'ограничения'), 1,0),
 (('1 257 700', 'несельскохозяйственное'), 1,0),
 (('11 дюймов', 'высота'), 1,0),
 (('11-зарядный', 'безударный'), 1.0)]

Проверка точности вычислений #

Проверьте правильность расчета DP.

  
[(('из', 'the'), 9625.0),
 ((',', 'и'), 6288.0),
 (('.', 'The'), 6081.0),
 (('в', 'the'), 5546.0),
 ((',', 'the'), 3754.0),
 (('.', '``'), 3515.0),
 (('к', 'the'), 3426.0),
 (("''", '.'), 3332.0),
 ((';', ';'), 2784.0),
 (('.', 'Он'), 2660.0)]

  
 
 
 
 


   w1 _w1 

   w2 w1w2 ____ w2f 

   _w2 ____ ____ 

   w1f corpus_size

  
36080 62713 9625,0 1161192

  
   'Delta P вперед для `of the`:' 
 
   'Delta P назад для `of the`:'

  
Дельта П Форвард для `из`: 0,2195836568422283
Дельта P назад для `из`: 0,12939364991590951

  
[0,2195836568422283]
[0,12939364991590951]

Как реализовать дельта П триграмм?

  
   # наследовать Триграмму 

 
 
   

   Коллекция мер ассоциации триграмм. Каждая мера ассоциации 

   предоставляется как функция с четырьмя аргументами:: 



   (n_iix, n_ixi, n_xii), 

   (n_ixx, n_xix, n_xxi), 



   Аргументы представляют собой маргинальные значения таблицы сопряженности, считая 

   возникновение определенных событий в корпусе. Буква я в 

  Суффикс  указывает на появление рассматриваемого слова, а x указывает на 

   появление какого-либо слова. Так, например: 

   n_iii учитывается (w1, w2, w3), т.е. оцениваемая триграмма 

   n_ixx считается (w1, *, *) 

   n_xxx считается (*, *, *), т.е. любая триграмма 


 
 
 
   

   Оценивает триграммы с использованием дельты P вперед, т.е. условной вероятности w3 с учетом w1,w2 

   минус условная вероятность w3, при отсутствии w1,w2 


 

 
 
 
   

   Оценивает триграммы с использованием дельты P в обратном направлении, т.е. условную проверку w1 с учетом w2,w3 

   минус условная вероятность w1, при отсутствии w2,w3

  
[("Лекарство", "химическое вещество", "название"),
 («Браун», «&», «Шарп»),
 («Б.», «&», «О.»),
 ('доход на душу населения'),
 («Джон», «А.», «Нотте»),
 («средний», «на душу населения»),
 («Генерал», «Моторс», «Сток»),
 («базовый», «заработная плата», «ставка»),
 («Мир», «Война», «2»),
 ('Газета "Нью-Йорк Таймс')]

  
[('the', 'Ло', 'Шу'),
 («средний», «на душу населения»),
 («из», «Экономический», «Дела»),
 («the», «минимальный», «полиномиальный»),
 («Б.», «&», «О.»),
 («The», «Экспорт-Импорт», «Банк»),
 ('Торговая палата'),
 («Нотте», «,», «младший»),
 ('.', «Наркотики», «химия»),
 («т.», «Юнайтед», «Штаты»)]

  
[('Пуэрто-Рико', ','),
 ('Лос-Анджелес', ','),
 («доминант», «стресс», «воля»),
 ('пару недель'),
 («А.», «Нотте», «,»)),
 («Соединенные Штаты», «Штаты», «есть»),
 («Браун», «&», «Шарп»),
 («Отдел», «Отдел», «Экономический»),
 ('мальчики и девочки'),
 («Генерал», «Моторс», «Сток»)]

Согласие #

  
   ## Простые симфонии

  
Показаны 5 из 569 совпадений:
завтра вечером передаст американскому народу по общенациональному телевидению
налоги на социальное обеспечение для 70 миллионов американских рабочих будут повышены, чтобы оплатить
o ушел с поста вице-президента American Screw Co. в 1955 году сказал: «Оба р.
мы были избраны подавляющим большинством американского народа президентом Соединенных Штатов.
Пример: В прошлом месяце в Гане американский миссионер по прибытии обнаружил

  
   ## Соответствия регулярных выражений 

 
 
 
 


   # для совпадения в мишенях: 

   # print(match.strip())

  
«Городскому отделу закупок, - заявило жюри, - из-за городской кадровой политики не хватает опытных канцелярских кадров».

Список частот #

  
   ## частоты слов

  
[('the', 62713),
 (',', 58334),
 ('.', 49346),
 ('из', 36080),
 ('и', 27915),
 («кому», 25732),
 («а», 21881),
 («в», 19536),
 («это», 10237),
 ('есть', 10011)]

  
   ## существительные частота

Сортировка кадра данных:

433 строки × 2 столбца

Мы также можем передать кадр данных в R для исследования данных.

  
 -i Brown_fd_nouns_df

библиотека (дплир)
Brown_fd_nouns_df %>%
фильтр(частота > 100) %>%
организовать(деска(частота), слово) %>%
голова

  
Р[записать в консоль]:
Прикрепляемый пакет: «dplyr»


R[записать в консоль]: Следующие объекты замаскированы из «package:stats»:

 фильтр, задержка


R[запись в консоль]: Следующие объекты замаскированы из «package:base»:

 пересечение, setdiff, setequal, объединение

  
 частота слова
243 раз 1597
174 человека 1203
5114 из 995
248 лет 949
779 путь 899
486 человек 845
1011 г. 844
63 состояние 787
1099 мир 787
1227 мужчин 763
1438 жизнь 715
303 день 687
175 год 656
875 штатов 586
278 работа 583
299 дом 582
158 госпожа 534
865 часть 496
9 место 496
340 школа 489
32 номер 470
1801 курс 465
1173 война 463
101 факт 447
590 вода 444
1343 рука 423
896 правительство 418
229 система 416
121 ночь 411
1217 глава 407
1869 глаза 401
756 бизнес 393
12 город 393
72 программа 388
525 группа 386
371 день 384
819 номер 383
656 президент 382
1001 сторона 375
39 конец 369
1246 пункт 369
1254 шт. 368
212 Джон 362
1061 использовать 361
701 дело 360
354 заказать 359
459 детей 355
356 церковь 348
1108 мощность 340
595 развитие 333

Список условных частот #

  
   ## Частотное распределение слов по POS

  
FreqDist({'СУЩЕСТВИТЕЛЬНОЕ': 5, 'ГЛАГОЛ': 1})

  
   ## POS по частотному распределению слов

  
[('есть', 732),
 («был», 717),
 («быть», 526),
 («сказал», 402),
 («будет», 388),
 («есть», 328),
 («имеет», 300),
 («имел», 279),
 («иметь», 265),
 («были», 252)]

  
   ## Частотное распределение слов по жанрам

  
FreqDist({'belles_lettres': 6, "художественная литература": 4, "знания": 3, "религия": 3, "романтика": 3, "ученые": 2, "обзоры": 2, "приключения": 1 , 'юмор': 1, 'научная_фантастика': 1})

  
   # с частотой

  
[('belles_lettres', 6), ('художественная литература', 4), ('предания', 3), ('религия', 3), ('романтика', 3), ('ученый', 2), ( 'обзоры', 2), ('приключения', 1), ('юмор', 1), ('научная_фантастика', 1)]

  
   ## Жанр по частотному распределению слов

  
   ## Жанр по частотному распределению слов

  
 the of и to a в том, что это было для
приключение 3370 1322 1622 1309 1354 847 494 98 914 331
редакция 3508 1976 1302 1554 1095 1001 578 744 308 509
 фантастика 3423 1419 1696 1489 1281 916 530 144 1082 392

  
[('время', 1555), ('человек', 1148), ('Аф', 994), ('леты', 942), ('путь', 883), ('господин', 844), («люди», 809), («мужчины», 736), («мир», 684), («жизнь», 676)]
 время человек Af лет путь г-н люди мужчины мир жизнь
приключение 127 165 0 32 65 22 24 81 15 29
редакционная 72 56 0 63 43 110 75 38 66 35
 фантастика 99 111 0 44 62 39 39 72 24 44

Чем словосочетания отличаются от обычных биграмм или триграмм?
Набор из двух слов, которые встречаются вместе как биграммы, и набор из трех слов, которые встречаются вместе как триграммы, могут не дать нам значимых фраз. Например, предложение «Он применил машинное обучение» содержит биграммы: «Он применил», «применил машину», «машинное обучение». «Он применил» и «применил машину» ничего не значат, а «машинное обучение» — это осмысленная биграмма. Просто рассматривать одновременно встречающиеся слова может быть не очень хорошей идеей, поскольку такие фразы, как «of the», могут часто встречаться вместе, но на самом деле не имеют смысла. Таким образом, потребность в словосочетаниях из библиотеки НЛТК
. Это дает нам только значимые биграммы и триграммы.

Питон3

[('черный', 'рыцарь'),
(«хлоп», «хлоп»),
(«голова», «рыцарь»),
(«бормотать», «бормотать»),
(«скрип», «скрип»),
(«видел», «пилил»),
('Святой Грааль'),
('убегать'),
(«французский», «охранник»),
('мультипликационный персонаж'),
(«иесу», «доминирование»),
(«пирог», «иесу»),
('круглый стол'),
(«сэр», «робин»),
('хлоп', 'хлоп')]

Как это работает в коде?

BigramCollocationFinder
строит два частотных распределения:

по одному на каждое слово

еще один для биграмм.

Распределение частот — это, по сути, расширенный словарь Python, где ключи — это то, что подсчитывается, а значения — это счетчики.

Любые функции фильтрации уменьшают размер, удаляя все слова, не прошедшие фильтр

Использование функции фильтрации для исключения всех слов, состоящих из одного или двух символов, а также всех английских стоп-слов, приводит к гораздо более чистому результату.

После фильтрации средство поиска словосочетаний готово к поиску словосочетаний.

Код #4:
Работаем над тройками, а не над парами.

Зачем нужны словосочетания?

Представьте себе, что у вас есть требование понять текстовые отзывы, оставленные вашими клиентами. Вы хотите понять поведенческие данные, например, кто ваши клиенты, сколько из них посещают вас, чем они интересуются, что они покупают, какими видами деятельности они занимаются и т. д.

Используя распознавание именованных объектов, я извлек некоторые интересные объекты из категорий ЧЕЛОВЕК, СОБЫТИЕ, ДАТА, ПРОДУКТ. Например, «Суббота» в DATE. Затем мне захотелось узнать, что люди пишут о «Субботе» в своих обзорах!

Таким образом, я сузился до нескольких таких широких тем, как «семья», «пара», «праздник», «бранч» и т. д. Словосочетания помогли мне подобрать два или три слова, которые с высокой вероятностью могут сочетаться друг с другом. - происходят вокруг этих тем. Эти два или три слова, которые встречаются вместе, также известны как БиГрам и ТриГрам.

Питон3

biagram_collocation
=
BigramCollocationFinder.from_words(words)

 [("'", 's'),
 («Артур», «:»),
 ('#', '1'),
 («'», 'т'),
 («сельский житель», «#»),
 ('#', '2'),
 (']', '['),
 ('1', ':'),
 ('ой', ', '),
 ('черный рыцарь'),
 («ха», «ха»),
 (':', 'ой'),
 («'», 'ре'),
 («галахад», «:»),
 ('ну', ', ')]

Как мы видим из приведенного выше кода, поиск словосочетаний таким способом не очень полезен. Итак, приведенный ниже код представляет собой усовершенствованную версию, в которую добавлен фильтр слов для удаления знаков препинания и стоп-слов. Код №3:

Пример использования словосочетаний¶

Коллокации ¶

Обзор ¶

Коллокации – это выражения нескольких слов, которые обычно встречаются одновременно. Для
Например, десять лучших словосочетаний биграмм в Бытии перечислены ниже:
измеряется с использованием точечной взаимной информации.

  
 
 
 
 
 
 
 
 

   («Эн», «Мишпат»), («Джегар», «Сахадута»), («Соль», «Море»), 

   («Кто бы», «проливает»), («назначать», «надзиратели»), («ароматический», «смола»),

Хотя эти слова часто сочетаются друг с другом, выражения также очень
нечасто. Поэтому полезно применять фильтры, например, игнорировать все
биграммы, встречающиеся в корпусе менее трех раз:

  

 

   («овцы», «ягнята»), («Большинство», «Высокий»), («много», «цвета»), 

   («сожженный», «приношение»), («Паддан», «Арам»), («восток», «ветер»),

Аналогичным образом мы можем найти словосочетания среди отмеченных слов:

  
 
 
 

   (('1962', 'ЧИСЛО'), ("губернаторский", 'СУЩЕСТВИТЕЛЬНОЕ')), 

   (('637', 'ЧИСЛО'), ('Э.', 'СУЩЕСТВИТЕЛЬНОЕ')), 

   (('Альфаретта', 'СУЩЕСТВИТЕЛЬНОЕ'), ('тюрьма', 'СУЩЕСТВИТЕЛЬНОЕ')),

Или только теги:

Или между промежуточными словами:

  
 
 
 

 
 
 

   («сто», «лет»), («жил», «стал»), («король», «царь»), 

   («прожил», «годы»), («стал», «стал»), («начальник», «начальники»),

Искатели ¶

Пакет словосочетаний предоставляет средства поиска словосочетаний, которые по умолчанию
рассматривать все нграммы в тексте как возможные словосочетания:

  
   «Я не люблю зеленые яйца и ветчину, я не люблю их, Сэм!» 

 
 
 
 

   («и», «ветчина»), («делать», «не»), («яйца», «и»), («зеленый», «яйца»), 

   («ветчина», «,»), («нравится», «зеленый»), («нравится», «они»), («не», «нравится»),

В противном случае мы могли бы построить поисковик словосочетаний на основе полученных вручную
FreqDists:

Аналогичный интерфейс предусмотрен и для триграмм:

Возможно, мы захотим выбрать только n лучших результатов:

Альтернативно мы можем выбрать те, которые превышают минимальное значение балла:

Теперь охватывая промежуточные слова:

Более пристальный взгляд на нграммные частоты искателя:

  
 

   (('делаю', 'не', 'нравится'), 2), ((',', 'я', 'делаю'), 1), ((',', 'я', 'не'), 1), 

   ((',', 'делай', 'не'), 1), (('Я', 'есть', '!'), 1), (('Сэм', 'Я', '!'), 1),

Аналогичный интерфейс предусмотрен для фурграмм:

Фильтрация кандидатов ¶

Всех нграмм в тексте зачастую слишком много, чтобы их можно было использовать при поиске.
словосочетания. Обычно полезно убрать некоторые слова или знаки препинания,
и требовать минимальной частоты словосочетаний-кандидатов.

Учитывая наш образец текста выше, если мы удалим все триграммы, содержащие личные
местоимений из кандидатуры,core_ngrams должен возвращать на 6 результатов меньше, а
«не нравится» будет единственным кандидатом, который встречается более одного раза:

Иногда фильтр — это функция всей нграммы, а не каждого слова,
например, если мы можем разрешить появление «и» в середине триграммы, но
ни с одного края:

Наконец, часто важно удалить низкочастотных кандидатов, поскольку мы
не имеют достаточных доказательств их значения как словосочетаний:

Меры ассоциации ¶

Для оценки словосочетаний или других ассоциаций доступен ряд мер.
Аргументами функций измерения являются маргинальные значения таблицы сопряженности, в
регистр биграмм (n_ii, (n_ix, n_xi), n_xx):

Мы проверяем их расчет, используя некоторые известные значения, представленные у Мэннинга и
Текст Шютце и другие статьи.

 t Студента: примеры из Manning and Schutze 5.3.2

Хи-квадрат: примеры из Мэннинга и Шутце 5.3.3

Отношения правдоподобия: примеры из Dunning, CL, 1993

Поточечная взаимная информация: примеры из Manning and Schutze 5.4

ЗАДАЧА: Найдите авторитетные результаты для триграмм.

Использование значений таблицы сопряженности ¶

Ранжирование и корреляция ¶

Результаты поиска словосочетаний полезно рассматривать как ранжирование, а
результаты рейтингов с использованием различных показателей связи можно сравнить с помощью
коэффициент корреляции Спирмена.

Ранги можно присвоить отсортированному списку результатов тривиально, присвоив
строго увеличивающийся ранг к каждому результату:

Если для каждого результата имеются оценки, мы можем допустить достаточно схожие результаты.
результатам (отличающимся не более чем на Rank_gap) будет присвоен один и тот же ранг:

Коэффициент корреляции Спирмена дает число от -1,0 до 1,0 по сравнению
два рейтинга. Коэффициент 1,0 указывает на идентичные рейтинги; -1,0 указывает
совершенно противоположные рейтинги.

Ключевые слова ¶

Метрики ассоциации биграмм также можно использовать для анализа ключевых слов. . Например, это находит ключевые слова
связан с «романтическим» разделом корпуса Брауна, измеренным по отношению правдоподобия:

  
 
   

   она 1163,325 

   и 995,961 

   ее 930,528 

   вы 513.149 

   из 501,891 

   равно 463,386 

   было 421,615 

   он 411.000 

   347,632 

   сказал 300,811

Нлтк. словосочетания. BigramCollocationFinder¶

¶

Инструмент для поиска и ранжирования биграммных словосочетаний или других
ассоциативные меры. Часто бывает полезно использовать from_words() вместо
создание экземпляра напрямую.

¶

, , ¶: Создайте BigramCollocationFinder, учитывая FreqDists для
появления слов и (возможно, несмежных) биграмм.

, ¶: Создайте BigramCollocationFinder для всех биграмм в заданном
последовательность. Когда window_size > 2, подсчитайте несмежные биграммы в
стиль соотношения ассоциаций Черча и Хэнкса (1990).

, , ¶

 ¶ 
            

             Возвращает последовательность нграмм, упорядоченную по убыванию значения,
каждый балл превышает заданный минимальный балл.


             Удаляет кандидатные nграммы, частота которых меньше min_freq. 
 
 
  ¶
           
           
           


           
           
            
            ¶

Создает средство поиска словосочетаний по набору документов,
каждый из которых представляет собой список (или повторяемый) токенов.

  Возвращает первые n граммов при оценке заданной функцией.

Возвращает последовательность пар (нграмм, оценка), упорядоченных от наибольшего к
наименьший балл, определяемый предоставленной оценочной функцией.

          


  
  

           Нлтк. модуль словосочетаний¶

Инструменты для определения словосочетаний — слов, которые часто появляются подряд. — внутри корпуса. Их также можно использовать для поиска других ассоциаций между появления слов. См. Manning and Schutze гл. 5 в https://nlp.stanford.edu/fsnlp/promo/colloc.pdf и пакет Text::NSP Perl по адресу http://ngram.sourceforge.net

Для поиска словосочетаний необходимо сначала вычислить частоты слов и их появление в контексте других слов. Часто набор слов тогда потребуется фильтрация, чтобы сохранить только полезные термины контента. Каждый нграмм слов можно затем оценить в соответствии с некоторой мерой ассоциации, чтобы чтобы определить относительную вероятность того, что каждая нграмма является словосочетанием.

и занятия обеспечивают эти функциональные возможности, в зависимости от предоставления функции, которая оценивается ngram с учетом соответствующих частот. Ряд стандартных ассоциаций меры предоставляются в bigram_measures и trigram_measures.

¶

Инструмент для поиска и ранжирования биграммных словосочетаний или других ассоциативные меры. Часто бывает полезно использовать from_words() вместо создание экземпляра напрямую.

, , ¶: Создайте BigramCollocationFinder, учитывая FreqDists для появления слов и (возможно, несмежных) биграмм.

¶

, ¶: Создайте BigramCollocationFinder для всех биграмм в заданном последовательность. Когда window_size > 2, подсчитайте несмежные биграммы в стиль соотношения ассоциаций Черча и Хэнкса (1990).

, , ¶

¶

Инструмент для поиска и ранжирования словосочетаний квадрограмм или других ассоциативных мер. Часто бывает полезно использовать from_words() вместо прямого создания экземпляра.

, , , , , , , ¶: Создайте QuadgramCollocationFinder, учитывая FreqDists для появления слов, биграммы, триграммы, два слова с одним словом и двумя словами между ними, три слова со словом между ними в обоих вариантах.

¶

, ¶

, , , , ¶

¶

Инструмент для поиска и ранжирования триграммных словосочетаний или других ассоциативные меры. Часто бывает полезно использовать from_words() вместо создание экземпляра напрямую.

, , , ¶

Создает средство поиска словосочетаний биграмм с биграммой и униграммой.
данные этого искателя. Обратите внимание, что это не включает в себя какую-либо фильтрацию.
применительно к этому искателю.

¶

,

¶

Создать TrigramCollocationFinder для всех триграмм в заданном
последовательность.

, , , ¶: Возвращает оценку для данной триграммы, используя заданную оценку.
функция.

Основная идея

TF-IDF — это широко используемый алгоритм, который оценивает, насколько слово соответствует документу в коллекции документов.

В моей предыдущей статье: Измерение веса текста с помощью TF-IDF в Python и scikit-learn
Я использовал простой пример, чтобы показать, как вычислить значение TF-IDF для всех слов в документе. Как в чистом коде Python, так и в пакете scikit-learn.

На основе TF-IDF эти уникальные и важные слова должны иметь высокие значения TF-IDF в определенном документе. Итак, теоретически мы должны иметь возможность использовать вес текста # для извлечения наиболее важных слов документа.

Питон3

from
nltk.corpus
import
webtext

from
nltk.collocations
import
BigramCollocationFinder

from
nltk.metrics
import
BigramAssocMeasures

Код #2 :
Давайте найдём словосочетания

Питон3

from
nltk.collocations
import
TrigramCollocationFinder

from
nltk.metrics
import
TrigramAssocMeasures

trigram_collocation
=
TrigramCollocationFinder.from_words(words)

 [('хлоп', 'хлоп', 'хлоп'),
 («бормотать», «бормотать», «бормотать»),
 («скрип», «скрип», «скрип»),
 («видел», «пилил», «пилил»),
 («пирог», «иесу», «доминирование»),
 («хлопай», «хлопай», «хлопай»),
 («дона», «эйс», «реквием»),
 («храбрый», «сэр», «робин»),
 («хе», «хе», «хе»),
 («король», «артур», «музыка»),
 («хи», «хи», «хи»),
 («святой», «рука», «граната»),
 ('бум бум бум'),
 ('.', 'дона', 'эйс'),
 («уже», «получил», «один»)]

Готовитесь ли вы к своему первому собеседованию или стремитесь повысить свою квалификацию в этой постоянно развивающейся технологической среде, Курсы GeeksforGeeks
ваш ключ к успеху. Мы предоставляем контент высочайшего качества по доступным ценам, и все это направлено на ускорение вашего роста в установленные сроки. Присоединяйтесь к миллионам людей, которым мы уже предоставили полномочия, и мы здесь, чтобы сделать то же самое для вас. Не пропустите — посмотрите прямо сейчас!

Решение для автоматического извлечения ключевых слов из документов. Реализовано на Python с помощью NLTK и Scikit-learn.

Маркировка вручную нецелесообразна; Предоставление существующего списка тегов скоро устареет. Нанимать компанию-поставщика для выполнения работ по маркировке слишком дорого.

Вы можете сказать, почему бы не использовать машинное обучение? например, глубокое обучение Neral Network. Но сначала NN нужны некоторые обучающие данные. Данные обучения, которые подходят вашему набору данных.

Итак, есть ли решение, с помощью которого мы можем обеспечить соответствие маркировки документов:

Не требуется предварительный запрос данных для обучения.
Минимальное ручное вмешательство и возможность автоматического запуска.
Автоматический захват новых слов и фраз.

В этой статье рассказывается о том, как я извлекал ключевые слова, как это работает и обходные пути в Python.