Прикладні аспекти статистичної лінгвістики

Содержание

Слайд 2

1. Проблематика статистичної лінгвістики з теоретичного та прикладного поглядів. 2. Основні

1. Проблематика статистичної лінгвістики з теоретичного та прикладного поглядів.
2. Основні галузі

використання структурно-ймовірнісної моделі мови.
3. Психолінгвістика як практичне застосування лінгвістики
Слайд 3

Статистична лінгвістика - міждисциплінарний напрямок у прикладних дослідженнях, у яких основним

Статистична лінгвістика - міждисциплінарний напрямок у прикладних дослідженнях, у яких основним

інструментом вивчення мови використовуються кількісні чи статистичні методи аналізу.
Іноді статистичну (чи кількісну чи квантитативну лінгвістику) протиставляють комбінаторній лінгвістиці. В останній домінантну роль посідає «некількісний» математичний апарат – теорія множин, математична логіка, теорія алгоритмів тощо.
Слайд 4

Для вдосконалення системи стенографії первісно був призначений і частотний словник німецької

Для вдосконалення системи стенографії первісно був призначений і частотний словник німецької

мови Кедінґа (його уклали на матеріалі 11 млн. слів 6000 працівників), виданий у Берліні 1898 р.
Слайд 5

Р. Елрідж, керівник невеликої фабрики, за 2 роки опрацював 250 статей

Р. Елрідж, керівник невеликої фабрики, за 2 роки опрацював 250 статей

загальною довжиною 44 000 слововживань і 1911р. видав "Шість тисяч загальновживаних англійських слів" для своїх робітників-емігрантів, що вивчають англійську мову.
Слайд 6

У 1928 р. побачив світ "Німецький частотний словник" (German frequency Word

У 1928 р. побачив світ "Німецький частотний словник" (German frequency Word

Book) Морґана, роком пізніше — "Німецький словник ідіом" (A German Idiom List) Xayxa, у цьому руслі також працювали науковці Пфеффер та Веґлер. Також з'явився "Порівняльний частотний словник першої тисячі слів англійської, французької, німецької та іспанської мов" (Comparative Frequency list on the First Thousand words in English, French, German and Spanish) Ітона, де наведено 1000 найчастотніших слів названих чотирьох європейських мов.
Слайд 7

Увійшов в історію англійський мовознавець та педагог Палмер, що відібрав три

Увійшов в історію англійський мовознавець та педагог Палмер, що відібрав три

тисячі слів, які дають змогу розуміти 95% тексту.
Під час воєн зростає потреба передати інформацію так, щоб її не міг зрозуміти противник. Тому посилилася увага до криптографії — науки про зашифровування та розшифрування повідомлень, "ламання кодів".
Слайд 8

Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка.

Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка.


Однорідний масив (корпус) певних одиниць, які потрібно обстежити, називають генеральною сукупністю (ГС).
Слайд 9

Вибірка — це певна кількість матеріалу, на підставі дослідження якого можна

Вибірка — це певна кількість матеріалу, на підставі дослідження якого можна

зробити правильні висновки про всю генеральну сукупність. Основні вимоги до вибірки: репрезентативність та однорідність.
Слайд 10

Щоби бути репрезентативною, вибірка має 1) рівномірно розподілятися по генеральній сукупності

Щоби бути репрезентативною, вибірка має
1) рівномірно розподілятися по генеральній сукупності

та
2) мати достатньо великий обсяг, якого вистачає для правильних висновків про ГС.
Слайд 11

Розрізняють два типи однорідності вибірки: лінгвістична та статистична. У межах лінгвістичної

Розрізняють два типи однорідності вибірки: лінгвістична та статистична.
У межах лінгвістичної однорідності

вибірки виділяють:
1) хронологічну (тексти вибірки повинні мати хронологічні межі);
2) жанрову (тексти вибірки мають бути жанрово обмежені);
3) тематичну (тексти мають бути тематично обмежені).
Слайд 12

Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку,

Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку,

яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т.ін.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.
Слайд 13

За способом організації виділяють такі різновиди вибірок: 1) механічна — організована

За способом організації виділяють такі різновиди вибірок:
1) механічна — організована з

урахуванням рівномірності розподілу досліджуваної одиниці по генеральній сукупності. Всі тексти генеральної сукупності перенумеровують, а потім, наприклад, з кожного п'ятого, десятого, двадцятого тексту вибирають відрізок необхідної довжини.
Слайд 14

2) випадкова — організована шляхом випадкового вибору текстів з генеральної сукупності.

2) випадкова — організована шляхом випадкового вибору текстів з генеральної сукупності.

В основі такого методу організації вибірки лежить гіпотеза про те, що досить велика кількість навздогад відібраних одиниць з генеральної сукупності має адекватно її представляти. Тож кожна сторінка, розділ чи інша одиниця тексту генеральної сукупності повинні мати однаковий шанс потрапити до вибірки. Тому, як правило, випадкова вибірка ґрунтується на таблиці випадкових чисел.
Слайд 15

3) зональна (типова) — організована на основі лінгвістично однорідної сукупності текстів,

3) зональна (типова) — організована на основі лінгвістично однорідної сукупності текстів,

тобто зони. Зоною залежно від мети дослідження вважають прозу, поезію та драму в художній літературі; твори одного автора або конкретний твір; сукупність слів певної морфемної структури (наприклад, префіксальних або одноморфемних) тощо.
Слайд 16

Вибірка може бути структурною, тобто складатися із менших частин, які називають підвибірками, та неструктурною, тобто суцільною.

Вибірка може бути структурною, тобто складатися із менших частин, які називають

підвибірками, та неструктурною, тобто суцільною.
Слайд 17

Абсолютна частота — це кількість вживань певної одиниці (літери, слова, словоформи,

Абсолютна частота — це кількість вживань певної одиниці (літери, слова, словоформи,

словосполучення, речення тощо) в обстеженому матеріалі.
Відносна частота — відношення абсолютної частоти певної одиниці у вибірці до обсягу вибірки. Вимірюється у відсотках (%) або в частках 1 (наприклад, 25% або 0,25).
Так, у реченні Говорили око в око абсолютна частота слова око — 2, а відносна — 2/4 = 0,5 або 50%.
Слайд 18

Проте в різних підвибірках частота одиниці звичайно неоднакова. У таких випадках

Проте в різних підвибірках частота одиниці звичайно неоднакова. У таких випадках

належить оперувати середньою частотою. Це відношення суми абсолютних частот певної одиниці у підвибірках до кількості підвибірок.
Наприклад, якщо у трьох підвибірках, з яких складається вибірка, слово "яскраво" має абсолютні частоти 4, 6 і 8, то його середня частота у вибірці буде (4 + 6 + 8) / 3 = 6.
Слайд 19

Слайд 20

Слайд 21

Технологія лінгвістичного спостереження ґрунтується на двох вихідних твердженнях: по-перше, на регулярності

Технологія лінгвістичного спостереження ґрунтується на двох вихідних твердженнях:
по-перше, на регулярності

і періодичності аналізованих даних, і,
по-друге, на достатньо великому обсязі використовуваного матеріалу, на репрезентативності вибірки даних.
Слайд 22

Інформація про статистичні закономірності функціювання мовної системи лежить в основі деяких

Інформація про статистичні закономірності функціювання мовної системи лежить в основі деяких

методик аналіз даних, розроблюваних у політичній лінгвістиці. До них належить, зокрема, методика контент-аналізу, використовувана для виявлення структури і стану суспільної свідомості.
Слайд 23

Комп’ютерне моделювання мови та мовлення. Авторизація/атрибуція тексту.

Комп’ютерне моделювання мови та мовлення.
Авторизація/атрибуція тексту.

Слайд 24

Психолінгвістика, галузь лінгвістики, що вивчає мову насамперед як феномен психіки. З

Психолінгвістика, галузь лінгвістики, що вивчає мову насамперед як феномен психіки. З

погляду психолінгвістики, мова існує тією мірою, якою існує внутрішній світ мовця і слухача, людини, яка пише і читає. Тому психолінгвістика не займається вивченням «мертвих» мов - таких, як старослов'янська або грецька, де нам доступні лише тексти, але не психічні світи їх творців.
Слайд 25

Ось питання, які традиційно займають розуми психолінгвістів: 1. Чи симетрично влаштований

Ось питання, які традиційно займають розуми психолінгвістів:
1. Чи симетрично влаштований процес

розпізнавання мовлення, яке звучить, і процес його породження?
2. Чим відрізняються механізми оволодіння рідною мовою від механізмів оволодіння мовою іноземною?
3. Які механізми забезпечують процес читання?
4. Чому за певних уражень мозку виникають ті чи інші дефекти мови?
5. Яку інформацію про особу мовця можна отримати, вивчаючи певні аспекти її мовної поведінки?
Слайд 26

Прийнято вважати, що психолінгвістика виникла близько 40 років тому в США.

Прийнято вважати, що психолінгвістика виникла близько 40 років тому в США.

Дійсно, сам термін психолінгвістика був запропонований американськими психологами в кінці 1950-х років з метою надати формальний статус уже сформованому саме в США науковому напрямку.