Разработка и заполнение баз данных

Сентябрь 4, 2022

Главная
Информатика
Разработка и заполнение баз данных

Содержание

2. Что представляет из себя база данных? – набор информации, имеющей отношение к какому-либо предмету или явлению,
3. Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар: Совокупность информации, структурированной таким образом, чтобы
4. Как собрать хорошие данные? Ключевое условие – хороший дизайн исследования. – Определите цель сбора данных и
5. Пилотное исследование Провести такое исследование до начала сбора данных –хорошая идея на любой случай. – Поговорите
6. Программное обеспечение, используемое для создания баз данных: Базы данных: MS Access, DBase Двумерные таблицы: MS Excel,
7. Базы данных: Позволяют создавать большие массивы данных и гибко управлять ими. – Позволяют работать со ссылками:
8. Двумерные таблицы проще, с ними легче работать. – Возможны ограничения по размеру (например, в MS Excel
9. Программы для статистической обработки данных: – Имеют общие черты и с базами данных, и с двумерными
10. Два основных типа данных: – числовые (количественные); – категориальные (качественные)
11. Качественные (категориальные) данные: – Бинарные (жив/мёртв, мужчина/женщина, заболевание развилось/не развилось) – Номинальные (две и более категории,
12. Количественные (числовые) данные: – Дискретные: могут принимать только определённые значения в определённом диапазоне (например, индекс качества
14. Поля и форматы данных: – Текстовые: текст, комбинация текста и цифр либо цифры, не нуждающиеся в
15. Поля и форматы данных: – Поля бинарных данных: в некоторых программах есть формат ячеек, позволяющий хранить
16. Практика сбора высококачественных данных: – Будьте последовательны Многие проблемы проистекают от непоследовательности при сборе и оформлении
17. Практика сбора высококачественных данных: – Пропуски данных: для многих переменных неизбежны. Придумайте общую стратегию работы с
18. Практика сбора высококачественных данных: Простая проверка данных. Хорошая привычка – проводить простую проверку правильности введения данных
20. Практика сбора высококачественных данных: При всякой возможности избегайте внесения «просто текста», оставляя его обработку «на потом».
21. Практика сбора высококачественных данных: Не смешивайте числа и текст. Например, при заполнении числовых ячеек не пишите
22. Практика сбора высококачественных данных: Что делать, если собрано много значений одной переменной для одного и того
23. Метод 1 сложнее, но практически не имеет ограничений. Метод 2 проще и требует меньше места, но
24. Данные могут храниться в двух форматах: Формат «высокий столбец»: каждая запись для одного пациента, соответствующая определённому
25. Оба формата подразумевают уникальные идентификаторы для каждого пациента, ввиду чего легко транспонируются специальными программами в любой
26. Если в ходе исследования производится модификация/расширение базы данных, необходимо вести журнал изменений, а также хранить окончательные
27. Найдите все ошибки, допущенные при заполнении представленной базы данных ☺
35. Резюме Существует ряд правил построения электронных таблиц для обеспечения их максимальной совместимости с программами, выполняющими статистическую
36. 5. Значения всех переменных, вносимые в таблицу, должны быть числовыми; символьные значения («да», «нет» и т.п.)
37. 8. По возможности следует избегать пустых ячеек на месте отсутствующих данных; в таких случаях лучше использовать
39. Скачать презентацию

Слайд 2

Что представляет из себя база данных?
– набор информации, имеющей отношение к

какому-либо предмету или явлению, например:
– Имя, адрес электронной почты, номер телефона, рекомендации по диете, название организации, куда нужно отправлять счёт за курсы;
– Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар;
– Демографические данные и исходы заболевания у пациентов с коинфекцией ВИЧ и ВГС;
– Для ВИЧ-инфицированных пациентов: демографические данные, схемы АРТ и лечения ОИ, СПИД-ассоциированные заболевания, лабораторные данные, побочные эффекты препаратов, коинфекции.

Слайд 3

Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар:
Совокупность информации,

структурированной таким образом, чтобы сделать возможной обработку указанной информации при помощи ЭВМ.

Слайд 4

Как собрать хорошие данные?
Ключевое условие – хороший дизайн исследования.
– Определите цель

сбора данных и продумайте, как будете их использовать;
– Какую информацию вы планируете получить на основе собранных данных?
– Каковы предметы исследования?
– Какую информацию о каждом предмете исследования вам необходимо собрать и хранить (переменные)?
– Собираемые данные являются результатами независимых измерений либо повторных замеров в одной и той же группе?

Слайд 5

Пилотное исследование
Провести такое исследование до начала сбора данных –хорошая идея на

любой случай.
– Поговорите с потенциальными пользователями результатов исследования;
– Обсудите вопросы, на которые нужно получить ответы;
– Набросайте образец формы, которую будет нужно заполнять;
– Прикиньте, как будут оформляться отчёты;
– Если возможно, используйте для работы тщательно продуманные базы данных (двумерные таблицы), аналогичные тем, которые будут применяться в ходе выполнения основного исследования.

Слайд 6

Программное обеспечение, используемое для создания баз данных:
Базы данных: MS Access, DBase
Двумерные

таблицы: MS Excel, Open Office Calc
Статистическая обработка: SAS, SPSS, STATA, Statistica, MedCalc

Слайд 7

Базы данных:
Позволяют создавать большие массивы данных и гибко управлять ими.
– Позволяют

работать со ссылками: можно из двух и более связанных таблиц, содержащих необходимую информацию, собрать одну таблицу с требуемыми данными;
– Информация не дублируется, что уменьшает вероятность ошибок ввода данных;
– Возможен поиск данных по поисковым запросам;
– Позволяют оформлять формы для ввода данных в виде реально используемых бумажных форм;
– Легкость организации процедур верификации данных;
– Наилучший вариант для долговременного хранения данных.

Слайд 8

Двумерные таблицы проще, с ними легче работать.
– Возможны ограничения по размеру

(например, в MS Excel 2003 и более ранних версиях – не более 256 переменных и 65536 строк);
– Неудобное извлечение данных;
– Скудные возможности по верификации данных, отсутствие защиты от повреждения данных (например, при сортировке);
– Позволяют производить простую статобработку непосредственно в таблице;
– Имеют ряд функций, общих с базами данных.

Слайд 9

Программы для статистической обработки данных:
– Имеют общие черты и с базами

данных, и с двумерными таблицами;
– …но манипуляции с данными требуют знания интерфейса соответствующего статпакета;
– Можно вводить данные непосредственно в форму для обсчёта;
– Обычно допускают простой импорт двумерных таблиц с данными из других программ.

Слайд 10

Два основных типа данных:
– числовые (количественные);
– категориальные (качественные)

Слайд 11

Качественные (категориальные) данные:
– Бинарные (жив/мёртв, мужчина/женщина, заболевание развилось/не развилось)
– Номинальные (две

и более категории, не ранжируемые по порядку: например, группы риска какого-либо заболевания)
– Порядковые (ранжируемые): две и более категории, которые по своей природе допускают ранжирование (выстраивание в определённом порядке) – степени тяжести заболевания, стадии заболевания и т.д.

Слайд 12

Количественные (числовые) данные:
– Дискретные: могут принимать только определённые значения в определённом

диапазоне (например, индекс качества жизни или количество половых партнёров);
– Непрерывные: могут принимать любое значение в рамках измеряемого диапазона (например, вес, рост, уровень CD4- лимфоцитов и т.п.);
– Цензурированные: могут быть измерены только в определённом диапазоне (например, число копий РНК ВИЧ в единице объёма плазмы крови, время дожития и т.д.);
– Прочие типы данных: ранги, доли, частоты, отношения.

Слайд 13

Слайд 14

Поля и форматы данных:
– Текстовые: текст, комбинация текста и цифр либо

цифры, не нуждающиеся в обработке (имя, адрес, телефонный номер, пол, группа/фактор риска и т.д.). Возможна разбивка на меньшие поля: Имя, Фамилия и т.д.;
– Числовые: числа, предназначенные для статобработки, а также коды и категории, (возраст, уровень CD4-лимфоцитов, вес, кодировка групп, бинарные переменные – «да/нет» кодируется как «1/0»);
– Дата: любая информация, которая должна храниться в виде даты (дата установления диагноза, выполнения исследования, наступления ожидаемого исхода и т.д.). Может быть представлена в разных форматах: дд/мм/гг, мм/дд/гг, дд/месяц/гггг и т.д. Старые версии программ могут автоматически изменять форматы дат. Кроме того, форматы дат в PC и MAC различаются.

Слайд 15

Поля и форматы данных:
– Поля бинарных данных: в некоторых программах есть

формат ячеек, позволяющий хранить только данные вида «да/нет» (также «вкл/выкл», «истина/ложь» и др.).
– Поля с выпадающим списком: некоторые программы имеют формат, позволяющий вносить в поля базы данных только значения, имеющиеся в выпадающем списке (открывается при помещении курсора в соответствующую ячейку), например, коды исследуемых групп, степени тяжести заболевания и т.п.

Слайд 16

Практика сбора высококачественных данных:
– Будьте последовательны
Многие проблемы проистекают от непоследовательности при

сборе и оформлении одинаковых данных.
Например: данные одновременно хранятся в формате дд/мм/гг и мм/дд/гг, пол обозначается как «м/ж», «0/1» и «1/2» в одной базе данных.
– Старайтесь не трансформировать числовые переменные в категориальные до этапа анализа данных:
Например: не выделяйте возрастные группы, группы по уровню какого-либо показателя (CD4+ >200/мкл и т.п.)

Слайд 17

Практика сбора высококачественных данных:
– Пропуски данных: для многих переменных неизбежны.
Придумайте общую

стратегию работы с подобными данными.
Не оставляйте соответствующие ячейки пустыми: многие статпрограмы автоматически заполняют пустые ячейки нулевыми значениями.
Вместо этого используйте специальный код: например, м – 1, ж – 2, данных нет – 9. Старайтесь, чтобы эти коды нельзя было перепутать с данными (например, не используйте код «999» для уровня CD4+ лимфоцитов). Если неизвестен день – выбирайте 1-е число, если месяц – выбирайте июнь и т.д. Не оставляйте отсутствующие поля даты пустыми!

Слайд 18

Практика сбора высококачественных данных:
Простая проверка данных.
Хорошая привычка – проводить простую проверку

правильности введения данных в базу перед статанализом.
– есть ли среди введенных дат явно несообразные/ непоследовательные?
– все ли введенные даты событий больше дат рождения пациентов? Не заходят ли они за дату смерти?
– если данные кодированы, нет ли в базе непредусмотренных кодов?
– не выглядят ли непрерывные данные явно запредельными?

Слайд 19

Слайд 20

Практика сбора высококачественных данных:
При всякой возможности избегайте внесения «просто текста», оставляя

его обработку «на потом».
– данные из длинного текста потом неудобно извлекать;
– при этом возможно появление множественных кодировок одних и тех же данных.

Слайд 21

Практика сбора высококачественных данных:
Не смешивайте числа и текст.
Например, при заполнении числовых

ячеек не пишите там «>200000» или «<75»: некоторые программы интерпретируют такие записи как отсутствующие данные. Вместо этого следует пользоваться специальными заменителями, например, «200001» для первого случая или «74» для второго случая.

Слайд 22

Практика сбора высококачественных данных:
Что делать, если собрано много значений одной переменной

для одного и того же случая?
Такое часто бывает в «продольных» исследованиях, где выполняется мониторинг уровня CD4+ лимфоцитов, вирусной нагрузки в плазме крови и т.п. в исследуемой выборке.
Нужно создавать по переменной для каждого из значений, полученных в одинаковый момент времени: например, CD4_1, CD4_2, CD4_3 и т.д. При этом каждой такой переменной должна быть сопоставлена переменная даты. Аналогично производится разложение по переменным сложных диагнозов, например, множества сопутствующих заболеваний при ВИЧ-инфекции (в ячейке можно указывать дату установления диагноза).

Слайд 23

Метод 1 сложнее, но практически не имеет ограничений.
Метод 2 проще и

требует меньше места, но позволяет вводить только значения, предусмотренные разработчиком базы.

Слайд 24

Данные могут храниться в двух форматах:
Формат «высокий столбец»: каждая запись для

одного пациента, соответствующая определённому моменту времени, указывается в отдельной строке.
Формат «широкая строка»: для каждого пациента отводится одна линейка таблицы.

Слайд 25

Оба формата подразумевают уникальные идентификаторы для каждого пациента, ввиду чего легко

транспонируются специальными программами в любой требуемый вид.
«Высокий» формат экономит место, но требует, чтобы программа поддерживала достаточное количество линеек. Кроме того, возможны ошибки в указании идентификаторов пациентов, что приводит к потере данных.
«Широкий» формат менее чувствителен к вводу идентификатора пациента (вводится только один раз), но требует, чтобы программа поддерживала достаточное количество столбцов. Кроме того, внесение каждого непредусмотренного значения требует переделки базы. Если для одного пациента было внесено больше данных, чем для другого, аналогичные данные для второго будут автоматически считаться пропущенными.

Слайд 26

Если в ходе исследования производится модификация/расширение базы данных, необходимо вести журнал

изменений, а также хранить окончательные версии каждой из модификаций, помечая их таким образом, чтобы можно было точно установить дату и версию модификации. Не стирайте старые версии, замещая их новыми!!!

Слайд 27

Найдите все ошибки, допущенные при заполнении представленной базы данных ☺

Слайд 28

Слайд 29

Слайд 30

Слайд 31

Слайд 32

Слайд 33

Слайд 34

Слайд 35

Резюме
Существует ряд правил построения электронных таблиц для обеспечения их максимальной совместимости

с программами, выполняющими статистическую обработку:
1. Случаи располагаются в строках, переменные – в столбцах;
2. Случаи должны быть уникальными, т.е. каждая строка таблицы должна соответствовать одному уникальному пациенту. Соответственно, каждый случай должен иметь уникальный (неповторяющийся) идентификатор (порядковый номер);
3. Заголовки столбцов должны быть уникальными (неповторяющимися), короткими (не длиннее 10-12 символов) и, желательно, набранными латиницей (допустимо употребление цифр, дефисов и знаков подчеркивания);
4. Необходимо четкое разделение всех переменных таблицы на качественные, порядковые и количественные;

Слайд 36

5. Значения всех переменных, вносимые в таблицу, должны быть числовыми; символьные

значения («да», «нет» и т.п.) не допускаются. В том случае, если переменные являются качественными/порядковыми, т.е. по природе своей требуют словесного описания, их необходимо формализовать, т.е. ввести схему цифрового кодирования описательных признаков и строго ее придерживаться в ходе заполнения базы;
6. Сложные качественные переменные необходимо разбивать на более простые с вариантами значений «1» (есть данное состояние) и «0» (нет данного состояния);
7. При заполнении переменных, содержащих даты, необходимо придерживаться единого формата (например, дд/мм/гггг). При внесении в ячейки таблицы цифровых значений необходимо следить за тем, чтобы точность указанных значений была единообразной в пределах одной переменной (например, всюду указываться с точностью до второго знака после запятой);

Слайд 37

8. По возможности следует избегать пустых ячеек на месте отсутствующих данных;

в таких случаях лучше использовать специальные коды, резко отличающиеся от всех возможных значений учитываемого признака (например, 9999);
9. После заполнения электронную таблицу обязательно необходимо проверить на предмет неправильно внесенных данных. Обычно встречающиеся при этом ошибки:
– значения пропущены либо сдвинуты;
– случайное изменение формата ячеек (например, дата или текст вместо числа);
– формат даты не соответствует принятому для данной базы;
– значения дат не соответствуют срокам выполнения исследования (вариант: возраст пациентов выходит за рамки, оговоренные для исследования);
– числовые данные результатов обследований явно выходят за возможные пределы колебаний соответствующих параметров;

Разработка и заполнение баз данных

Содержание

Что представляет из себя база данных?– набор информации, имеющей отношение к

Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар:Совокупность информации,

Как собрать хорошие данные?Ключевое условие – хороший дизайн исследования.– Определите цель

Пилотное исследованиеПровести такое исследование до начала сбора данных –хорошая идея на

Программное обеспечение, используемое для создания баз данных:Базы данных: MS Access, DBaseДвумерные

Базы данных:Позволяют создавать большие массивы данных и гибко управлять ими.– Позволяют

Двумерные таблицы проще, с ними легче работать.– Возможны ограничения по размеру

Программы для статистической обработки данных:– Имеют общие черты и с базами

Два основных типа данных:– числовые (количественные);– категориальные (качественные)

Качественные (категориальные) данные:– Бинарные (жив/мёртв, мужчина/женщина, заболевание развилось/не развилось)– Номинальные (две

Количественные (числовые) данные:– Дискретные: могут принимать только определённые значения в определённом

Поля и форматы данных:– Текстовые: текст, комбинация текста и цифр либо

Поля и форматы данных:– Поля бинарных данных: в некоторых программах есть

Практика сбора высококачественных данных:– Будьте последовательныМногие проблемы проистекают от непоследовательности при

Практика сбора высококачественных данных:– Пропуски данных: для многих переменных неизбежны.Придумайте общую

Практика сбора высококачественных данных:Простая проверка данных.Хорошая привычка – проводить простую проверку

Практика сбора высококачественных данных:При всякой возможности избегайте внесения «просто текста», оставляя

Практика сбора высококачественных данных:Не смешивайте числа и текст.Например, при заполнении числовых

Практика сбора высококачественных данных:Что делать, если собрано много значений одной переменной

Метод 1 сложнее, но практически не имеет ограничений.Метод 2 проще и

Данные могут храниться в двух форматах:Формат «высокий столбец»: каждая запись для