Разработка и заполнение баз данных

Содержание

Слайд 2

Что представляет из себя база данных? – набор информации, имеющей отношение

Что представляет из себя база данных?
– набор информации, имеющей отношение к

какому-либо предмету или явлению, например:
– Имя, адрес электронной почты, номер телефона, рекомендации по диете, название организации, куда нужно отправлять счёт за курсы;
– Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар;
– Демографические данные и исходы заболевания у пациентов с коинфекцией ВИЧ и ВГС;
– Для ВИЧ-инфицированных пациентов: демографические данные, схемы АРТ и лечения ОИ, СПИД-ассоциированные заболевания, лабораторные данные, побочные эффекты препаратов, коинфекции.
Слайд 3

Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар: Совокупность

Демографические и социоэкономические характеристики ВИЧ-инфицированных больных, госпитализированных в конкретный стационар:

Совокупность информации,

структурированной таким образом, чтобы сделать возможной обработку указанной информации при помощи ЭВМ.
Слайд 4

Как собрать хорошие данные? Ключевое условие – хороший дизайн исследования. –

Как собрать хорошие данные?
Ключевое условие – хороший дизайн исследования.
– Определите цель

сбора данных и продумайте, как будете их использовать;
– Какую информацию вы планируете получить на основе собранных данных?
– Каковы предметы исследования?
– Какую информацию о каждом предмете исследования вам необходимо собрать и хранить (переменные)?
– Собираемые данные являются результатами независимых измерений либо повторных замеров в одной и той же группе?
Слайд 5

Пилотное исследование Провести такое исследование до начала сбора данных –хорошая идея

Пилотное исследование
Провести такое исследование до начала сбора данных –хорошая идея на

любой случай.
– Поговорите с потенциальными пользователями результатов исследования;
– Обсудите вопросы, на которые нужно получить ответы;
– Набросайте образец формы, которую будет нужно заполнять;
– Прикиньте, как будут оформляться отчёты;
– Если возможно, используйте для работы тщательно продуманные базы данных (двумерные таблицы), аналогичные тем, которые будут применяться в ходе выполнения основного исследования.
Слайд 6

Программное обеспечение, используемое для создания баз данных: Базы данных: MS Access,

Программное обеспечение, используемое для создания баз данных:
Базы данных: MS Access, DBase
Двумерные

таблицы: MS Excel, Open Office Calc
Статистическая обработка: SAS, SPSS, STATA, Statistica, MedCalc
Слайд 7

Базы данных: Позволяют создавать большие массивы данных и гибко управлять ими.

Базы данных:
Позволяют создавать большие массивы данных и гибко управлять ими.
– Позволяют

работать со ссылками: можно из двух и более связанных таблиц, содержащих необходимую информацию, собрать одну таблицу с требуемыми данными;
– Информация не дублируется, что уменьшает вероятность ошибок ввода данных;
– Возможен поиск данных по поисковым запросам;
– Позволяют оформлять формы для ввода данных в виде реально используемых бумажных форм;
– Легкость организации процедур верификации данных;
– Наилучший вариант для долговременного хранения данных.
Слайд 8

Двумерные таблицы проще, с ними легче работать. – Возможны ограничения по

Двумерные таблицы проще, с ними легче работать.
– Возможны ограничения по размеру

(например, в MS Excel 2003 и более ранних версиях – не более 256 переменных и 65536 строк);
– Неудобное извлечение данных;
– Скудные возможности по верификации данных, отсутствие защиты от повреждения данных (например, при сортировке);
– Позволяют производить простую статобработку непосредственно в таблице;
– Имеют ряд функций, общих с базами данных.
Слайд 9

Программы для статистической обработки данных: – Имеют общие черты и с

Программы для статистической обработки данных:
– Имеют общие черты и с базами

данных, и с двумерными таблицами;
– …но манипуляции с данными требуют знания интерфейса соответствующего статпакета;
– Можно вводить данные непосредственно в форму для обсчёта;
– Обычно допускают простой импорт двумерных таблиц с данными из других программ.
Слайд 10

Два основных типа данных: – числовые (количественные); – категориальные (качественные)

Два основных типа данных:
– числовые (количественные);
– категориальные (качественные)

Слайд 11

Качественные (категориальные) данные: – Бинарные (жив/мёртв, мужчина/женщина, заболевание развилось/не развилось) –

Качественные (категориальные) данные:
– Бинарные (жив/мёртв, мужчина/женщина, заболевание развилось/не развилось)
– Номинальные (две

и более категории, не ранжируемые по порядку: например, группы риска какого-либо заболевания)
– Порядковые (ранжируемые): две и более категории, которые по своей природе допускают ранжирование (выстраивание в определённом порядке) – степени тяжести заболевания, стадии заболевания и т.д.
Слайд 12

Количественные (числовые) данные: – Дискретные: могут принимать только определённые значения в

Количественные (числовые) данные:
– Дискретные: могут принимать только определённые значения в определённом

диапазоне (например, индекс качества жизни или количество половых партнёров);
– Непрерывные: могут принимать любое значение в рамках измеряемого диапазона (например, вес, рост, уровень CD4- лимфоцитов и т.п.);
– Цензурированные: могут быть измерены только в определённом диапазоне (например, число копий РНК ВИЧ в единице объёма плазмы крови, время дожития и т.д.);
– Прочие типы данных: ранги, доли, частоты, отношения.
Слайд 13

Слайд 14

Поля и форматы данных: – Текстовые: текст, комбинация текста и цифр

Поля и форматы данных:
– Текстовые: текст, комбинация текста и цифр либо

цифры, не нуждающиеся в обработке (имя, адрес, телефонный номер, пол, группа/фактор риска и т.д.). Возможна разбивка на меньшие поля: Имя, Фамилия и т.д.;
– Числовые: числа, предназначенные для статобработки, а также коды и категории, (возраст, уровень CD4-лимфоцитов, вес, кодировка групп, бинарные переменные – «да/нет» кодируется как «1/0»);
– Дата: любая информация, которая должна храниться в виде даты (дата установления диагноза, выполнения исследования, наступления ожидаемого исхода и т.д.). Может быть представлена в разных форматах: дд/мм/гг, мм/дд/гг, дд/месяц/гггг и т.д. Старые версии программ могут автоматически изменять форматы дат. Кроме того, форматы дат в PC и MAC различаются.
Слайд 15

Поля и форматы данных: – Поля бинарных данных: в некоторых программах

Поля и форматы данных:
– Поля бинарных данных: в некоторых программах есть

формат ячеек, позволяющий хранить только данные вида «да/нет» (также «вкл/выкл», «истина/ложь» и др.).
– Поля с выпадающим списком: некоторые программы имеют формат, позволяющий вносить в поля базы данных только значения, имеющиеся в выпадающем списке (открывается при помещении курсора в соответствующую ячейку), например, коды исследуемых групп, степени тяжести заболевания и т.п.
Слайд 16

Практика сбора высококачественных данных: – Будьте последовательны Многие проблемы проистекают от

Практика сбора высококачественных данных:
– Будьте последовательны
Многие проблемы проистекают от непоследовательности при

сборе и оформлении одинаковых данных.
Например: данные одновременно хранятся в формате дд/мм/гг и мм/дд/гг, пол обозначается как «м/ж», «0/1» и «1/2» в одной базе данных.
– Старайтесь не трансформировать числовые переменные в категориальные до этапа анализа данных:
Например: не выделяйте возрастные группы, группы по уровню какого-либо показателя (CD4+ >200/мкл и т.п.)
Слайд 17

Практика сбора высококачественных данных: – Пропуски данных: для многих переменных неизбежны.

Практика сбора высококачественных данных:
– Пропуски данных: для многих переменных неизбежны.
Придумайте общую

стратегию работы с подобными данными.
Не оставляйте соответствующие ячейки пустыми: многие статпрограмы автоматически заполняют пустые ячейки нулевыми значениями.
Вместо этого используйте специальный код: например, м – 1, ж – 2, данных нет – 9. Старайтесь, чтобы эти коды нельзя было перепутать с данными (например, не используйте код «999» для уровня CD4+ лимфоцитов). Если неизвестен день – выбирайте 1-е число, если месяц – выбирайте июнь и т.д. Не оставляйте отсутствующие поля даты пустыми!
Слайд 18

Практика сбора высококачественных данных: Простая проверка данных. Хорошая привычка – проводить

Практика сбора высококачественных данных:
Простая проверка данных.
Хорошая привычка – проводить простую проверку

правильности введения данных в базу перед статанализом.
– есть ли среди введенных дат явно несообразные/ непоследовательные?
– все ли введенные даты событий больше дат рождения пациентов? Не заходят ли они за дату смерти?
– если данные кодированы, нет ли в базе непредусмотренных кодов?
– не выглядят ли непрерывные данные явно запредельными?
Слайд 19

Слайд 20

Практика сбора высококачественных данных: При всякой возможности избегайте внесения «просто текста»,

Практика сбора высококачественных данных:
При всякой возможности избегайте внесения «просто текста», оставляя

его обработку «на потом».
– данные из длинного текста потом неудобно извлекать;
– при этом возможно появление множественных кодировок одних и тех же данных.
Слайд 21

Практика сбора высококачественных данных: Не смешивайте числа и текст. Например, при

Практика сбора высококачественных данных:
Не смешивайте числа и текст.
Например, при заполнении числовых

ячеек не пишите там «>200000» или «<75»: некоторые программы интерпретируют такие записи как отсутствующие данные. Вместо этого следует пользоваться специальными заменителями, например, «200001» для первого случая или «74» для второго случая.
Слайд 22

Практика сбора высококачественных данных: Что делать, если собрано много значений одной

Практика сбора высококачественных данных:
Что делать, если собрано много значений одной переменной

для одного и того же случая?
Такое часто бывает в «продольных» исследованиях, где выполняется мониторинг уровня CD4+ лимфоцитов, вирусной нагрузки в плазме крови и т.п. в исследуемой выборке.
Нужно создавать по переменной для каждого из значений, полученных в одинаковый момент времени: например, CD4_1, CD4_2, CD4_3 и т.д. При этом каждой такой переменной должна быть сопоставлена переменная даты. Аналогично производится разложение по переменным сложных диагнозов, например, множества сопутствующих заболеваний при ВИЧ-инфекции (в ячейке можно указывать дату установления диагноза).
Слайд 23

Метод 1 сложнее, но практически не имеет ограничений. Метод 2 проще

Метод 1 сложнее, но практически не имеет ограничений.

Метод 2 проще и

требует меньше места, но позволяет вводить только значения, предусмотренные разработчиком базы.
Слайд 24

Данные могут храниться в двух форматах: Формат «высокий столбец»: каждая запись

Данные могут храниться в двух форматах:
Формат «высокий столбец»: каждая запись для

одного пациента, соответствующая определённому моменту времени, указывается в отдельной строке.
Формат «широкая строка»: для каждого пациента отводится одна линейка таблицы.
Слайд 25

Оба формата подразумевают уникальные идентификаторы для каждого пациента, ввиду чего легко

Оба формата подразумевают уникальные идентификаторы для каждого пациента, ввиду чего легко

транспонируются специальными программами в любой требуемый вид.
«Высокий» формат экономит место, но требует, чтобы программа поддерживала достаточное количество линеек. Кроме того, возможны ошибки в указании идентификаторов пациентов, что приводит к потере данных.
«Широкий» формат менее чувствителен к вводу идентификатора пациента (вводится только один раз), но требует, чтобы программа поддерживала достаточное количество столбцов. Кроме того, внесение каждого непредусмотренного значения требует переделки базы. Если для одного пациента было внесено больше данных, чем для другого, аналогичные данные для второго будут автоматически считаться пропущенными.
Слайд 26

Если в ходе исследования производится модификация/расширение базы данных, необходимо вести журнал

Если в ходе исследования производится модификация/расширение базы данных, необходимо вести журнал

изменений, а также хранить окончательные версии каждой из модификаций, помечая их таким образом, чтобы можно было точно установить дату и версию модификации. Не стирайте старые версии, замещая их новыми!!!
Слайд 27

Найдите все ошибки, допущенные при заполнении представленной базы данных ☺

Найдите все ошибки, допущенные при заполнении представленной базы данных ☺

Слайд 28

Слайд 29

Слайд 30

Слайд 31

Слайд 32

Слайд 33

Слайд 34

Слайд 35

Резюме Существует ряд правил построения электронных таблиц для обеспечения их максимальной

Резюме
Существует ряд правил построения электронных таблиц для обеспечения их максимальной совместимости

с программами, выполняющими статистическую обработку:
1. Случаи располагаются в строках, переменные – в столбцах;
2. Случаи должны быть уникальными, т.е. каждая строка таблицы должна соответствовать одному уникальному пациенту. Соответственно, каждый случай должен иметь уникальный (неповторяющийся) идентификатор (порядковый номер);
3. Заголовки столбцов должны быть уникальными (неповторяющимися), короткими (не длиннее 10-12 символов) и, желательно, набранными латиницей (допустимо употребление цифр, дефисов и знаков подчеркивания);
4. Необходимо четкое разделение всех переменных таблицы на качественные, порядковые и количественные;
Слайд 36

5. Значения всех переменных, вносимые в таблицу, должны быть числовыми; символьные

5. Значения всех переменных, вносимые в таблицу, должны быть числовыми; символьные

значения («да», «нет» и т.п.) не допускаются. В том случае, если переменные являются качественными/порядковыми, т.е. по природе своей требуют словесного описания, их необходимо формализовать, т.е. ввести схему цифрового кодирования описательных признаков и строго ее придерживаться в ходе заполнения базы;
6. Сложные качественные переменные необходимо разбивать на более простые с вариантами значений «1» (есть данное состояние) и «0» (нет данного состояния);
7. При заполнении переменных, содержащих даты, необходимо придерживаться единого формата (например, дд/мм/гггг). При внесении в ячейки таблицы цифровых значений необходимо следить за тем, чтобы точность указанных значений была единообразной в пределах одной переменной (например, всюду указываться с точностью до второго знака после запятой);
Слайд 37

8. По возможности следует избегать пустых ячеек на месте отсутствующих данных;

8. По возможности следует избегать пустых ячеек на месте отсутствующих данных;

в таких случаях лучше использовать специальные коды, резко отличающиеся от всех возможных значений учитываемого признака (например, 9999);
9. После заполнения электронную таблицу обязательно необходимо проверить на предмет неправильно внесенных данных. Обычно встречающиеся при этом ошибки:
– значения пропущены либо сдвинуты;
– случайное изменение формата ячеек (например, дата или текст вместо числа);
– формат даты не соответствует принятому для данной базы;
– значения дат не соответствуют срокам выполнения исследования (вариант: возраст пациентов выходит за рамки, оговоренные для исследования);
– числовые данные результатов обследований явно выходят за возможные пределы колебаний соответствующих параметров;