Достоверность информации: определение, проверка и контроль. источники информации

Дезинформация

Дезинформацией (также дезинформированием) называется один из способов манипулирования информацией, как то введение кого-либо в заблуждение путём предоставления неполной информации или полной, но уже не нужной информации, или полной, но не в нужной области, искажения контекста, искажения части информации.

Цель такого воздействия всегда одна — оппонент должен поступить так, как это необходимо манипулятору. Поступок объекта, против которого направлена дезинформация, может заключаться в принятии нужного манипулятору решения или в отказе от принятия невыгодного для манипулятора решения. Но в любом случае конечная цель — это действие, которое будет предпринято.

Содержательность

Содержательность
информации — это ее удельная семантическая
емкость, равная отношению количества
семантической информации в сообщении
к объему данных, его отображающих, то
есть S
= Iс/Vд.

С
увеличением содержательности информации
растет семантическая пропускная
способность информационной системы,
так как для передачи одних и тех же
сведений требуется преобразовывать
меньший объем данных.

Достаточность

Достаточность
(полнота) экономической информации
означает, что она содержит минимальный,
но достаточный для принятия правильного
управленческого решения набор
экономических показателей. Понятие
достаточности информации связано с ее
смысловым содержанием (семантикой) и
прагматикой. Как неполная, то есть
недостаточная для принятия правильного
решения, так и избыточная информация
снижают эффективность управления;
наивысшим качеством обладает именно
полная информация.

Доступность

Доступность
информации для восприятия при принятии
управленческого решения обеспечивается
выполнением соответствующих процедур
ее получения и преобразования. Так,
назначением вычислительной системы и
является увеличение доступности
информации путем согласования ее с
тезаурусом пользователя, то есть
преобразование ее к доступной и удобной
для восприятия пользователем форме.

Актуальность

Актуальность
информации — это свойство информации
сохранять свою полезность (ценность)
для управления во времени. Измеряется
актуальность А(t)
степенью сохранения начальной полезности
информации Z(t)
в момент времени t
ее использования:

где
Z(t)—
полезность информации в момент времени
t.

Актуальность
зависит от статистических характеристик
отображаемого объекта (от динамики
изменения этих характеристик) и от
интервала времени, прошедшего с момента
возникновения данной информации.

Своевременность

Своевременность
— это свойство информации, обеспечивающее
возможность ее использования в заданный
момент времени. Несвоевременная
информация приводит к экономическим
потерям и в сфере управления, и в сфере
производства. Причиной, обусловливающей
экономические потери от несвоевременности
в сфере управления, является нарушение
установленного режима решения
функциональных задач, а иногда и их
алгоритмов. Это приводит к увеличению
стоимости решения задач вследствие
снижения ритмичности, увеличения
простоев и сверхурочных работ и т.п. в
сфере материального производства.
Потери от несвоевременности информации
связаны со снижением качества
управленческих решений, принятием
решения на базе неполной информации
или информации некачественной.
Своевременной является такая информация,
которая может быть учтена при выработке
управленческого решения без нарушения
регламента, поступающая в систему
управления не позже назначенного момента
времени.

Сравнение источников

Помимо этого, довольно полезно будет сравнить между собой источники, поскольку такие качества, как авторитетность и популярность, ещё не дают полных гарантий достоверности. Именно поэтому следующим важным признаком информации является её непротиворечивость. Каждый факт, полученный от источника, должен доказываться результатами проведённых независимых исследований, то есть он должен повторяться. Если повторный анализ приходит к идентичным выводам, значит, установлено, что информация действительно является непротиворечивой. Это говорит о том, что сведения единичного характера, случайные, большого доверия к себе не заслуживают.

Компетентные и некомпетентные

Помимо подразделения на достоверные и недостоверные, источники также могут быть компетентными и некомпетентными.

Наиболее широко представлены такие источники информации, как уполномоченные официальных структур власти. В первую очередь государственные учреждения должны снабжать граждан самой объективной и точной информацией. Однако даже сведения пресс-службы правительства могут быть подделаны, и нет гарантии, что из государственного источника не может просочиться информация, не являющаяся достоверной. Именно поэтому получить информацию – не означает доверять ей безоговорочно.

Репрезентативность

Репрезентативность
— правильность, качественная адекватность
отражения заданных свойств объекта.
Репрезентативность информации зависит
от правильности ее отбора и формирования.
Важнейшее значение при этом приобретают:
верность концепции, на базе которой
сформулировано исходное понятие,
отображаемое показателем; обоснованность
отбора существенных признаков и связей
отображаемого явления; правильность
методики измерения и алгоритма
формирования экономического показателя.
Нарушение репрезентативности информации
приводит нередко к существенным ее
погрешностям, называемым чаще всего
алгоритмическими.

Методы оценки персонала

Если рассматривать полную совокупность методов оценки персонала, то можно их разделить на 3 основные группы:

  • Первая исследует индивидуальные качества человека.
  • Вторая даёт оценку работе в группе.
  • Третья формирует совокупность показателей.

Качественные методы

Так качественные методы определяют индивидуальные особенности человека, как работника, не давая количественные показатели по каждому из оцениваемых пунктов.

  1. Матричный метод. При этом оценивается вся совокупность качеств работника и сопоставляется по пунктам с теми характеристиками, которые предъявляются к определённой занимаемой должности.
  2. Метод системы произвольных характеристик. Оцениваются выборочные моменты работы, которые являются наиболее значимыми и ключевыми для достижения целей в определённый период.
  3. Оценка выполнения задач. Анализируется вся работа, проведённая работником и сопоставляется с теми целями и задачами, которые были поставлены на определённый период.
  4. Метод 360 градусов. Коллегу оценивают люди, работающие вместе с ним или вышестоящее начальство. Затем он сам выставляет себе оценку и сравниваются при этом результаты.
  5. Групповая дискуссия. Проходит в формате разговора между группой подчинённых и начальством. Выясняются достигнутые результаты, ставятся новые цели и определяются перспективы дальнейшего развития.

Комбинированные методы

Здесь используется и описательный принцип, и проводится одновременно оценка количественных характеристик.

  1. Тестирование. Работник выполняет несколько тестов, которые позволяют оценить ситуацию.
  2. Метод суммы оценок. Имеющиеся характеристики личности сравниваются с градуированной шкалой. В результате выводится средний показатель, который может быть сравнён с идеальными параметрами.
  3. Система группировки. Проводится всесторонний и глубокий анализ сущности имеющихся проблем. Оценивается работа не только индивидуума, но и влияние коллектива на достижение результата.

Количественные методы

В результате их проведения на выходе всегда имеется числовое значение того уровня качества, которое обеспечивает определённый работник. Является достаточно объективным.

  1. Ранговый метод. Сравнение производится между несколькими индивидуумами, по каждому из которых предварительно был составлен рейтинг. В результате сравнения выносится определённое решение.
  2. Метод балльной оценки. Любая реализуемая задача обеспечивает сотруднику фиксированное количество баллов при удачном завершении. По истечении периода баллы суммируются, показывая достигнутый результат. Потом он может быть сравнён с другими сотрудниками или с эталонными показателями.
  3. Свободная балльная оценка. Свободная балльная оценка не приравнивает результаты к эталону, а позволяет сравнить только достижения того или иного человека.

Любые методы оценивания позволяют добиться эффективного функционирования предприятия и повышают уровень его производительности и качества оказываемых услуг или производимой продукции.

ОЦЕНКА ИНФОРМАЦИИ

Собранные данные не являютсяинформацией до тех пор,пока они не проанализированыквалифицированным экспертом.У. Кинг, Д. КлиландИнформация, поступившая в аналитические службы, оценивается по нескольким критериям: своевременность, необходимость, достоверность.Под своевременностью понимается получение информации в течение времени, пока в ней есть необходимость. Критерию своевременности должна удовлетворять тактическая и сигнальная информация. При несвоевременном получении, т. е. когда надобность в информации отпадает, она передается в архив (для использования, при проверке надежности источника) или уничтожается

Просроченная информация помечается определенным знаком, например синей диагональной полосой.Под необходимостью понимают важность информации в данное время и для данной работы. Информация, в которой нет стратегической необходимости, практически не должна интересовать аналитические службы

Если поступает информация, в которой нет необходимости для данной разработки и она не представляет стратегической ценности, то она передается либо в архив (для дальнейшей проверки, например, надежности источника) или уничтожается.Достоверность информации оценивается по двум основным критериям: собственно достоверность самой информации и надежность источника информации. При этом оценка достоверности информации — дело достаточно сложное и малодостоверное

Поэтому при оценке информации обращают основное внимание на надежность источника. Достоверность информации оценивается специальным кодом

Цифрой обозначается надежность источника, а буквой — достоверность информации.Для определения достоверности используют две основных шкалы. Первая шкала — профессиональная оценка информации. Вторая шкала — упрощенная, но достаточная для многих направлений деятельности.

Сбор и хранение информации

В зависимости от поставленных целей данные и сведения можно подвергать различным операциям. Сбор и хранение – одни из них.

Работа с информацией возможна только после тщательного поиска. Этот процесс имеет название сбор данных, то есть накопление с целью обеспечения достаточного количества для дальнейшей обработки. Данный этап работы с информацией считается одним из самых важных, ведь от него зависят качество и актуальность данных, с которыми придется иметь дело в последующем.

Фазы сбора сведений:

  • первичное восприятие;
  • разработка классификации полученных данных;
  • кодирование объектов;
  • регистрация результатов.

Следующим этапом в работе с информацией является обеспечение ее сохранности для последующего пользования.

Хранение данных – это способ налаживания их обращения в пространстве и времени. Этот процесс зависит от носителя – диск, картина, фотография, книга и т.д. Срок хранения тоже дифференцируется: школьный дневник нужно хранить на протяжении учебного года, а билет в метро – только во время поездки.

Информация – это то, что существует только на определенном носителе. Поэтому процессы сбора и хранения можно считать ключевыми в работе с ней.

Рекомендации по использованию теории измерений в системе показателей

Прежде всего, надо перенести в практику создания системы показателей деятельности общие требования к качеству — достоверности, надёжности и информативности. Пусть и на недостаточно разработанном уровне, но их необходимо учитывать. Все эти показатели комплексные, то есть не сводимые к одному свойству, к одному простому и хорошо измеряемому показателю. Остальные требования к качеству системы показателей деятельности надо взять из конкретных областей, в которых работает фирма.

Надёжность — отсутствие отклонений в результатах измерений. В системе показателей деятельности это означает, что два и более эксперта дают одну и ту же оценку, результат измерений не зависит от процедуры. Формальные измерители надёжности есть: она измеряется статистическими мерами связи и вариабельности. Однако использовать в системе показателей деятельности это можно только в случае опросов нескольких экспертов, что бывает относительно редко.

Достоверность — результат измерений совпадает с действительным положением вещей. Формальных измерителей достоверности нет. Эксперты должны однозначно понимать, что именно и в какой шкале они оценивают, чтобы избежать ситуаций, когда эксперты оценивают один и тот же показатель, характеризующий объект исходя из различных предпосылок.

Важные общие свойства измерений: как правило, чем больше информативность, тем меньше надёжность, а также, чем больше надёжность, тем меньше информативность.

Информативность — мера новой информации, заключённая в измерении. Она определяется разрешающей способностью шкалы измерения и нашими исходными представлениями об измеряемой величине. Если мы уже знаем измеряемую величину, то информативность измерения равна нулю, никакой новой информации мы не получаем. Но со значениями показателей деятельности всё ясно: мы потому их и измеряем, что заранее не знаем. Поэтому эта сторона информативности не актуальна. И в системе показателей деятельности информативность сводится к разрешающей способности шкал.

Возможные «противоречия» между показателями измерений. Измерение может быть (а может и не быть, обязательности здесь нет):

  • надёжным, но недостоверным;
  • достоверным, но ненадёжным.

Важные общие свойства измерений:

  • как правило, чем больше информативность, тем меньше надёжность;
  • как правило, чем больше надёжность, тем меньше информативность.

Итак, в системе показателей деятельности показатели качества измерений и оценок конкретизируются и упрощаются. Основные выводы без строго доказательства:

  • надёжность сводится к устойчивости;
  • правильность сводится к обоснованности;
  • информативность сводится к точности шкалы (чем сильнее шкала, тем больше точность);
  • многомерность = {количество независимых или частично-зависимых, но дополняющих друг друга показателей для одной цели} 3.

Очевидно, что в процессе построения в системе показателей деятельности происходит последовательная адаптация шкал и методик измерений под цели и задачи конкретной фирмы. Это облегчает решение задач качества измерений и делает представленные здесь методы необходимыми при проведении оригинальных измерений. Оценки и оценочные шкалы — это база технического инструментария.

Ссылка на источник

Таким образом, достоверность информации может определяться присутствующей в ней отсылкой к источнику. Если последний имеет полномочия в какой-либо сфере или специализируется в определённой области, то он является компетентным.

Но наличие ссылки не всегда должно быть обязательным, так как бывает, что разного рода положения получают подтверждение непосредственно в процессе изложения информации. Происходит это тогда, когда автором сведений является специалист, то есть человек достаточно компетентный в той области, которой касается. В данном случае чаще всего можно не сомневаться, что информация будет достоверной.

В подавляющем большинстве неназванные источники способствуют снижению достоверности материала, особенно тогда, когда в статье присутствуют негативные новости, о которых читателю ранее не было известно. Людей главным образом интересует первоисточник такой информации.

Лучшими считаются такие сведения, которые ссылаются на источники, имеющие определённый авторитет, например имеющие официальный статус, различные статистические агентства, научно-исследовательские институты и т. д.

Тогда легче осуществлять проверку достоверности информации.

Как управлять качеством данных: процессы и инструменты

За оценку качества данных отвечают инженеры Data Quality, которые управляют информационными массивами, проверяют их поведение в текущих и новых условиях, контролируют релевантность, достаточность и актуальность. Как правило, обязанности Data Quality инженера не ограничиваются только рутинными проверками записей в таблицах СУБД, а требуют глубокого понимания бизнес-потребностей, чтобы трансформировать имеющиеся данные в пригодную к практическому использованию информацию. Для этого решаются следующие задачи: :

  • автоматизированная подготовка тестовых данных;
  • загрузка подготовленного датасета в исходный источник, например, озеро данных (Data Lake);
  • запуск ETL-процессов для обработки набора данных из исходного источника и отправку в окончательное или промежуточное хранилище с возможностью конфигурации параметров ETL-задачи, например, с помощью Apache Airflow;
  • верификация данных после ETL-обработки на предмет их качества и соответствие бизнес-требованиям.

Для организации data chain – цепочки проверочных тестов на каждой стадии обработки данных от источника до пункта финального использования могут использоваться легковесные SQL-запросы. Они помогают оценить отдельные атрибуты качества данных, например, tables metadata, blank lines, NULLs, Errors in syntax. Для регрессионного тестирования, когда используются уже готовые неизменяемые датасеты, код автотестов уже хранит готовые шаблоны проверки данных на соответствие качеству, такие как описания ожидаемых метаданных таблиц, строчных выборочных объектов для случайного выбора и т.д. Иногда в ходе тестирования Big Data Quality инженер пишет тестовые ETL-процессы с помощью Apache Spark или Airflow, используя уже готовые операторы, в частности, GCP BigQuery или создавая собственные . Про операторы Apache Airflow мы писали здесь, на примере Kubernetes Operator.

Разумеется, все это инженеры Data Quality выполняют не вручную. Современный рынок ПО предлагает множество специализированных инструментов для проверки качества данных и их улучшения. В частности, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие коммерческие продукты, а также открытые сервисы. Аналитическое агентство Gartner составило список ТОП-10 таких решений, проранжировав их по удобству использования, функциональным возможностям и отзывам профессионалов .

Как правило, большинство специализированных систем управления качеством данных автоматизируют следующие процессы Data Quality Management :

  • профилирование – первоначальная оценка данных, чтобы понять их текущее состояние, в т.ч. распределение значений;
  • стандартизация – механизм бизнес-правил, обеспечивающий соответствие данных стандартам;
  • геокодирование адресов, которое корректирует данные в соответствии с географическими стандартами;
  • сопоставление или связывание – способ сравнения данных для выявления одинаковых по смыслу, но разных по виду представления записей. Сопоставление может использовать нечеткую логику для поиска дубликатов в данных. Например, «Петр» и «Птер» может быть одним и тем же человеком, который проживает по одинаковому адресу.
  • мониторинг – отслеживание качества данных с течением времени и отчетность об изменениях с автоматическим исправлением изменений на основе предварительно определенных бизнес-правил;
  • пакетная и потоковая обработка – первичная очистка данных в пакетном режиме с последующей интеграцией в корпоративные приложения.

Обеспечение качества данных не сводится лишь к технической задаче устранения дублирующихся или пропущенных значений. Важна также организационная сторона этого процесса, где задействован не только Data Quality инженер. В следующей статье мы поговорим про ответственность за качество данных и профессию дата стюарда (Data Steward).

Как сделать большие данные качественными с помощью Apache Airflow, Spark и других фреймворков, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

  • Подготовка данных в процессе Data Mining
  • Apache AirFlow
  • Анализ данных с Apache Spark

Смотреть расписание
Записаться на курс

Источники

  1. https://habr.com/ru/post/321406/
  2. https://en.wikipedia.org/wiki/Data_quality
  3. https://habr.com/ru/company/epam_systems/blog/495478/
  4. https://www.gartner.com/reviews/market/data-quality-tools

Как поступить, если источником информации становится конкретное физическое лицо?

Бывают такие ситуации, когда источником информации становится не организация, а определённое лицо. В этих случаях необходимо узнать как можно больше сведений об этом авторе, чтобы определить, в какой степени нужно доверять информации, поступившей от него. Убедиться в достоверности данных можно путём ознакомления с иными работами автора, с его источниками (если таковые имеются), либо же выяснить, обладает ли он речевой свободой, то есть может ли предоставлять такую информацию.

Этот критерий определяется наличием у него учёной степени либо же должного опыта в определённой сфере, а также должности, которую он занимает. В противном же случае информация вполне может оказаться бесполезной и даже принести вред. Если нельзя проверить каким-либо образом достоверность сведений, они сразу же могут считаться бессмысленными. При поиске же информации в первую очередь нужно чётко сформулировать ту проблему, которая требует разрешения, что понизит возможность дезинформирования.

Если же сведения являются анонимными, то за достоверность информации ни в коем случае нельзя ручаться. Любые сведения должны иметь своего автора и подкрепляться имеющейся у него репутацией. Самыми ценными в принципе являются те данные, источником которых является человек опытный, а не случайный.

Этапы статистического исследования. Значение и сущность статистической группировки. Задачи и виды группировок.

Любое
статистическое исследование обычно
проводится в 3 этапа.

1.Сбор
статистической информации.

2.Группировка
статистических данных

3.
Статистическая сводка

(расчет
системы показателей и их анализ)

Группировка-это
разделение единиц совокупности на
группы однородных единиц, схожих, либо
по своей материальной природе(напр.
распределение предприятий по формам
собственности), либо по значению одного
или нескольких признаков.(например
распределение населения по величине
среднедушевого дохода)

В
ходе группировки должны быть выполнены
следующие задачи:

1.Выбор
группировочного признака

2.Определение
числа выделяемых групп

3.Определение
значений признака, которые будут отделять
одну группу от другой, т.е. определение
интервалов.

Если
в основании группировки лежит один
признак, то группировка постоянная.
Если группировка выполняется по
нескольким признакам , то она назыв
комбинационной. Недостаток комбинационной
группир состоит в дроблении.

В
зависимости от задач которые решаются
методом группировок выделяют:
типологическую, аналитическую и
структурную группировки.

Типологическая
группир определяется представлениями
о том какие типы могут встретиться в
изучаемом явл или проц. Аналитическая
групп строится для изучения взаимосвязи
между признаками.

Структурная
группировка характеризует структуру
совокупности по какому-нибудь одному
признаку.

Способы проверки

Поскольку достоверными являются только те сведения, которые соотносятся с действительностью, очень важным является навык проверки полученных данных и определения степени их достоверности. Если овладеть таким умением, то можно избежать разного рода дезинформационных ловушек. Для этого нужно в первую очередь выявить, какой смысловой нагрузкой обладают полученные сведения: факторной либо оценочной.

Контроль достоверности информации крайне важен. Факты являются тем, с чем сталкивается человек в первую очередь, когда получает какую-либо новую для него информацию. Они именуют уже проверенные на достоверность сведения. Если же информация не была проверена либо же это невозможно сделать, то фактов в себе она не содержит. К ним относятся числа, события, имена, даты. Также фактом является то, что можно измерить, подтвердить, потрогать или перечислить. Чаще всего возможность их представления имеется у социологических и научно-исследовательских институтов, агентств, специализирующихся на статистике, и т. д. Главным признаком, различающим факт и оценку достоверности информации, является объективность первого. Оценка же всегда является отражением чьего-либо субъективного взгляда или эмоционального отношения, а также призывает к определённым действиям.

Шкала первая

Надежность источника информации:1. Совершенно надежный2. Обычно надежный3. Довольно надежный4. Не всегда надежный5. Ненадежный6. Надежность не может быть определенаДостоверность информации:a) Достоверность подтвержденаb) Вероятно правдиваяc) Возможно правдиваяd) Сомнительнаяe) Неправдоподобнаяf) Достоверность не может быть определена Так, кодировка информационной единицы 1с означает возможно правдивую информацию, которую предоставил совершенно надежный источник. Соответственно, с большой долей вероятности информации можно доверять и она используется при прямом анализе фактов.

Почему большие данные должны быть качественными или что такое Data Quality

Большие данные полезны только когда из них можно извлечь ценные для бизнеса сведения – инсайты. Чтобы анализировать множество файлов или записей Big Data, эти информационные наборы должны обладать не только определенной структурой, но и отвечать следующим характеристикам :

  • актуальность – соответствие данных отражают реальному состоянию целевого объекта в текущий период времени;
  • объективность — точность отражения данными реального состояния целевого объекта, которая зависит от методов и процедур сбора информации, а также от плотности регистрируемых данных;
  • целостность – полнота отражения данными реального состояния целевого объекта, которая показывает, насколько полны, безошибочны и непротиворечивы данные по смыслу и структуре (формату) с сохранением их правильной идентификации и взаимной связанности;
  • релевантность – соответствие данных о реальном состоянии целевого объекта и решаемым задачам, что характеризует возможность их применения с учетом содержания, структуры и формата;
  • совместимость – процедурный показатель, который характеризует возможность обрабатывать и анализировать данные в дальнейшем, не только в рамках текущей задачи;
  • измеримость – качественные или количественные характеристики реального состояния целевого объекта и конечный объем набора цифровых данных.
  • управляемость – возможность целевым и осмысленным образом обработать, передать и контролировать данные о реальном состоянии целевого объекта, на основе структуры и формата датасета;
  • привязка к источнику данных – связанная и достоверная идентификация цепочки поставки данных, например, указание авторства, источника генерации и прочие атрибуты происхождения данных (Data Provenance);
  • доверие к поставщику данных – оценка получателем деловых качеств поставщика публичных данных как ответственного, авторитетного, организованного и относительно независимого издателя цифровой информации высокого качества.

Совокупность количественных оценок каждого из этих показателей отражает качество данных (Data Quality) – характеристику, показывающую степень их пригодности к обработке и анализу, а также соответствие обязательным и специальным требованиям . В упрощенном понимании качество данных – это степень их пригодности к использованию. В частности, стандарт ISO 9000:2015 именно так определяет качество данных по степени их удовлетворения требованиям: потребностям или ожиданиям, таким как полнота, достоверность, точность, последовательность, доступность и своевременность .

На практике оценка качества данных сильно зависит от контекста их использования. Например, для крупных маркетинговых кампаний может быть приемлемо до 3-5% дублированных или пропущенных записей, а в случае с медицинскими исследованиями такое недопустимо. Поэтому дисциплина интеллектуального анализа данных (Data Mining) выделяет целых 5 процедур подготовки информационных наборов к использованию в машинном обучении. Подробнее об этом мы рассказывали здесь

Однако, качество данных важно не только для точности алгоритмов Machine Learning. Устаревшие или ненадежные данные могут привести к дорогостоящим ошибкам, например, лишним расходам на закупку материалов из-за отсутствия актуальных сведений о складских запасах

Пирамида процессов Data Management для работы с корпоративными данными

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector