Накопление и свертывание данных

Автор:Давиденко Сергей

Накопление и свертывание данных

Для чего используется метод проектирования

Построить и представить в визуальной форме модели поведения человека, от которых зависят критические проектные решения.

Метод «Накопление и свертывание данных» имеет много синонимов. Так, мы можем встретить очень близкие или родственные методы: «Анализ данных«, «Добыча данных«, «Data Mining«. Основная проблема заключается в том, чтобы исходя из используемой модели системы найти наиболее адекватный уровень абстракции данных, а значит и их абстрактного представления. Различные способы визуализации данных справляются с этим очень хорошо, а иногда даже простое сравнение методов визуализации способно помочь определиться с тем, какую модель использовать для абстракции данных.

План действий

1. Выявить неопределенности, имеющие критическое значение для успеха или неудачи проектных решений в рассматриваемом диапазоне.
2. Определить, до какой степени следует сократить неопределенности, имеющие критическое значение.
3. Определить время и имеющиеся возможности для сокращения неопределенностей, имеющих критическое значение.
4. Просмотреть существующие методы накопления и свертывания данных, отмечая в каждом случае точность, скорость и стоимость обработки данных, а также типы вопросов, на которые может быть дан ответ.
5. Выбрать методы накопления и свертывания данных, совместимые с изложенными требованиями и друг с другом.
6. Непрерывно проверять релевантность промежуточных результатов и неопределенностей, имеющих критическое значение, и при необходимости корректировать методику.

Замечания (описание)

Сбор и анализ данных имеют целью заполнить пробел, возникающий в результате неспособности проектировщика определить на основе собственного опыта или путем непосредственного изучения критические конфигурации и величины, характеризующие ситуацию, которой его проект должен соответствовать или которую он призван трансформировать. Сделать это значительно труднее, чем кажется на первый взгляд, потому что на каждую единицу собранной полезной информации приходится множество абсолютно бесполезных сведений. В реальных условиях релевантная информация погребена в массе потенциально нерелевантных данных. Более того, большая часть как полезной, так и бесполезной информации, получаемой в результате накопления и свертывания данных, первоначально скрыта от глаз наблюдателя.
Полезность информации, представляемой визуально механическими и статистическими способами, может быть установлена либо путем оценки на основе существующего опыта «на что похоже то, что происходит» (т. е. формулированием гипотезы), либо путем проведения кратких экспериментальных исследований для предварительного отбора результатов до того, как пойти на крупные затраты времени и средств. Идеально было бы непрерывно проверять релевантность информации и на основе этого изменять избранное направление работы над проектом или вовсе отказаться от него, если окажется, что зто направление бесперспективно.
При сборе и анализе данных полезно мысленно представить себе картину конечного результата. Важные особенности такой картины таковы:
1. Данные, которые могут быть собраны, погребены в совокупности объектов и событий, которые слишком удалены, слишком велики, слишком малы, слишком быстры или слишком медленны, чтобы их можно было охватить непосредственным наблюдением. Например, аспекты проектной ситуации, относящиеся к уличному движению в городе, слишком рассеяны, не совпадают по времени и не могут быть изучены путем непосредственного наблюдения. Кроме того, многие подробности не имеют практического значения и только затеняют данные, которые можно было бы использовать при проектировании, если бы они были известны.
2. Накопление данных означает процесс последовательного извлечения единиц информации из естественного контекста и включения их в некую промежуточную нейтральную среду, которую можно сделать доступной органам чувств проектировщика. Эта среда должна быть достаточно пластичной, чтобы данные можно было представлять графически и видоизменять для выявления в них структур, имеющих важное значение. Например, высота над уровнем моря заданных точек ландшафта извлекается аэрофото-съемщиками и топографами из бесконечного множества данных, которые можно было бы замерить, если бы требовалось полностью охарактеризовать каждую точку данного участка земной поверхности. Эти данные преобразуются в элементы гибкой промежуточной среды в виде пространственных координат (т. е. углов, расстояний, значений широты и долготы), которые могут затем накапливаться и храниться вне связи с самим ландшафтом и могут по желанию перекомпоновываться для выделения наиболее важных аспектов исходного ландшафта.
3. Сокращение данных и составляет этот второй этап перекомпоновки, переупорядочивания записанных данных с целью выявления предполагаемых важных схем, или «паттернов». В данном случае такими схемами могут быть контурные карты, перспективные изображения, поперечные разрезы, вычисления уклонов, объемные модели и т.п., получаемые в результате отображения данных в новые структуры. Термин свертывание или редуцирование означает выбор существенно важной информации из множества накопленных данных (например, максимальной высоты возвышенностей) или сведение множества данных к меньшему их числу, адекватно представляющему целое (например, представление возвышенностей системой горизонталей). Этот вопрос более подробно рассматривается в методе «Выбор критериев».
4. Сформулируем два важных вопроса, касающихся накопления и свертывания данных:
а) Какие данные накапливать?
б) Как их «свертывать»?
В обоих случаях приходится решать, какими частями общей весьма сложной картины следует пренебречь, так как никогда не хватает времени, чтобы ее детально и полностью изучить. При ответе на первый вопрос стараются выделить из структуры или схемы, характеризующей реальную обстановку, те данные, которые, как надеются, являются определяющими. Отвечая на второй вопрос, решают, каким образом перегруппировать изъятые из контекста данные (деструкция данных ) и как их представить в виде новой схемы (конструкция), которая верно отражала бы реальный мир, отвечала бы проектируемому объекту, который должен быть добавлен к этому миру, и позволяла бы проектировщику сразу охватить взглядом как общую форму результирующей схемы, так и ее существенные аспекты (инструкция проектировщика) . Этот процесс выявления схемы («модели», или «паттерна») является концентрическим и неизбежно будет несовершенным, если у проектировщика после оценки первоначальных результатов не будет достаточно времени для изменения своих решений относительно того, какие данные следует накапливать и как их свертывать.
Следует помнить, что накопление и свертывание данных — это замедленный вариант объективирования того, что почти мгновенно проходит перед нашим взором. Аппарат научного накопления и свертывания данных представляет собой искусственно созданное средство, позволяющее преобразовать невидимое в форму, доступную восприятию с помощью естественных органов чувств. Обычно это средство является настолько сложным и медленно действующим, что его можно сравнить с попытками внезапно ослепшего человека найти дорогу с помощью одной только палки. Навыки в накоплении данных сходны с навыками опытного слепого, когда он решает, куда ткнуть своей палкой. Навыки же в свертывании данных сродни способности слепого человека мысленно конструировать связную картину внешнего мира по тем отрывочным данным, которые он получает, пользуясь своей палкой.
Вполне вероятно, что широкое использование ЭВМ, работающих в реальном масштабе времени, благодаря чему проектировщики могут активно вмешиваться в процесс свертывания данных, позволит ускорить и удешевить его настолько, что он станет столь же гибким, как и непосредственное чувственное восприятие человека. Пока же нам приходится полагаться на смекалку и здравый смысл при поиске кратких обходных путей взамен чрезвычайно длительных и дорогостоящих путей восприятия новых аспектов мира в виде фрагментарных и «замедленных» образов, получаемых с помощью интервью и записей, при помощи фотоаппарата и кинокамеры, самописцев, счетных машин, анкет, графов, гистограмм, цифровых индексов и т.п. Конечно, имеется множество свидетельств — от простых опытов Галилея до сложнейших космических полетов, — что косвенными методами можно вполне успешно изучать неизвестное, однако это возможно, лишь если мы согласны мириться с ошибками, ограничениями и задержками, с которыми неизбежно связано применение таких искусственных органов чувств.

Как применять технику креативности

Накопление и свертывание данных, недоступных непосредственному восприятию, применяются в тех случаях, когда местонахождение, физический объем и временной масштаб ситуации проектирования далеки от того, что проектировщики способны охватить, опираясь на свою память или непосредственное чувственное восприятие; примерами могут служить отдаленные потребители, крупные транспортные системы, распространение малых трещин, медленно растущий поселок или быстрые действия квалифицированных операторов. Часто бывает целесообразно сначала использовать все возможности неизбирательной записи данных (которая дешевле, быстрее и более гибка) и только после этого обратиться к избирательному механическому накоплению и статистической обработке данных.

Как научиться

Маловероятно, чтобы отдельный специалист или даже целая проектная группа располагали всеми необходимыми знаниями для успешного выполнения операций описанного здесь процесса накопления и свертывания данных.
Важно, чтобы Проектировщики научились распознавать, во-первых, когда им требуется помощь соответствующего специалиста, во-вторых, как найти соответствующего специалиста и, в-третьих, как убедиться в том, что рекомендуемое или выполненное экспертами точно соответствует неопределенностям проекта, которые следует устранить. Один из путей осуществления этого состоит в постоянной проверке и перепроверке вопросов, указанных в пп. 1 —6 (см. план действий). Кроме того, следует привлекать только тех специалистов, которые могут и хотят участвовать в постоянном и открытом обсуждении степени соответствия способов сбора и обработки   данных   целям   проектировщиков Лучше обойтись совсем без каких-либо данных, чем потерять контроль над процессом их обработки, прибегнув к услугам специалистов, которые не могут доказать соответствие своих действий поставленным задачам.

Стоимость и время

Здесь невозможно привести какие-либо цифры, но потенциальные исследователи должны иметь в виду, что сбор данных — это длительный и дорогостоящий процесс, который к тому же может привести к практически бесполезным результатам. Есть смысл затратить, скажем, 20% времени и средств на предварительные исследования и быструю обработку результатов, чтобы направить поиск в нужном направлении или вовсе приостановить его, как только станет ясно, что собранные данные не окажут влияния на критические проектные решения; иначе говоря, убытки от незнания должны превышать затраты на приобретение знаний.
Эта таблица дает примерное представление о том, по каким критериям можно выбирать методы накопления и свертывания данных. Отношение между высокой и низкой стоимостями может быть достаточно велико, например стоимость анализа неизбирательной звукозаписи на пленку может в 10—100 раз превышать стоимость планирования и самой записи.

Пример использования

При планировке комнат определить, какое пространство должно быть оставлено для прохода между стульями и стенами (предполагается, что полученные данные будут использованы для определения минимальных размеров элементов зданий заводского изготовления для массового строительства).
Пример основан на диссертации Робинса и приводится здесь с его разрешения.
1. Выявить неопределенности имеющие критическое значение для успеха или неудачи проектных решений в рассматриваемом диапазоне.
Предположим, что элементы зданий массового строительства будут изготовляться индустриальными методами из формованных бетонных компонентов стандартных размеров. Основными неопределенностями являются стоимость (которая должна быть достаточно низкой, чтобы предоставить жилье как можно большему числу семей) и размер (который должен быть достаточно большим, чтобы быть приемлемым для жителей в течение ближайших 20 — 30 лет). В настоящее время еще ничего или почти ничего не известно о том, как в течение этого периода изменятся взгляды людей на размеры комнат, однако предполагается, что размеры эти должны быть по меньшей мере достаточными для беспрепятственного движения человека между мебелью и стенами. Принимается, что одним из таких критических размеров является пространство между стеной и занятым стулом за обеденным столом (другие критические размеры, например высота потолка, будут рассмотрены отдельно).
2. Определить, до какой степени следует сократить неопределенности, имеющие критическое значение.
Когда проводилось данное исследование, существовало значительное расхождение между размерами, рекомендованными разными организациями в Англии , Швеции и Нидерландах для беспрепятственного передвижения в доме. Кроме того, невозможно было сказать, являются ли рекомендуемые размеры минимальными или оптимальными и связаны ли отклонения от них с большими или малыми штрафами или выгодами. Исследователи припои к выводу, что эти неопределенности не могут быть разрешены, пока не известно, как сказывается на движениях человека изменение размеров пространства на величину около 25 мм.

При выборе наиболее рационального направления исследований (с учетом экспериментальных ошибок) было решено идти в сторону занижения, а не завышения свободного пространства. Такое решение было принято в связи с тем соображением, что рекомендованные минимальные размеры комнат вообще не будут приняты потребителями, если будет существовать хоть малейшее сомнение в том, что они действительно минимальны. Поэтому реакция потребителей будет менее благоприятной, чем в случае, если бы были изданы, хотя и не вполне удовлетворительные, но вызывающие к себе доверие стандарты (метод «Выбор критериев»).
3. Определить время и имеющиеся возможности для сокращения неопределенностей, имеющих критическое значение.
Проект, на котором основан этот пример, планировалось закончить за 5 месяцев, два из которых ушло на анализ данных и составление отчета. Такой график работы оказался очень напряженным, и пришлось внести ряд изменений в первоначальный план, когда стало ясно, как много времени потребуется на обработку данных вручную.
4. Просмотреть существующие методы накопления и свертывания данных, отмечая в каждом случае точность, скорость и стоимость обработки данных а также типы вопросов, на которые может быть дан ответ.
Некоторые типовые методы накопления данных и их основные характеристики показаны в табл. 9.1 (с этой схемой следует тщательно ознакомиться, прежде чем переходить к дальнейшему).

Как видно из схемы, наиболее важно сделать выбор между избирательной и неизбирательной записью (категории АВ или CD) и между продольной и поперечной записью (категории АС или BD). По-видимому, для проекта, связанного со сбором данных, потребуется информация каждой из этих четырех категорий. Прежде всего проектировщики и исследователи должны решить такие вопросы:
а) трудозатраты на накопление данных каждой категории;
б) последовательность использования данных каждой категории.
Можно увлечься сбором данных какой-либо одной категории и забыть о том,
что для определения характера проблемы в целом требуются различные методы. Можно также упустить из вида, что сперва необходимо исследовать общую структуру проблемы и лишь после этого выбирать аспекты, которые целесообразно проанализировать более детально. На табл. 9-1 показано, почему рекомендуется начинать с исследований неизбирательного продольного типа (А) и постепенно идти (через В или С) к исследованиям избирательного поперечного типа (D). Объем информации каждой категории будет зависеть от степени определенности или неопределенности имеющихся знаний. Если характер проблемы неясен, усилия должны быть направлены прежде всего на методы неизбирательного типа (АВ) и исследования продольного типа (АС), ведущие к концентрации внимания на категории А. Если же характер проблемы уже известен, наибольшие усилия следует направить на отбор избирательного типа (CD) данных поперечного типа (BD), ведущий к концентрации внимания на категории D.
Рассматриваемое здесь исследование оптимальной планировки комнат началось с изучения литературы. Было установлено, что предыдущие работы включали исследования продольного и поперечного типов, касавшиеся поведения человека при изменяющихся размерах пространства с использованием наблюдении как избирательного, так и неизбирательного типов. Хорошим исходным пунктом для дальнейшей работы было признано одно исследование неизбирательного продольного типа (категория А). Невозможно было сказать что-либо о значении предшествующих исследований поперечного и избирательного типов (категории BCD), поскольку они оказались слишком детализированными, т.е. не соответствовали работе неизбирательного или продольного типа (категория А). Поэтому после ряда обсуждений было решено сосредоточить первоначальные усилия главным образом на киносъемках движений людей солидной комплекции в пространстве, имитирующем комнату, размеры которой могли изменяться по желанию (категория А). Остальное время отводилось на анализ выбранных аспектов данных (категории А или С), записанных на кинопленку. Форма этого анализа была определена лишь после того, как стали известны результаты предварительного исследования.
Для тщательной разработки метода накопления и свертывания данных требуются специальные знания, выходящие за пределы темы данной книги и непосредственной компетенции ее автора.
Нижеследующий перечень дает некоторое представление о вопросах, которые следует поставить:
Выборка
Какова должна быть величина выборки? Как она должна быть образована? Должна ли она быть однородной?
Точность
Какова должна быть степень точности измерений?
Согласована ли точность всех этапов от накопления данных до формулирования окончательных выводов? Имеются ли уязвимые места и перегруженные участки в цепи процессов накопления и сокращения данных?
Накопление и свертывание данных вручную
Отведено ли достаточно времени на эти очень утомительные ручные операции? Будет ли каждый участник обладать достаточным практическим опытом до того, как начнется запись данных? Имеется ли способ обнаружения и исправления ошибок наблюдения, записи и ручной обработки данных? Имеются ли правила и четкие определения относительно того, что следует считать наблюдением, а что должно игнорироваться?
Имеются ли согласованные коды для записи наблюдений и для промежуточных стадий свертывания данных? Используется ли в предлагаемом методе редуцирования данных способность человеческого мозга выявлять общие структуры в совокупности данных, которые можно интерпретировать по-разному?
Автоматическое накопление и свертывание данных
Предусмотрено ли достаточное время на отладку. и взаимную подгонку аппаратуры, условий освещения, установку шкал, переключающих устройств и т. п., которые до тех пор не комбинировались подобным образом?
Совместимы ли количество, скорость и точность автоматической обработки данных с теми ручными операциями, которые сохраняются в системе, в особенности на ее входе и выходе? Достаточна ли надежность системы для условий эксплуатации проекта в течение всего расчетного значения его срока службы?
Возникают ли на достаточно ранних этапах обработки данных сигналы об ошибках и упущениях, вызванных отказом машины или оплошностью при планировании?
Стоимость и время
Известны ли с достаточной степенью точности стоимость и длительность каждого этапа?
 
Минимальное расстояние для свободного прохода 625 мм.
Это наименьший просвет, при котором не наблюдается заметного изменения позы проходящего человека.
Осторожное движение:
Небольшие отклонения от характерных поз, принимаемых испытуемым в процессе деятельности, так что критические кадры показывают одну или несколько из перечисленных ниже мер предосторожности, предпринимаемых при обходе препятствия.

Согласованы ли они с суммой ассигнований, предельным сроком выполнения и ценностью собранной информации для клиента?
5. Выбрать методы накопления и свертывания данных, совместимые с изложенными требованиями и друг с другом.
В соответствии с требованием п. 4 первоначальный выбор методов накопления и свертывания данных был таков:
Этап I. Съемка пробных кинограмм движений нескольких испытуемых, свободно перемещающихся в комнатах разных размеров.
Этап 2. Просмотр и расшифровка кинограмм для определения методики обработки данных.
Этап 3. Съемка кинограмм движений примерно 12 человек крупной комплекции, выполняющих заданные однотипные перемещения в тщательно контролируемых пространствах разных размеров.
 
Минимальное расстояние для ограниченного движения 425 мм.
Эта наименьший просвет, при котором не наблюдается резкого изменения позы.
Резкое изменение позы:
Предельный боковой поворот тела, при котором критические кадры обнаруживают один из перечисленных ниже элементов.
Этап 4. Преобразование данных кинограмм с целью извлечения достаточного количества информации для определения наименьших размеров свободного пространства, ие приводящих к резкому изменению позы движущегося человека (используется методика обработки данных, выбранная на этапе 2).
6. Непрерывно проверять релевантность промежуточных результатов и неопределенностей, имеющих критическое значение, и при необходимости корректировать методику.
Неопределенность, имеющая критическое значение, уже была охарактеризована- ранее как величина пространства, необходимого для того, чтобы человек мог пройти между стеной и занятым другим человеком стулом за обеденным столом. Было решено также, что существующая неопределенность размера этого пространства порядка ±76 мм должна быть уменьшена в результате исследования до +0 мм   … -25 мм с сохранением допуска только на занижение этого размера.
Соответствие выбранной методики указанной величине неопределенности проверялось следующим образом:
а) Ракурс киносъемки был изменен: от использовавшейся прежними исследователями съемки с верхней точки перешли на фронтальную съемку, так как было обнаружено, что сверху недостаточно хорошо были видны изменения позы человека, вызванные стесненностью пространства.
б) На этапе 2 рассматривалась целесообразность применения сенсорных датчиков для регистрации предельных движений человека (категория D) и фиксации позы при отражении на киноленте последовательных наклонов тела человека (категория С). Однако от этого отказались, так как в таком случае потребовалась бы значительная переналадка оборудования, а в процессе обработки данных отфильтровывалось бы многое из той информации, которая необходима для получения представления о резких изменениях позы.
в) Было испытано несколько цифровых методов редуцирования данных (категория С и D), но они оказались излишне точными и дорогими, поэтому решили использовать то, что исследователь определил как «критические кадры» (категория В), показывающие самые резкие изменения позы каждого испытуемого для каждого размера свободного пространства. Такое решение дало возможность сразу исключить из рассмотрения целый ряд мелких побочных проблем, что позволило исследователю получить гораздо более глубокое представление о существе дела.
На рис. 9.12а и 9.126 контурным рисунком выделен типовые позы испытуемого, принимаемые им для того, чтобы пройти в узком проходе (шириной от 600 до 350 мм) между стеной и сидящим человеком. Степень изменения положения тела в ограниченном проходе выражена количественно в таблицах мер предосторожности (категория D). Предсказать заранее категории этой таблицы было невозможно, так как они являются результатом классификации необработанных данных по принципу проб и ошибок.
Результаты показали, что первоначальное намерение исследователя определить только один предельный размер было ошибочным. Более реалистичным оказался выбор двух пределов: одного — для незначительного изменения положения тела человека или еле заметного движения (норма »роскоши») и другого — для значительного, но еще приемлемого изменения позы (допустимый минимум). На рис. 9.12а и 9.126 этим двум размерам соответствуют проходы шириной 625 и 425 мм. В пределах этих величин и выше максимального размера проектировщики могут действовать по своему усмотрению, исходя из размеров комнаты и других проектных параметров, с которыми эти размеры могут вступать в противоречие. Результаты, полученные для разных испытуемых, в разумных пределах совпадали.

Ссылки, библиография

Chapanis A., Research techniques in human engineering, Hopkins, Baltimore, 1959.

 Robins W. J„ Minimum standards for circulation spaces between walls, tables and chairs established by photography of body movement, M. Sc. Diss., Library of the Univ. of Manchester Inst, of Sci. and Techno]., Manchester, 1966.
Siegel S., Nonparametric statistics for the behavioral sciences, McGraw-Hill, New York — Toronto — London, 1965.

 

Если вам понравилась статья - поделитесь ссылкой с друзьями!
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Об авторе

Давиденко Сергей administrator

Оставить ответ