Уэзерелл. Этюды для программистов. 1982
Страница 1 из 2
Страница 1 из 2 • 1, 2
Уэзерелл. Этюды для программистов. 1982
Ч.УЭЗЕРЕЛЛ
ЭТЮДЫ ДЛЯ ПРОГРАММИСТОВ
М.: "МИР", 1982
CHARLES WETHERELL
ETUDES FOR PROGRAMMERS
1978
ПРЕДИСЛОВИЕ
Программирование - это ремесло, и каждый программист должен достичь нужного профессионального уровня. Надо сказать, что программированием, как правило, занимаются кустарно, в небольших организациях, где имеются лишь примитивные инструменты, многое делается вручную, необходимые сведения в лучшем случае черпаются у более опытных мастеров, а бывает, что получить их и вовсе неоткуда. Подобно тому как в средние века образовывались гильдии ремесленников - отчасти для обучения молодых работников, отчасти для повышения профессионального уровня,- так и в наши дни созданы многочисленные учебные заведения для подготовки программистов, и все меньшее и меньшее их число обучается (или убеждается в своей профессиональной непригодности) на собственных синяках и шишках. Однако выяснилось, что для подготовки мастеров высокого класса усилий одних лишь преподавателей недостаточно. В этом отношении ученичество в гильдиях обладало неоспоримыми преимуществами.
Классическое обучение ремеслу состояло в том, что ученик в течение многих лет выполнял простейшие вспомогательные операции, перенимая основные приемы у более опытных работников. Постепенно на него возлагались все более серьезные обязанности, и после формальной проверки навыков он получал официальное подтверждение своей профессиональной компетентности. Теперь это был ремесленник, способный выполнять любые работы по своей специальности. Он покидал мастерскую, где учился, и в поисках заказов бродил по свету. А в один прекрасный день, если музы были к нему благосклонны, представлял на суд гильдии свой шедевр и поднимался на высшую ступень профессиональной иерархии, становясь мастером гильдии. Творения этих мастеров, даже самого утилитарного назначения, воспринимаются часто как величайшие проявления человеческого гения.
В наши дни начинающему программисту уже не нужно семь лет [Семь лет - традиционный срок ученичества в средневековых ремесленных мастерских Англии.- Прим. перев.] вытряхивать отходы от пробивки перфокарт, скапливающиеся в перфорирующих устройствах - необходимые технические знания ему проще получить, посещая лекции и изучая литературу. Теперь нет никакой надобности, заглядывая через плечо опытного программиста, изо дня в день наблюдать за его работой. А вот на то, чтобы набить руку на выполнении реальных программистских задач, усвоить и закрепить основные методы и принципы работы, просто для практики, наконец, действительно нужно время. Ясно, что, прочитав несколько книг по столярному делу, нельзя сразу взять и произвести на свет что-нибудь изящное в стиле Чиппендейла [Чиппендейл (Chippendale) Томас 1718-1779) - английский мебельный мастер. Сочетал функциональную целесообразность форм с изяществом линий.- Прим. перев.]. Так почему же человек, прочитавший одно-два руководства по программированию, вдруг сразу начнет писать стройные, грамотные программы?
В учебных заведениях, готовящих программистов,- в колледжах, профессиональных школах, на курсах повышения квалификации - процесс обучения сопровождается выполнением лабораторных, курсовых работ по программированию, дипломных проектов по обычным курсам. Преподавателям, ведущим такие занятия, необходимо иметь набор задач для своих учеников. Для удовлетворения этой потребности и предназначаются наши этюды. Каждый этюд - самостоятельная задача со своей информационной основой, формулировкой и предполагаемым методом решения. Большинство из них допускает вариации, так что преподаватель может привязать задачу к конкретным условиям.
Разнообразие предлагаемых композиций весьма велико. Некоторые этюды требуют прежде всего интеллектуальных усилий (гл.9), у других основная трудность заключена в реализации (гл.12); есть совсем короткие этюды (гл.16) и, напротив, очень длинные (гл.6); в некоторых используются широкоизвестные методы реализации (гл.5), в других же (гл.2) методы реализации можно непрерывно совершенствовать. Главы 25-28 образуют связный цикл, который можно включить в курсы по языкам программирования и системам. Для выполнения этих этюдов нужно подобрать группы студентов, обладающих необходимыми знаниями по системному программированию (как правило, раньше студенты и не подозревали, что работа в группе программистов - совсем не то же самое, что работа в одиночку). Главы 5, 6, 13, 17, 19 и 25 могут дать хороший материал для курса по моделированию на ЭВМ, а гл.6, 11, 14, 19, 20 связаны с задачами искусственного интеллекта. Разумеется, широко представлены также традиционные задачи по информатике.
Студенты, выполняющие лабораторный практикум, смогут оценить четкие формулировки задач. (Сколько несчастных поклялось никогда в жизни и близко к машине не подходить после отчаянных попыток разобрать неряшливые формулировки, нечетко отпечатанные на ротапринте). Те же студенты, которые могли сами выбирать задачи (как в курсе, послужившем основой этой книги), оценят разнообразие предоставляемого им здесь выбора - ни одному преподавателю не хватило бы энергии подготовить столько задач. Разумеется, наш сборник, равного которому по объему еще не было, окажется полезным тем, кто повышает свою квалификацию самостоятельно. Отдельные этюды могут послужить источником методов программирования для лиц, уже окончивших учебные заведения.
Как и всегда в подобных случаях, книга не могла быть написана без помощи многих и многих людей. Джордж Майкл впервые выдвинул идею обучения на задачах (которая теперь нашла признание во многих других учебных заведениях). Студенты нескольких групп охотно испытывали задачи, предлагая исправления и даже новые темы. Хэнк Молл написал программу форматирования текстов, при помощи которой была подготовлена рукопись книги, и всегда был готов по мере надобности вносить в свою программу изменения. Рукопись с включенными в нее иллюстрациями была напечатана изящными шрифтами благодаря программе Джона Битти. Обе эти программы позволили лучше представить себе окончательный внешний вид книги, что очень помогло автору при ее создании. Многие мои друзья читали, обсуждали и критиковали книгу и ободряли автора. Наконец, перфораторщицы Ливерморской лаборатории не только никогда не жаловались на плохой почерк, а всегда быстро возвращали готовые колоды карт, да еще с исправленными орфографическими ошибками. Не будь всех этих помощников - не было бы и книги; лишь благодаря их участию она увидела свет.
/Чарлз Уэзерелл/
1. ЧТО БЫ ЭТО ЗНАЧИЛО?
ИЛИ...
КАК ЧИТАТЬ КНИГУ
Преподавание программирования - дело почти безнадежное, а его изучение - непосильный труд. Преподаватель может всячески возиться со студентами, читать лекции, делать критические замечания, направлять по верному пути. Студент [Мы называем нашего читателя "студентом". Это, однако, не должно отпугнуть тех, кто не учится в соответствующем учебном заведении. Научиться программировать можно и в одиночку; желая вдохновить тех, кто вынужден осваивать предмет самостоятельно, мы предлагаем им для решения набор задач, достаточно близких к реальным. Учтите, однако, что осваивать предмет под руководством преподавателя все же неизмеримо легче] может все тщательно записывать, запоминать, читать, сдавать зачеты, дискутировать хоть до двух часов ночи. Но все усилия тщетны, если студент не будет практиковаться в написании программ, поскольку навык программирования (как, впрочем, и всякий навык) дается только практикой. Более того, учиться надо на "настоящих" программах, а не на упрощенных примерах, вроде тех, которыми изобилует большинство руководств по языкам программирования. Сколько ни бренчи ЧИЖИКА, вторым Рубинштейном не станешь. Точно так же долбежка языка APL вряд ли поможет вам достичь высот в программировании. Поэтому в настоящей книге представлены довольно объемистые задачи. В качестве учебных проектов они вполне подойдут новичкам, стремящимся стать сначала просто грамотными программистами, а затем и специалистами высокого класса.
Способности, необходимые программисту, можно сравнить с теми, которые требуются, например, очеркисту. Как и очеркист, программист должен владеть некоторыми правилами правописания и грамматики, но, вопреки общепринятому мнению, для них обоих это не главное. Гораздо важнее быть наблюдательным и ищущим, уметь анализировать и ясно выражать свои мысли. Перечислим те способности, которые жизненно необходимы всякому программисту (и очеркисту тоже).
- Способность читать и понимать описание поставленной задачи, улавливать пожелания того, кто ее ставит (что не всегда легко, так как и задачи, и те, кто их ставит, часто отличаются именно неуловимостью).
- Способность четко видеть действительные трудности и отбрасывать все, не относящееся к делу.
- Способность выявлять все случаи, где можно применить теорию, самостоятельно решиться на ее применение или обратиться за советом к специалисту.
- Способность разбить задачу на ряд обозримых независимых частей и понять взаимосвязи этих частей.
- Способность оценивать эффективность предлагаемых решений с точки зрения затрат на программирование, машинных ресурсов и удовлетворения потребностей пользователя и находить приемлемый компромисс между этими видами эффективности.
- Способность объединять множество частных решений воедино, получая при этом четкое и изящное решение всей задачи.
- Способность выражать решения на простом и понятном языке. Естественный это язык или искусственный - роли не играет, важно лишь, чтобы правильность решения была ясна и людям, и машине.
- И наконец, способность при неудаче подавить самолюбие и поискать другой подход (или даже другую задачу).
Способности эти, как видим, столь сложны и многообразны, что приобрести их можно только на практике. Этюды дают возможность отработать конкретные технические приемы. Накапливая опыт, студент постепенно приобретает качества, необходимые программисту.
Составлять этюды, однако, не так просто, как может показаться. Все еще слишком часто задачки из книжек по программированию представляют собой просто технические "упражнения для пальцев". Полезные для выработки навыков уверенного использования простейших языковых конструкций, они редко бывают "высокохудожественными", что требуется от этюда в определении, приводимом в энциклопедическом словаре. Несмотря на то что этюд - упражнение, "основанное на определенном техническом приеме исполнения" (см. тот же словарь), хороший этюд должен быть достаточно большим, чтобы ощущалась взаимосвязь этого приема с другими областями программирования. Все это наталкивает на мысль взять задачи непосредственно из жизни. "Настоящие" задачи, однако, изобилуют несущественными деталями, требуют обработки массы данных, порождают гору результатов и к тому же меняются чуть ли не каждый день, так как руководство никак не может принять окончательное решение. Из студента, способного освоить профессию прямо в производственном коллективе, конечно, выйдет прекрасный специалист, но слишком многие из обучающихся программированию таким образом не выдерживают и, отчаявшись, бросают. Так что этюд должен лежать где-то посередине между реальной жизнью и тривиальными упражнениями. Две области - игры и информатика - породили, в сущности, почти все эти этюды и наделили их рядом полезных черт. Программисты, как правило, интересуются и тем, и другим приложением (уж лучше бы только информатикой, разумеется). Поскольку культура - всеобщее достояние, большинство игр доступно пониманию каждого; объяснить прикладную задачу в наше время также нетрудно. Очень часто поведение игровой программы или, скажем, транслятора поддается строгому описанию, так что корректность решения можно проверить. Входные данные обычно невелики по объему, и готовить их легко; выходные данные легко воспринимаются. Обе упомянутые области требуют применения весьма развитых алгоритмов и структур данных, так что вряд ли какие-либо сложности в прикладных программах смогут впоследствии поставить студента в тупик. Наконец, в обеих этих областях ЭВМ предстает перед нами как мощный объект абстрактного "разума" (такой подход принят в задачах искусственного интеллекта); возможно, в нашем подборе задач чувствуется давний интерес к "разумным" машинам. Имеется, конечно, много задач и из других прикладных областей. При их отборе мы руководствовались в основном легкостью объяснения ситуации, которая приводит к постановке задачи. Тем, кому некоторые этюды покажутся легкомысленными, мы напомним, что Гайдн создал симфонию из колыбельной песни.
КАК ИСПОЛНЯТЬ ЭТЮД
Предполагается, что новичок, берущийся за этюд, уже написал несколько программ и знает сравнительно хорошо хотя бы один язык. Здесь не ставится задача научить конкретным приемам программирования, структурам данных или языкам. Если для решения задачи требуются какие-то специальные знания, трудные места обсуждаются достаточно подробно, а источники дополнительной информации указаны в библиографии. Более того, мы не описываем какой-либо конкретный стиль программирования и не обсуждаем вопросы СТРУКТУРНОГО ПРОГРАММИРОВАНИЯ. Вероятно, большинство читателей слушает лекции или посещает семинарские занятия и может воспользоваться советами преподавателя. Занимающиеся самостоятельно могут почерпнуть сведения по технике и стилю программирования из источников, перечисленных в конце главы.
Каждый этюд распадается на разделы (некоторые из них необязательные). В первом разделе описывается реальная ситуация, во втором - конкретная программа, которую предстоит написать. Обычно ситуация разъясняется достаточно подробно, а постановка задачи - совсем короткая. Затем следует обсуждение трудностей, которые могут встретиться при реализации, и намеки на возможные пути решения. Рассматриваются только существенные моменты. Затем следуют разделы, в которых обсуждается выбор языка и длительность исполнения этюда [Предлагаются такие общедоступные языки, как Фортран, Кобол, Алгол, язык ассемблера, APL, XPL, PL/I, Бейсик, Паскаль, Лисп, Снобол и др. Это не означает, что не подходит какой-нибудь менее известный или менее распространенный язык, тем более что в наших рекомендациях мы руководствовались собственными вкусами. В любом случае приветствуется использование языков и трансляторов более высокого уровня, типа WATFIV, PL/C или SPITBOL, требующих и более серьезного к себе отношения. Можно также использовать задачу для изучения нового языка ("полное погружение" - метод тяжелый, но эффективный)]. Временные оценки, которые рассчитаны на аспирантов первого года обучения, выделяющих для решения задачи четверть своего рабочего времени, могут оказаться малы для программистов, работающих не столь увлеченно. Кроме того, временные оценки могут увеличиваться под влиянием условий доступа к машине. В конце этюда часто содержится расширение поставленной задачи и аннотированная библиография. Решение, найденное с использованием дополнительной литературы, более полезно для студента.
Конечно, результатом работы над этюдом должна быть понятная и четкая программа, стиль и комментарии которой соответствовали бы задаче и выбранному языку. Но этого мало. Еще необходим набор тестов, достаточный для демонстрации работы программы и ее реакции на экстремальные ситуации и неправильное обращение. Наряду с самой программой требуется краткое словесное описание методов решения. Особый упор в нем следует сделать на положенные в основу решения алгоритмы и структуры данных. Наряду с описанием программы программист должен с достаточной степенью правдоподобности хотя бы неформально проиллюстрировать ее правильность (при недостатке времени можно ограничиться рассмотрением ключевых мест). Наконец, должен быть произведен подсчет затраченных ресурсов, как людских, так и машинных; особое внимание следует обратить на обоснование затрат. Также следует указать, чему программист научился на примере этой задачи (на этот вопрос легко ответить, если сформулировать его в виде: "Что я в следующий раз сделаю иначе?"). Такой объем документации может показаться избыточным. Заметим, однако, что умению вовремя поставить точку тоже очень полезно научиться. Решение небольшой задачи не следует перегружать документацией. Один знакомый автору преподаватель определяет оценку на 40% тем, что студент убедил его в правильности программы, на 50% легкостью, с которой его удалось убедить, и только на 10% отличным программированием. Очень хорошая оценка - это 80% и более. А поскольку часть документации - результаты машинных прогонов, такая отметка означает, что программа произвела благоприятное впечатление и на преподавателя, и на ЭВМ.
СОВЕТЫ ПРЕПОДАВАТЕЛЮ
Первоначально книга предназначалась для студентов - слушателей вводного курса по информатике. Лекционная часть этого курса охватывает широкий спектр вопросов, включая языки и технику программирования, архитектуру ЭВМ, структуры данных, алгоритмы и некоторые сведения из теории. Лектор может использовать некоторые задачи в качестве примеров (скажем, задачу о раскрашивании карты - для обучения Паскалю), но в целом задачи предназначены для самостоятельного решения. Предполагается только, что общее время, отводимое на решение задач, будет не меньше, чем продолжительность всего курса. На структуру самого курса не налагается практически никаких ограничений. С другой стороны, имеются четыре задачи специально для курсов по компиляторам. Эти задачи прямо ориентированы на поддержку обучения методам реализации языков программирования. В нескольких задачах представлены некоторые основные аспекты программирования игр. Другие могут служить материалом для практических занятий по программированию коммерческих задач и задач имитационного моделирования. Заинтересованный преподаватель сможет найти здесь задачи из любой области, кроме численного анализа.
ЛИТЕРАТУРА
Science Citation Index. Institute for Scientific Information, Philadelphia, PA. Yearly.
Если вы хотите узнать побольше по какому-либо из затронутых в нашей книге направлений, можно воспользоваться цитированной литературой, затем - библиографией из этих работ и т.д. Но как найти работы, которые вышли в свет уже после перечисленных в книге? Если у вас есть некий источник по какой-либо теме, то в Science Citation Index можно найти работы, ссылающиеся на имеющуюся у вас. В каждом из ежегодных выпусков разъясняется, как им пользоваться, да и библиотекарь вам в этом поможет.
Конвей, Грис (Conway R., Gries D.). An Introduction to Programming, 2nd ed. Winthrop, Cambridge, MA, 1975.
Строго говоря, это - введение в программирование (а заодно и хорошее руководство по PL/I). Но, кроме того, это прекрасный учебник по надежности и методам доказательства правильности программ. Перед тем как приступить к вашему первому этюду, имеет смысл повторить материал по построению программ, приведенный в этой книге.
Вирт (Wirth N.). Algorithms + Data Structures = Programs, Prentice-Hall, Englewood Cliffs, NJ, 1976.
Дейкстра (Dijkstra E.W.). A Discipline of Programming, Prentice-Hall, Englewood Cliffs, NJ, 1976. [Имеется перевод: Дейкстра Э. Дисциплина программирования.- М.: Мир, 1978]
Работы Дейкстры и Вирта перекликаются друг с другом, хотя и написаны независимо. Примерный курс мог бы выглядеть так: прочитайте Конвея и Гриса; попробуйте несколько несложных задач; прочитайте Вирта; попробуйте несколько более трудных задач; прочитайте Дейкстру и снова решите уже пройденные задачи. Вирт, по существу, приводит примеры программ и методы их построения для некоторых задач среднего размера. Дейкстра обсуждает в целом только критические циклы, а также структуры данных, но приводит больше формальных доказательств. В книге Дейкстры также содержатся размышления о программировании как творческой деятельности, и эти мысли, может быть, самая ценная часть книги (но для того, чтобы их оценить, требуется некоторый опыт).
Грисуолд, Поудж, Полонски (Griswold R.E., Poage J.E., Polonsky I.P.). The SNOBOL4 Programming Language, 2nd ed. Prentice-Hall; Englewood Cliffs, NJ, 1971. [Имеется перевод: Грисуолд Р., Поудж Дж., Полонски И. Язык программирования Снобол-4.- М.: Мир, 1980]
Имеется множество книг по таким языкам, как Фортран, Кобол, Бейсик, Алгол, языки ассемблера и PL/I. Айверсон разработал язык APL как алгоритмический; перед тем как приступить к работе с его конкретной реализацией, ознакомьтесь с соответствующим руководством. Книга Мак-Кимана и др.- эталонное описание языка XPL. Перед тем как работать с языками Лисп или Снобол, очень желательно ознакомиться с особенностями конкретной реализации.
Айверсон (Iverson К.Е.). A Programming Language. Wiley, New York, 1962.
[Здесь и далее * - довесок от переводчиков]
* Гилман, Роуз. Курс АПЛ: диалоговый подход. Пер. с англ.- М.: Мир, 1979.
Йенсен, Вирт (Jensen К., Wirt N.). PASCAL User Manual and Report. Lecture Notes in Computer Science, 18, Springer-Verlag, Berlin, 1974.
* Грогоно. Программирование на языке Паскаль. Пер. с англ.- М.: Мир, 1982.
Кнут (Knuth D.E.). The Art of Computer Programming/Fundamental Algorithms. Addison-Wesley, Reading, MA, 1968. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т. 1. Основные алгоритмы.- М.: Мир, 1976]
Серия книг Кнута [На русском языке вышли 3 тома (как, впрочем, и на английском).- Прим. перев.], если он когда-нибудь ее закончит, имеет все шансы стать библией программистов. Конечно же, первый том содержит наиболее элементарные сведения о структурах данных и алгоритмах работы с ними. Если вы не понимаете, как воспользоваться предложенной в настоящей книге структурой данных,- справьтесь у Кнута. Мы, однако, не предлагаем стиль программирования Кнута как образец структурирования программ.
Люка (Lucas F.L.). Style. Collier, New York, 1962. Эта книга вовсе не о программировании. Вам со временем понадобится писать обширную документацию - тут-то и может помочь эта книга. Более того, многие наблюдения автора применимы также и к написанию программ. Люка сосредоточивает внимание на способах убеждения, а программисту приходится убеждать и машину, и человека.
Мак-Карти и др. (McCarthy J. et al.). LISP 1.5 Programmer's Manual. MIT Press, Cambridge, MA, 1972.
Мак-Киман, Хорнинг, Уортмен (McKeeman W.M., Horning J.J., Wortman D.B.). A Compiler Generator. Prentice-Hall; Englewood Cliffs, NJ, 1970.
Вегнер (Wegner P.). Programming Languages, Information Structures, and MachiMachine Organization. McGraw-Hill, New York, 1968.
Если у вас возникнут какие-либо вопросы об архитектуре
ЭВМ, языках, структурах данных, а также их взаимосвязях, книга Вегнера, возможно, даст ключ к ответу. В книге собрано и увязано воедино исключительное количество распространенных терминов. Приводится краткий обзор информатики и ценный список литературы.
ЭТЮДЫ ДЛЯ ПРОГРАММИСТОВ
М.: "МИР", 1982
CHARLES WETHERELL
ETUDES FOR PROGRAMMERS
1978
ПРЕДИСЛОВИЕ
Программирование - это ремесло, и каждый программист должен достичь нужного профессионального уровня. Надо сказать, что программированием, как правило, занимаются кустарно, в небольших организациях, где имеются лишь примитивные инструменты, многое делается вручную, необходимые сведения в лучшем случае черпаются у более опытных мастеров, а бывает, что получить их и вовсе неоткуда. Подобно тому как в средние века образовывались гильдии ремесленников - отчасти для обучения молодых работников, отчасти для повышения профессионального уровня,- так и в наши дни созданы многочисленные учебные заведения для подготовки программистов, и все меньшее и меньшее их число обучается (или убеждается в своей профессиональной непригодности) на собственных синяках и шишках. Однако выяснилось, что для подготовки мастеров высокого класса усилий одних лишь преподавателей недостаточно. В этом отношении ученичество в гильдиях обладало неоспоримыми преимуществами.
Классическое обучение ремеслу состояло в том, что ученик в течение многих лет выполнял простейшие вспомогательные операции, перенимая основные приемы у более опытных работников. Постепенно на него возлагались все более серьезные обязанности, и после формальной проверки навыков он получал официальное подтверждение своей профессиональной компетентности. Теперь это был ремесленник, способный выполнять любые работы по своей специальности. Он покидал мастерскую, где учился, и в поисках заказов бродил по свету. А в один прекрасный день, если музы были к нему благосклонны, представлял на суд гильдии свой шедевр и поднимался на высшую ступень профессиональной иерархии, становясь мастером гильдии. Творения этих мастеров, даже самого утилитарного назначения, воспринимаются часто как величайшие проявления человеческого гения.
В наши дни начинающему программисту уже не нужно семь лет [Семь лет - традиционный срок ученичества в средневековых ремесленных мастерских Англии.- Прим. перев.] вытряхивать отходы от пробивки перфокарт, скапливающиеся в перфорирующих устройствах - необходимые технические знания ему проще получить, посещая лекции и изучая литературу. Теперь нет никакой надобности, заглядывая через плечо опытного программиста, изо дня в день наблюдать за его работой. А вот на то, чтобы набить руку на выполнении реальных программистских задач, усвоить и закрепить основные методы и принципы работы, просто для практики, наконец, действительно нужно время. Ясно, что, прочитав несколько книг по столярному делу, нельзя сразу взять и произвести на свет что-нибудь изящное в стиле Чиппендейла [Чиппендейл (Chippendale) Томас 1718-1779) - английский мебельный мастер. Сочетал функциональную целесообразность форм с изяществом линий.- Прим. перев.]. Так почему же человек, прочитавший одно-два руководства по программированию, вдруг сразу начнет писать стройные, грамотные программы?
В учебных заведениях, готовящих программистов,- в колледжах, профессиональных школах, на курсах повышения квалификации - процесс обучения сопровождается выполнением лабораторных, курсовых работ по программированию, дипломных проектов по обычным курсам. Преподавателям, ведущим такие занятия, необходимо иметь набор задач для своих учеников. Для удовлетворения этой потребности и предназначаются наши этюды. Каждый этюд - самостоятельная задача со своей информационной основой, формулировкой и предполагаемым методом решения. Большинство из них допускает вариации, так что преподаватель может привязать задачу к конкретным условиям.
Разнообразие предлагаемых композиций весьма велико. Некоторые этюды требуют прежде всего интеллектуальных усилий (гл.9), у других основная трудность заключена в реализации (гл.12); есть совсем короткие этюды (гл.16) и, напротив, очень длинные (гл.6); в некоторых используются широкоизвестные методы реализации (гл.5), в других же (гл.2) методы реализации можно непрерывно совершенствовать. Главы 25-28 образуют связный цикл, который можно включить в курсы по языкам программирования и системам. Для выполнения этих этюдов нужно подобрать группы студентов, обладающих необходимыми знаниями по системному программированию (как правило, раньше студенты и не подозревали, что работа в группе программистов - совсем не то же самое, что работа в одиночку). Главы 5, 6, 13, 17, 19 и 25 могут дать хороший материал для курса по моделированию на ЭВМ, а гл.6, 11, 14, 19, 20 связаны с задачами искусственного интеллекта. Разумеется, широко представлены также традиционные задачи по информатике.
Студенты, выполняющие лабораторный практикум, смогут оценить четкие формулировки задач. (Сколько несчастных поклялось никогда в жизни и близко к машине не подходить после отчаянных попыток разобрать неряшливые формулировки, нечетко отпечатанные на ротапринте). Те же студенты, которые могли сами выбирать задачи (как в курсе, послужившем основой этой книги), оценят разнообразие предоставляемого им здесь выбора - ни одному преподавателю не хватило бы энергии подготовить столько задач. Разумеется, наш сборник, равного которому по объему еще не было, окажется полезным тем, кто повышает свою квалификацию самостоятельно. Отдельные этюды могут послужить источником методов программирования для лиц, уже окончивших учебные заведения.
Как и всегда в подобных случаях, книга не могла быть написана без помощи многих и многих людей. Джордж Майкл впервые выдвинул идею обучения на задачах (которая теперь нашла признание во многих других учебных заведениях). Студенты нескольких групп охотно испытывали задачи, предлагая исправления и даже новые темы. Хэнк Молл написал программу форматирования текстов, при помощи которой была подготовлена рукопись книги, и всегда был готов по мере надобности вносить в свою программу изменения. Рукопись с включенными в нее иллюстрациями была напечатана изящными шрифтами благодаря программе Джона Битти. Обе эти программы позволили лучше представить себе окончательный внешний вид книги, что очень помогло автору при ее создании. Многие мои друзья читали, обсуждали и критиковали книгу и ободряли автора. Наконец, перфораторщицы Ливерморской лаборатории не только никогда не жаловались на плохой почерк, а всегда быстро возвращали готовые колоды карт, да еще с исправленными орфографическими ошибками. Не будь всех этих помощников - не было бы и книги; лишь благодаря их участию она увидела свет.
/Чарлз Уэзерелл/
1. ЧТО БЫ ЭТО ЗНАЧИЛО?
ИЛИ...
КАК ЧИТАТЬ КНИГУ
Преподавание программирования - дело почти безнадежное, а его изучение - непосильный труд. Преподаватель может всячески возиться со студентами, читать лекции, делать критические замечания, направлять по верному пути. Студент [Мы называем нашего читателя "студентом". Это, однако, не должно отпугнуть тех, кто не учится в соответствующем учебном заведении. Научиться программировать можно и в одиночку; желая вдохновить тех, кто вынужден осваивать предмет самостоятельно, мы предлагаем им для решения набор задач, достаточно близких к реальным. Учтите, однако, что осваивать предмет под руководством преподавателя все же неизмеримо легче] может все тщательно записывать, запоминать, читать, сдавать зачеты, дискутировать хоть до двух часов ночи. Но все усилия тщетны, если студент не будет практиковаться в написании программ, поскольку навык программирования (как, впрочем, и всякий навык) дается только практикой. Более того, учиться надо на "настоящих" программах, а не на упрощенных примерах, вроде тех, которыми изобилует большинство руководств по языкам программирования. Сколько ни бренчи ЧИЖИКА, вторым Рубинштейном не станешь. Точно так же долбежка языка APL вряд ли поможет вам достичь высот в программировании. Поэтому в настоящей книге представлены довольно объемистые задачи. В качестве учебных проектов они вполне подойдут новичкам, стремящимся стать сначала просто грамотными программистами, а затем и специалистами высокого класса.
Способности, необходимые программисту, можно сравнить с теми, которые требуются, например, очеркисту. Как и очеркист, программист должен владеть некоторыми правилами правописания и грамматики, но, вопреки общепринятому мнению, для них обоих это не главное. Гораздо важнее быть наблюдательным и ищущим, уметь анализировать и ясно выражать свои мысли. Перечислим те способности, которые жизненно необходимы всякому программисту (и очеркисту тоже).
- Способность читать и понимать описание поставленной задачи, улавливать пожелания того, кто ее ставит (что не всегда легко, так как и задачи, и те, кто их ставит, часто отличаются именно неуловимостью).
- Способность четко видеть действительные трудности и отбрасывать все, не относящееся к делу.
- Способность выявлять все случаи, где можно применить теорию, самостоятельно решиться на ее применение или обратиться за советом к специалисту.
- Способность разбить задачу на ряд обозримых независимых частей и понять взаимосвязи этих частей.
- Способность оценивать эффективность предлагаемых решений с точки зрения затрат на программирование, машинных ресурсов и удовлетворения потребностей пользователя и находить приемлемый компромисс между этими видами эффективности.
- Способность объединять множество частных решений воедино, получая при этом четкое и изящное решение всей задачи.
- Способность выражать решения на простом и понятном языке. Естественный это язык или искусственный - роли не играет, важно лишь, чтобы правильность решения была ясна и людям, и машине.
- И наконец, способность при неудаче подавить самолюбие и поискать другой подход (или даже другую задачу).
Способности эти, как видим, столь сложны и многообразны, что приобрести их можно только на практике. Этюды дают возможность отработать конкретные технические приемы. Накапливая опыт, студент постепенно приобретает качества, необходимые программисту.
Составлять этюды, однако, не так просто, как может показаться. Все еще слишком часто задачки из книжек по программированию представляют собой просто технические "упражнения для пальцев". Полезные для выработки навыков уверенного использования простейших языковых конструкций, они редко бывают "высокохудожественными", что требуется от этюда в определении, приводимом в энциклопедическом словаре. Несмотря на то что этюд - упражнение, "основанное на определенном техническом приеме исполнения" (см. тот же словарь), хороший этюд должен быть достаточно большим, чтобы ощущалась взаимосвязь этого приема с другими областями программирования. Все это наталкивает на мысль взять задачи непосредственно из жизни. "Настоящие" задачи, однако, изобилуют несущественными деталями, требуют обработки массы данных, порождают гору результатов и к тому же меняются чуть ли не каждый день, так как руководство никак не может принять окончательное решение. Из студента, способного освоить профессию прямо в производственном коллективе, конечно, выйдет прекрасный специалист, но слишком многие из обучающихся программированию таким образом не выдерживают и, отчаявшись, бросают. Так что этюд должен лежать где-то посередине между реальной жизнью и тривиальными упражнениями. Две области - игры и информатика - породили, в сущности, почти все эти этюды и наделили их рядом полезных черт. Программисты, как правило, интересуются и тем, и другим приложением (уж лучше бы только информатикой, разумеется). Поскольку культура - всеобщее достояние, большинство игр доступно пониманию каждого; объяснить прикладную задачу в наше время также нетрудно. Очень часто поведение игровой программы или, скажем, транслятора поддается строгому описанию, так что корректность решения можно проверить. Входные данные обычно невелики по объему, и готовить их легко; выходные данные легко воспринимаются. Обе упомянутые области требуют применения весьма развитых алгоритмов и структур данных, так что вряд ли какие-либо сложности в прикладных программах смогут впоследствии поставить студента в тупик. Наконец, в обеих этих областях ЭВМ предстает перед нами как мощный объект абстрактного "разума" (такой подход принят в задачах искусственного интеллекта); возможно, в нашем подборе задач чувствуется давний интерес к "разумным" машинам. Имеется, конечно, много задач и из других прикладных областей. При их отборе мы руководствовались в основном легкостью объяснения ситуации, которая приводит к постановке задачи. Тем, кому некоторые этюды покажутся легкомысленными, мы напомним, что Гайдн создал симфонию из колыбельной песни.
КАК ИСПОЛНЯТЬ ЭТЮД
Предполагается, что новичок, берущийся за этюд, уже написал несколько программ и знает сравнительно хорошо хотя бы один язык. Здесь не ставится задача научить конкретным приемам программирования, структурам данных или языкам. Если для решения задачи требуются какие-то специальные знания, трудные места обсуждаются достаточно подробно, а источники дополнительной информации указаны в библиографии. Более того, мы не описываем какой-либо конкретный стиль программирования и не обсуждаем вопросы СТРУКТУРНОГО ПРОГРАММИРОВАНИЯ. Вероятно, большинство читателей слушает лекции или посещает семинарские занятия и может воспользоваться советами преподавателя. Занимающиеся самостоятельно могут почерпнуть сведения по технике и стилю программирования из источников, перечисленных в конце главы.
Каждый этюд распадается на разделы (некоторые из них необязательные). В первом разделе описывается реальная ситуация, во втором - конкретная программа, которую предстоит написать. Обычно ситуация разъясняется достаточно подробно, а постановка задачи - совсем короткая. Затем следует обсуждение трудностей, которые могут встретиться при реализации, и намеки на возможные пути решения. Рассматриваются только существенные моменты. Затем следуют разделы, в которых обсуждается выбор языка и длительность исполнения этюда [Предлагаются такие общедоступные языки, как Фортран, Кобол, Алгол, язык ассемблера, APL, XPL, PL/I, Бейсик, Паскаль, Лисп, Снобол и др. Это не означает, что не подходит какой-нибудь менее известный или менее распространенный язык, тем более что в наших рекомендациях мы руководствовались собственными вкусами. В любом случае приветствуется использование языков и трансляторов более высокого уровня, типа WATFIV, PL/C или SPITBOL, требующих и более серьезного к себе отношения. Можно также использовать задачу для изучения нового языка ("полное погружение" - метод тяжелый, но эффективный)]. Временные оценки, которые рассчитаны на аспирантов первого года обучения, выделяющих для решения задачи четверть своего рабочего времени, могут оказаться малы для программистов, работающих не столь увлеченно. Кроме того, временные оценки могут увеличиваться под влиянием условий доступа к машине. В конце этюда часто содержится расширение поставленной задачи и аннотированная библиография. Решение, найденное с использованием дополнительной литературы, более полезно для студента.
Конечно, результатом работы над этюдом должна быть понятная и четкая программа, стиль и комментарии которой соответствовали бы задаче и выбранному языку. Но этого мало. Еще необходим набор тестов, достаточный для демонстрации работы программы и ее реакции на экстремальные ситуации и неправильное обращение. Наряду с самой программой требуется краткое словесное описание методов решения. Особый упор в нем следует сделать на положенные в основу решения алгоритмы и структуры данных. Наряду с описанием программы программист должен с достаточной степенью правдоподобности хотя бы неформально проиллюстрировать ее правильность (при недостатке времени можно ограничиться рассмотрением ключевых мест). Наконец, должен быть произведен подсчет затраченных ресурсов, как людских, так и машинных; особое внимание следует обратить на обоснование затрат. Также следует указать, чему программист научился на примере этой задачи (на этот вопрос легко ответить, если сформулировать его в виде: "Что я в следующий раз сделаю иначе?"). Такой объем документации может показаться избыточным. Заметим, однако, что умению вовремя поставить точку тоже очень полезно научиться. Решение небольшой задачи не следует перегружать документацией. Один знакомый автору преподаватель определяет оценку на 40% тем, что студент убедил его в правильности программы, на 50% легкостью, с которой его удалось убедить, и только на 10% отличным программированием. Очень хорошая оценка - это 80% и более. А поскольку часть документации - результаты машинных прогонов, такая отметка означает, что программа произвела благоприятное впечатление и на преподавателя, и на ЭВМ.
СОВЕТЫ ПРЕПОДАВАТЕЛЮ
Первоначально книга предназначалась для студентов - слушателей вводного курса по информатике. Лекционная часть этого курса охватывает широкий спектр вопросов, включая языки и технику программирования, архитектуру ЭВМ, структуры данных, алгоритмы и некоторые сведения из теории. Лектор может использовать некоторые задачи в качестве примеров (скажем, задачу о раскрашивании карты - для обучения Паскалю), но в целом задачи предназначены для самостоятельного решения. Предполагается только, что общее время, отводимое на решение задач, будет не меньше, чем продолжительность всего курса. На структуру самого курса не налагается практически никаких ограничений. С другой стороны, имеются четыре задачи специально для курсов по компиляторам. Эти задачи прямо ориентированы на поддержку обучения методам реализации языков программирования. В нескольких задачах представлены некоторые основные аспекты программирования игр. Другие могут служить материалом для практических занятий по программированию коммерческих задач и задач имитационного моделирования. Заинтересованный преподаватель сможет найти здесь задачи из любой области, кроме численного анализа.
ЛИТЕРАТУРА
Science Citation Index. Institute for Scientific Information, Philadelphia, PA. Yearly.
Если вы хотите узнать побольше по какому-либо из затронутых в нашей книге направлений, можно воспользоваться цитированной литературой, затем - библиографией из этих работ и т.д. Но как найти работы, которые вышли в свет уже после перечисленных в книге? Если у вас есть некий источник по какой-либо теме, то в Science Citation Index можно найти работы, ссылающиеся на имеющуюся у вас. В каждом из ежегодных выпусков разъясняется, как им пользоваться, да и библиотекарь вам в этом поможет.
Конвей, Грис (Conway R., Gries D.). An Introduction to Programming, 2nd ed. Winthrop, Cambridge, MA, 1975.
Строго говоря, это - введение в программирование (а заодно и хорошее руководство по PL/I). Но, кроме того, это прекрасный учебник по надежности и методам доказательства правильности программ. Перед тем как приступить к вашему первому этюду, имеет смысл повторить материал по построению программ, приведенный в этой книге.
Вирт (Wirth N.). Algorithms + Data Structures = Programs, Prentice-Hall, Englewood Cliffs, NJ, 1976.
Дейкстра (Dijkstra E.W.). A Discipline of Programming, Prentice-Hall, Englewood Cliffs, NJ, 1976. [Имеется перевод: Дейкстра Э. Дисциплина программирования.- М.: Мир, 1978]
Работы Дейкстры и Вирта перекликаются друг с другом, хотя и написаны независимо. Примерный курс мог бы выглядеть так: прочитайте Конвея и Гриса; попробуйте несколько несложных задач; прочитайте Вирта; попробуйте несколько более трудных задач; прочитайте Дейкстру и снова решите уже пройденные задачи. Вирт, по существу, приводит примеры программ и методы их построения для некоторых задач среднего размера. Дейкстра обсуждает в целом только критические циклы, а также структуры данных, но приводит больше формальных доказательств. В книге Дейкстры также содержатся размышления о программировании как творческой деятельности, и эти мысли, может быть, самая ценная часть книги (но для того, чтобы их оценить, требуется некоторый опыт).
Грисуолд, Поудж, Полонски (Griswold R.E., Poage J.E., Polonsky I.P.). The SNOBOL4 Programming Language, 2nd ed. Prentice-Hall; Englewood Cliffs, NJ, 1971. [Имеется перевод: Грисуолд Р., Поудж Дж., Полонски И. Язык программирования Снобол-4.- М.: Мир, 1980]
Имеется множество книг по таким языкам, как Фортран, Кобол, Бейсик, Алгол, языки ассемблера и PL/I. Айверсон разработал язык APL как алгоритмический; перед тем как приступить к работе с его конкретной реализацией, ознакомьтесь с соответствующим руководством. Книга Мак-Кимана и др.- эталонное описание языка XPL. Перед тем как работать с языками Лисп или Снобол, очень желательно ознакомиться с особенностями конкретной реализации.
Айверсон (Iverson К.Е.). A Programming Language. Wiley, New York, 1962.
[Здесь и далее * - довесок от переводчиков]
* Гилман, Роуз. Курс АПЛ: диалоговый подход. Пер. с англ.- М.: Мир, 1979.
Йенсен, Вирт (Jensen К., Wirt N.). PASCAL User Manual and Report. Lecture Notes in Computer Science, 18, Springer-Verlag, Berlin, 1974.
* Грогоно. Программирование на языке Паскаль. Пер. с англ.- М.: Мир, 1982.
Кнут (Knuth D.E.). The Art of Computer Programming/Fundamental Algorithms. Addison-Wesley, Reading, MA, 1968. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т. 1. Основные алгоритмы.- М.: Мир, 1976]
Серия книг Кнута [На русском языке вышли 3 тома (как, впрочем, и на английском).- Прим. перев.], если он когда-нибудь ее закончит, имеет все шансы стать библией программистов. Конечно же, первый том содержит наиболее элементарные сведения о структурах данных и алгоритмах работы с ними. Если вы не понимаете, как воспользоваться предложенной в настоящей книге структурой данных,- справьтесь у Кнута. Мы, однако, не предлагаем стиль программирования Кнута как образец структурирования программ.
Люка (Lucas F.L.). Style. Collier, New York, 1962. Эта книга вовсе не о программировании. Вам со временем понадобится писать обширную документацию - тут-то и может помочь эта книга. Более того, многие наблюдения автора применимы также и к написанию программ. Люка сосредоточивает внимание на способах убеждения, а программисту приходится убеждать и машину, и человека.
Мак-Карти и др. (McCarthy J. et al.). LISP 1.5 Programmer's Manual. MIT Press, Cambridge, MA, 1972.
Мак-Киман, Хорнинг, Уортмен (McKeeman W.M., Horning J.J., Wortman D.B.). A Compiler Generator. Prentice-Hall; Englewood Cliffs, NJ, 1970.
Вегнер (Wegner P.). Programming Languages, Information Structures, and MachiMachine Organization. McGraw-Hill, New York, 1968.
Если у вас возникнут какие-либо вопросы об архитектуре
ЭВМ, языках, структурах данных, а также их взаимосвязях, книга Вегнера, возможно, даст ключ к ответу. В книге собрано и увязано воедино исключительное количество распространенных терминов. Приводится краткий обзор информатики и ценный список литературы.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
2
ЖИЗНЬ ДИКТУЕТ СВОИ ЗАКОНЫ,
КЛЕТОЧНЫЕ АВТОМАТЫ И МАШИННАЯ ГРАФИКА
Жизнь - это многоклеточное сообщество, населяющее пустыни Флатландии. Пустыня представляет собой квадратную решетку, каждая ячейка которой вмещает одну клетку Жизни. Мерой течения времени служит смена поколений Жизни, приносящая в колонию клеток смерть и рождение.
Чтобы проследить за историей развития колонии, разместим в пустыне клетки Жизни в их начальном положении. Смена поколений будет происходить по следующим правилам.
1. СОСЕДЯМИ клетки считаются все клетки, находящиеся в восьми ячейках, расположенных рядом с данной по горизонтали, вертикали или диагонали.
2. Если у некоторой клетки меньше двух соседей, она погибает от ОДИНОЧЕСТВА. Если клетка имеет больше трех соседей, она погибает от ТЕСНОТЫ.
3. Если рядом с пустой ячейкой окажется ровно три соседние клетки Жизни, то в этой ячейке рождается новая клетка.
4. Гибель и рождение происходят в момент смены поколений. Таким образом, гибнущая клетка может способствовать рождению новой, но рождающаяся клетка не может воскресить гибнущую, и гибель одной клетки, уменьшив локальную плотность населения, не может предотвратить гибель другой.
Так, например, горизонтальная колония из трех клеток превращается в следующем поколении в вертикальную, а колония-квадрат из четырех клеток должно быть, живет неподалеку от райского Палм-Спрингс, поскольку она вообще никогда не меняется.
На рис.2.1 показана история еще одной колонии клеток Жизни.
Рисунок 2.1. История одной колонии Жизни. Номер поколения выписан слева от каждой картинки. Найдите самостоятельно поколения 9 и 10.
ТЕМА. Напишите программу, моделирующую колонию Жизни. Исходными данными служит начальное расположение клеток, а в качестве результата нужно получить вид сверху всех поколений колонии. Для вывода истории можно воспользоваться обычным устройством построчной печати (АЦПУ), но такой способ дает весьма неприглядные изображения. Если в вашем распоряжении имеется графопостроитель или графический терминал, воспользуйтесь их возможностями для получения более изящной картинки.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Хотя этого и не видно из примеров, некоторые колонии разрастаются невероятным образом при весьма скромных начальных размерах. Есть другие колонии, которые медленно перемещаются по пустыне, переходя на все новые и новые территории. Ваша программа должна обрабатывать большие колонии без чрезмерной траты памяти или времени. Многократный просмотр большого массива для построения следующих поколений - это банальный подход; здесь программистская задача состоит в выборе более экономичных структур данных и алгоритмов. Вам, возможно, захочется испытать какой-либо метод, отслеживающий только занятые квадраты. Растущая или движущаяся колония может выйти из поля зрения, если его положение и границы зафиксированы, поэтому, вероятно, понадобится еще и метод вывода, перемещающий нашу точку зрения вслед за изменениями колонии [Один из способов сокращения памяти, требуемой для запоминания позиций, состоит в том, чтобы хранить позицию в виде массива битов, отводя для каждой клетки один бит (а не слово памяти). Как это ни странно, такой способ позволяет также получить выигрыш во времени, если воспользоваться командами поразрядных логических операций над векторами битов, имеющихся в системах команд почти всех ЭВМ и в некоторых языках программирования высокого уровня (например, в PL/I). Если обозначить через p исходную позицию, через p, p1, ..., p8 - позиции, сдвинутые на одну клетку в направлении всех соседей клетки, и через r - новую позицию, то каждый бит r будет однозначно определяться битами с тем же номером в позициях p, p1 ..., p8, т.е. будет логической функцией от них.
Всякую логическую функцию можно, как известно, записать с помощью элементарных логических операций: логическое И, логическое ИЛИ, сложение по модулю два и логическое отрицание. Задача состоит в том, чтобы выразить r через p, p1 ..., p8 экономно, с использованием возможно меньшего числа операций. Необходимое число операций удается уменьшить до 29 (и это, вероятно, не предел), что при размере машинного слова в 48 битов (над всеми битами слова логические операции выполняются параллельно) составляет чуть более половины логической операции на обработку одной ячейки.- Прим. перев].
ИНСТРУМЕНТОВКА. Для этой задачи подойдет язык APL благодаря наличию в нем операций над векторами и матрицами, однако можно использовать почти любой язык высокого уровня, если в нем предусмотрена работа с массивами. На примере этой задачи хорошо изучать, как сказывается использование языка ассемблера: насколько замедляется программирование и каков выигрыш в эффективности внутреннего цикла. Наконец, для тех, кто имеет доступ к оборудованию ЭВМ, интересным экспериментом могла быть микропрограммная реализация; машина при этом превращается в колонию Жизни.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. Колония может все время расти, непрерывно меняя свое расположение, форму или число клеток. Однако чаще колония становится в конце концов СТАЦИОНАРНОЙ, начиная циклически повторять один и тот же конечный набор состояний. Длина цикла называется ПЕРИОДОМ колонии. (По этому определению период мертвой и пустой колонии равен единице). Измените вашу программу так, чтобы она выявляла стационарные колонии и сообщала о них. Можете ли вы придумать хоть какой-нибудь алгоритм, не использующий запоминания всех предыдущих поколений, который мог бы распознать любую стационарную колонию?
История колонии Жизнь зачаровывает, если ее просматривать как фильм (это одно из соображений в пользу графического терминала), но она будет еще увлекательней, если предстанет в цвете. Каждой клетке при рождении может быть приписан некоторый цвет, определяемый, возможно, ее поколением или генами, переданными ей родителями. Циклические, но при этом движущиеся колонии (а таких немало) великолепны в своем сверкающем многоцветном наряде. Любая колония имеет преемника, но не у каждой есть предшественник. Такие изолированные колонии называются САДАМИ ЭДЕМА. Сад Эдема можно увидеть, только если поместить его на плоскость в качестве начальной конфигурации. Подумайте, как использовать вашу программу для нахождения сада Эдема.
ЛИТЕРАТУРА
Беркс (ред.) (Burks A.W. (Ed.)). Essays on Cellular Automata. University of Illinois Press, Urbana, IL, 1970.
Кодд (Codd E.F.). Cellular Automata. Academic Press, New York, NY, 1968.
Обе эти книги значительно серьезнее статей Гарднера в Scientific AmeAmerican. Вторая из названных книг познакомит вас с основами предмета, а книга Беркса представляет собой сборник разнородных статей, охватывающих всю область клеточных автоматов. После изучения этих книг читателю будет доступен практически весь математический материал.
Гарднер (Gardner Martin). Mathematical Games. Scientific American, 223, 10, pp.120-123, October 1970, and 224, 2, pp.112-117, February 1971. [Имеется перевод: Гарднер М. Математические досуги.- М. Мир, 1972, с.458]
Мартин Гарднер описал игру Жизнь в своей колонке журнала, и это вызвало такой отклик читателей, что он вынужден был немедленно (по меркам ежемесячного журнала) посвятить ей еще одну колонку. Игра Жизнь, несомненно, принесла славу Джону Хортону Конвею, ее талантливому и продуктивному изобретателю. В более поздних статьях содержится много дополнительного материала об игре Жизнь, а также о других работах Конвея.
Уэйнрайт (ред.) (Wainwright R.Т. (Ed.)). Lifeline. 1280 Edcris Road, Yorktown Heights, NY 10598.
Lifeline - ежеквартальный журнал, посвященный Жизни и родственным темам. Ориентированный на фанатиков этой игры, журнал содержит всевозможную информацию о Жизни, и его чтение может оказаться захватывающим занятием.
ЖИЗНЬ ДИКТУЕТ СВОИ ЗАКОНЫ,
КЛЕТОЧНЫЕ АВТОМАТЫ И МАШИННАЯ ГРАФИКА
Жизнь - это многоклеточное сообщество, населяющее пустыни Флатландии. Пустыня представляет собой квадратную решетку, каждая ячейка которой вмещает одну клетку Жизни. Мерой течения времени служит смена поколений Жизни, приносящая в колонию клеток смерть и рождение.
Чтобы проследить за историей развития колонии, разместим в пустыне клетки Жизни в их начальном положении. Смена поколений будет происходить по следующим правилам.
1. СОСЕДЯМИ клетки считаются все клетки, находящиеся в восьми ячейках, расположенных рядом с данной по горизонтали, вертикали или диагонали.
2. Если у некоторой клетки меньше двух соседей, она погибает от ОДИНОЧЕСТВА. Если клетка имеет больше трех соседей, она погибает от ТЕСНОТЫ.
3. Если рядом с пустой ячейкой окажется ровно три соседние клетки Жизни, то в этой ячейке рождается новая клетка.
4. Гибель и рождение происходят в момент смены поколений. Таким образом, гибнущая клетка может способствовать рождению новой, но рождающаяся клетка не может воскресить гибнущую, и гибель одной клетки, уменьшив локальную плотность населения, не может предотвратить гибель другой.
Так, например, горизонтальная колония из трех клеток превращается в следующем поколении в вертикальную, а колония-квадрат из четырех клеток должно быть, живет неподалеку от райского Палм-Спрингс, поскольку она вообще никогда не меняется.
На рис.2.1 показана история еще одной колонии клеток Жизни.
Рисунок 2.1. История одной колонии Жизни. Номер поколения выписан слева от каждой картинки. Найдите самостоятельно поколения 9 и 10.
ТЕМА. Напишите программу, моделирующую колонию Жизни. Исходными данными служит начальное расположение клеток, а в качестве результата нужно получить вид сверху всех поколений колонии. Для вывода истории можно воспользоваться обычным устройством построчной печати (АЦПУ), но такой способ дает весьма неприглядные изображения. Если в вашем распоряжении имеется графопостроитель или графический терминал, воспользуйтесь их возможностями для получения более изящной картинки.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Хотя этого и не видно из примеров, некоторые колонии разрастаются невероятным образом при весьма скромных начальных размерах. Есть другие колонии, которые медленно перемещаются по пустыне, переходя на все новые и новые территории. Ваша программа должна обрабатывать большие колонии без чрезмерной траты памяти или времени. Многократный просмотр большого массива для построения следующих поколений - это банальный подход; здесь программистская задача состоит в выборе более экономичных структур данных и алгоритмов. Вам, возможно, захочется испытать какой-либо метод, отслеживающий только занятые квадраты. Растущая или движущаяся колония может выйти из поля зрения, если его положение и границы зафиксированы, поэтому, вероятно, понадобится еще и метод вывода, перемещающий нашу точку зрения вслед за изменениями колонии [Один из способов сокращения памяти, требуемой для запоминания позиций, состоит в том, чтобы хранить позицию в виде массива битов, отводя для каждой клетки один бит (а не слово памяти). Как это ни странно, такой способ позволяет также получить выигрыш во времени, если воспользоваться командами поразрядных логических операций над векторами битов, имеющихся в системах команд почти всех ЭВМ и в некоторых языках программирования высокого уровня (например, в PL/I). Если обозначить через p исходную позицию, через p, p1, ..., p8 - позиции, сдвинутые на одну клетку в направлении всех соседей клетки, и через r - новую позицию, то каждый бит r будет однозначно определяться битами с тем же номером в позициях p, p1 ..., p8, т.е. будет логической функцией от них.
Всякую логическую функцию можно, как известно, записать с помощью элементарных логических операций: логическое И, логическое ИЛИ, сложение по модулю два и логическое отрицание. Задача состоит в том, чтобы выразить r через p, p1 ..., p8 экономно, с использованием возможно меньшего числа операций. Необходимое число операций удается уменьшить до 29 (и это, вероятно, не предел), что при размере машинного слова в 48 битов (над всеми битами слова логические операции выполняются параллельно) составляет чуть более половины логической операции на обработку одной ячейки.- Прим. перев].
ИНСТРУМЕНТОВКА. Для этой задачи подойдет язык APL благодаря наличию в нем операций над векторами и матрицами, однако можно использовать почти любой язык высокого уровня, если в нем предусмотрена работа с массивами. На примере этой задачи хорошо изучать, как сказывается использование языка ассемблера: насколько замедляется программирование и каков выигрыш в эффективности внутреннего цикла. Наконец, для тех, кто имеет доступ к оборудованию ЭВМ, интересным экспериментом могла быть микропрограммная реализация; машина при этом превращается в колонию Жизни.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. Колония может все время расти, непрерывно меняя свое расположение, форму или число клеток. Однако чаще колония становится в конце концов СТАЦИОНАРНОЙ, начиная циклически повторять один и тот же конечный набор состояний. Длина цикла называется ПЕРИОДОМ колонии. (По этому определению период мертвой и пустой колонии равен единице). Измените вашу программу так, чтобы она выявляла стационарные колонии и сообщала о них. Можете ли вы придумать хоть какой-нибудь алгоритм, не использующий запоминания всех предыдущих поколений, который мог бы распознать любую стационарную колонию?
История колонии Жизнь зачаровывает, если ее просматривать как фильм (это одно из соображений в пользу графического терминала), но она будет еще увлекательней, если предстанет в цвете. Каждой клетке при рождении может быть приписан некоторый цвет, определяемый, возможно, ее поколением или генами, переданными ей родителями. Циклические, но при этом движущиеся колонии (а таких немало) великолепны в своем сверкающем многоцветном наряде. Любая колония имеет преемника, но не у каждой есть предшественник. Такие изолированные колонии называются САДАМИ ЭДЕМА. Сад Эдема можно увидеть, только если поместить его на плоскость в качестве начальной конфигурации. Подумайте, как использовать вашу программу для нахождения сада Эдема.
ЛИТЕРАТУРА
Беркс (ред.) (Burks A.W. (Ed.)). Essays on Cellular Automata. University of Illinois Press, Urbana, IL, 1970.
Кодд (Codd E.F.). Cellular Automata. Academic Press, New York, NY, 1968.
Обе эти книги значительно серьезнее статей Гарднера в Scientific AmeAmerican. Вторая из названных книг познакомит вас с основами предмета, а книга Беркса представляет собой сборник разнородных статей, охватывающих всю область клеточных автоматов. После изучения этих книг читателю будет доступен практически весь математический материал.
Гарднер (Gardner Martin). Mathematical Games. Scientific American, 223, 10, pp.120-123, October 1970, and 224, 2, pp.112-117, February 1971. [Имеется перевод: Гарднер М. Математические досуги.- М. Мир, 1972, с.458]
Мартин Гарднер описал игру Жизнь в своей колонке журнала, и это вызвало такой отклик читателей, что он вынужден был немедленно (по меркам ежемесячного журнала) посвятить ей еще одну колонку. Игра Жизнь, несомненно, принесла славу Джону Хортону Конвею, ее талантливому и продуктивному изобретателю. В более поздних статьях содержится много дополнительного материала об игре Жизнь, а также о других работах Конвея.
Уэйнрайт (ред.) (Wainwright R.Т. (Ed.)). Lifeline. 1280 Edcris Road, Yorktown Heights, NY 10598.
Lifeline - ежеквартальный журнал, посвященный Жизни и родственным темам. Ориентированный на фанатиков этой игры, журнал содержит всевозможную информацию о Жизни, и его чтение может оказаться захватывающим занятием.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
3
ПАПОЧКА, А ПОЧЕМУ МОРЕ СИНЕЕ?
ИЛИ...
РАСКРАШИВАНИЕ КАРТЫ МЕТОДОМ ИСЧЕРПЫВАЮЩЕГО ПОИСКА
Чтобы на географической карте было удобно различать регионы, ее раскрашивают по следующему правилу: два региона должны быть окрашены в разные цвета, если их границы имеют более чем конечное число общих точек. (Обычно составители карт не страдают топологическими патологиями и не ищут вырожденных примеров, противоречащих здравому смыслу). С другой стороны, картографам предстоит оплачивать типографские счета, поэтому, чем меньше цветов будет использовано, тем лучше. В частности, картографы, расписывающие карту как попало, распишутся лишь в своем легкомыслии: им придется использовать больше красок, чем это необходимо. Свои действия нужно планировать заранее. Итак, ЗАДАЧА О РАСКРАШИВАНИИ КАРТЫ сводится, в сущности, к определению минимального числа красок.
Для решения этой задачи обратимся к помощи компьютера. Тут нас подстерегают трудности: большинство ЭВМ лишено зрения, поэтому они не могут ПОСМОТРЕТЬ на карту; к счастью, им нужно знать лишь, какие регионы являются соседями, т.е. смежны другу. Размер и форма регионов не влияют на раскраску, важно лишь наличие нетривиальных контактов между ними. Для представления отношения смежности полезно воспользоваться НЕОРИЕНТИРОВАННЫМ графом.
Неориентированный граф состоит из конечного множества ВЕРШИН и конечного множества РЕБЕР, связывающих вершины. Любые две вершины связаны не более чем одним ребром; не должно быть двух дублирующих друга ребер; кроме того, для рассматриваемой задачи мы запрещаем ребру связывать вершину с самой собой. На рис.3.1 изображен неориентированный граф, представляющий первые 49 американских штатов. Ввести граф в ЭВМ несложно: достаточно перечислить все вершины, сопроводив каждую списком смежных ей вершин. Граф может не иметь вершин, а значит, и ребер; такой граф называется пустым. Вершина может быть изолированной, если нет ребер, связывающих ее с другими вершинами (примером тому могли бы служить Аляска и Гавайи); точно так же две части графа окажутся изолированными друг от друга, если нет ребер, их связывающих. Аналогия между картами и неориентированными графами столь тесна, что мы будем использовать эти понятия как равнозначные. Ну, а польза, приносимая графами, столь велика, что всем программистам следует иметь представление об их основных свойствах.
Рисунок 3.1. Топологическая карта Соединенных Штатов. Для нее достаточно четырех цветов. (WA - Вашингтон, OR - Орегон, CA - Калифорния, NV - Невада, ID - Айдахо, UT - Юта, AZ - Аризона, MT - Монтана, WY - Вайоминг, CO - Колорадо, NM - Нью-Мексико, ND - Северная Дакота, SD - Южная Дакота, NE - Небраска, KA - Канзас, OK - Оклахома, TX - Техас, MN - Миннесота, IA - Айова, MO - Миссури, AR - Арканзас, LA - Луизиана, WI - Висконсин, IL - Иллинойс, IN - Индиана, MS - Миссисипи, AL - Алабама, MI - Мичиган, OH - Огайо, KY - Кентукки, TN - Теннесси, GA - Джорджия, FL - Флорида, PA - Пенсильвания, WV - Западная Виргиния, VA - Виргиния, NC - Северная Каролина, SC - Южная Каролина, NY - Нью-Йорк, NJ - Нью-Джерси, DE - Делавэр, MD - Мэриленд, DC - округ Колумбия, VT - Вермонт, MA - Массачусетс, CT - Коннектикут, ME - Мэн, NH - Нью-Гэмпшир, RI - Род-Айленд).
Тема. Напишите программу, раскрашивающую карту в минимальное число цветов. Исходными данными служит список регионов с указанием соседей каждого региона. Результатом должен быть список регионов с приписанными им цветами и общее число использованных цветов. Обычно проще всего для обозначения регионов и цветов применить положительные числа, но куда приятнее (и полезнее для отладки), если допускается ввод более привычных названий. Исходные данные должны проверяться на непротиворечивость; выявляйте нелепые номера вершин и связанные с собой вершины. Постарайтесь сделать программу по возможности эффективной, иначе раскраска тяжелых случаев окажется для вас слишком дорогим удовольствием.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Исходная карта не обязана быть планарной. В самом деле, вполне допустимыми крайними случаями служат карты, в которых любые два региона - соседи, и карты, в которых никакие два региона не являются соседями.
Последний случай соответствует раскраске множества раздельных шаров, когда достаточно только одного цвета. Проверка планарности - важная тема информатики, ей посвящено немало статей. Возможно, вас заинтересует проверка гипотезы о четырех красках, утверждающей, что для любой планарной карты требуется не более четырех красок. Если вам удастся подтвердить или опровергнуть ее, вы сделаете себе имя [Теперь это замечание имеет лишь исторический интерес. Разъяснение вы найдете в литературе к гл.29].
Из ресурсов, требуемых данной задачей, самый важный - время. Конечно, нет смысла перебирать все возможные решения, поскольку их число быстро увеличивается с ростом числа регионов, а доля правильных решений (даже если таковых несколько) мала. Лучше воспользоваться методом перебора с возвратами. Начните с выбора некоторого региона и приписывания ему цвета. В дальнейшем переходите к соседнему нераскрашенному региону и пытайтесь приписать ему какой-нибудь из использованных цветов, совместимый с уже сделанной раскраской. (Может случиться, что раскрашивать больше нечего, тогда задача решена. Возможен и случай, когда не осталось нераскрашенных регионов, соседних с раскрашенными, т.е. попалась несвязная карта). Если в некоторый момент новый регион не удается раскрасить, отступайте от уже раскрашенных регионов (в соответствии с порядком раскраски) до тех пор, пока не найдется регион, цвет которого можно изменить. Раскрасьте его в цвет, которого он ранее не имел, и снова продвигайтесь вперед. Если при отступлении вы возвратились в регион, раскрашенный первым, добавьте к своей палитре новый цвет и начните сначала.
ИНСТРУМЕНТОВКА. Для решения задачи достаточно таких структур данных, как массивы и стеки, поэтому годится почти любой алгебраический язык высокого уровня с подходящими управляющими структурами. (Попытки записи решения на Фортране или Бейсике должны показать скудость этих языков). С другой стороны, перебор с возвратами выглядит элегантно в рекурсивной формулировке. Поэтому, возможно, полезным окажется язык с рекурсивными процедурами. И рекурсия, и подходящие структуры данных имеются в языке Лисп.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
РАЗВИТИЕ ТЕМЫ. При использовании метода перебора с возвратами огромное влияние на время работы оказывает порядок выбора регионов. Учитывая этот эффект, можно заранее упорядочить регионы или использовать некоторые эвристики для выбора очередного региона. По-видимому, те регионы, у которых много соседей, раскрасить труднее, поскольку на их цвет накладывается больше ограничений. Из тех же соображений почти изолированную группу регионов следует рассмотреть отдельно, так как если ее не удастся раскрасить некоторым набором цветов, то и всю карту - тоже. Идея в обоих случаях состоит в том, что, если раскраска какого-либо региона может вызвать затруднения, ее нужно выполнить пораньше, чтобы не тратить время на разрушение почти законченной раскраски. Разумеется, полное решение такой "предварительной" задачи равносильно решению исходной задачи, но ведь и небольшой вклад может принести вполне ощутимую прибыль. Сравните несколько стратегий предварительного упорядочения по стоимости и эффекту.
ЛИТЕРАТУРА
Битнер, Рейнгольд (Bitner J.R., Reingold E.M.). Backtrack Programming Techniques. CACM, 18, 11, pp.651-656, November 1975.
Эта статья - очень краткое руководство по программированию методом перебора с возвратами. Но если приведенных авторами примеров окажется недостаточно, чтобы вы поняли суть метода, к вашим услугам обширная библиография по проблемам, которые решены методом перебора с возвратами или которые целесообразно этим методом решать.
Ope (Ore О.). The Four Color Problem. Academic Press, New York, 1967.
В книге дан обзор математических вопросов, связанных с гипотезой четырех красок. По ней можно ознакомиться со многими разделами теории графов; можно почерпнуть и способ ускорения перебора с возвратами. Но не пытайтесь найти в книге быстрого алгоритмического решения.
* Ершов А.П. Введение в теоретическое программирование.- М.: Наука, 1977.
* Абрамов С.А. Математические построения и программирование.- М.: Наука, 1978. * Харари Ф. Теория графов, гл.12. Пер. с англ.- М.: Мир, 1973.
ПАПОЧКА, А ПОЧЕМУ МОРЕ СИНЕЕ?
ИЛИ...
РАСКРАШИВАНИЕ КАРТЫ МЕТОДОМ ИСЧЕРПЫВАЮЩЕГО ПОИСКА
Чтобы на географической карте было удобно различать регионы, ее раскрашивают по следующему правилу: два региона должны быть окрашены в разные цвета, если их границы имеют более чем конечное число общих точек. (Обычно составители карт не страдают топологическими патологиями и не ищут вырожденных примеров, противоречащих здравому смыслу). С другой стороны, картографам предстоит оплачивать типографские счета, поэтому, чем меньше цветов будет использовано, тем лучше. В частности, картографы, расписывающие карту как попало, распишутся лишь в своем легкомыслии: им придется использовать больше красок, чем это необходимо. Свои действия нужно планировать заранее. Итак, ЗАДАЧА О РАСКРАШИВАНИИ КАРТЫ сводится, в сущности, к определению минимального числа красок.
Для решения этой задачи обратимся к помощи компьютера. Тут нас подстерегают трудности: большинство ЭВМ лишено зрения, поэтому они не могут ПОСМОТРЕТЬ на карту; к счастью, им нужно знать лишь, какие регионы являются соседями, т.е. смежны другу. Размер и форма регионов не влияют на раскраску, важно лишь наличие нетривиальных контактов между ними. Для представления отношения смежности полезно воспользоваться НЕОРИЕНТИРОВАННЫМ графом.
Неориентированный граф состоит из конечного множества ВЕРШИН и конечного множества РЕБЕР, связывающих вершины. Любые две вершины связаны не более чем одним ребром; не должно быть двух дублирующих друга ребер; кроме того, для рассматриваемой задачи мы запрещаем ребру связывать вершину с самой собой. На рис.3.1 изображен неориентированный граф, представляющий первые 49 американских штатов. Ввести граф в ЭВМ несложно: достаточно перечислить все вершины, сопроводив каждую списком смежных ей вершин. Граф может не иметь вершин, а значит, и ребер; такой граф называется пустым. Вершина может быть изолированной, если нет ребер, связывающих ее с другими вершинами (примером тому могли бы служить Аляска и Гавайи); точно так же две части графа окажутся изолированными друг от друга, если нет ребер, их связывающих. Аналогия между картами и неориентированными графами столь тесна, что мы будем использовать эти понятия как равнозначные. Ну, а польза, приносимая графами, столь велика, что всем программистам следует иметь представление об их основных свойствах.
Рисунок 3.1. Топологическая карта Соединенных Штатов. Для нее достаточно четырех цветов. (WA - Вашингтон, OR - Орегон, CA - Калифорния, NV - Невада, ID - Айдахо, UT - Юта, AZ - Аризона, MT - Монтана, WY - Вайоминг, CO - Колорадо, NM - Нью-Мексико, ND - Северная Дакота, SD - Южная Дакота, NE - Небраска, KA - Канзас, OK - Оклахома, TX - Техас, MN - Миннесота, IA - Айова, MO - Миссури, AR - Арканзас, LA - Луизиана, WI - Висконсин, IL - Иллинойс, IN - Индиана, MS - Миссисипи, AL - Алабама, MI - Мичиган, OH - Огайо, KY - Кентукки, TN - Теннесси, GA - Джорджия, FL - Флорида, PA - Пенсильвания, WV - Западная Виргиния, VA - Виргиния, NC - Северная Каролина, SC - Южная Каролина, NY - Нью-Йорк, NJ - Нью-Джерси, DE - Делавэр, MD - Мэриленд, DC - округ Колумбия, VT - Вермонт, MA - Массачусетс, CT - Коннектикут, ME - Мэн, NH - Нью-Гэмпшир, RI - Род-Айленд).
Тема. Напишите программу, раскрашивающую карту в минимальное число цветов. Исходными данными служит список регионов с указанием соседей каждого региона. Результатом должен быть список регионов с приписанными им цветами и общее число использованных цветов. Обычно проще всего для обозначения регионов и цветов применить положительные числа, но куда приятнее (и полезнее для отладки), если допускается ввод более привычных названий. Исходные данные должны проверяться на непротиворечивость; выявляйте нелепые номера вершин и связанные с собой вершины. Постарайтесь сделать программу по возможности эффективной, иначе раскраска тяжелых случаев окажется для вас слишком дорогим удовольствием.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Исходная карта не обязана быть планарной. В самом деле, вполне допустимыми крайними случаями служат карты, в которых любые два региона - соседи, и карты, в которых никакие два региона не являются соседями.
Последний случай соответствует раскраске множества раздельных шаров, когда достаточно только одного цвета. Проверка планарности - важная тема информатики, ей посвящено немало статей. Возможно, вас заинтересует проверка гипотезы о четырех красках, утверждающей, что для любой планарной карты требуется не более четырех красок. Если вам удастся подтвердить или опровергнуть ее, вы сделаете себе имя [Теперь это замечание имеет лишь исторический интерес. Разъяснение вы найдете в литературе к гл.29].
Из ресурсов, требуемых данной задачей, самый важный - время. Конечно, нет смысла перебирать все возможные решения, поскольку их число быстро увеличивается с ростом числа регионов, а доля правильных решений (даже если таковых несколько) мала. Лучше воспользоваться методом перебора с возвратами. Начните с выбора некоторого региона и приписывания ему цвета. В дальнейшем переходите к соседнему нераскрашенному региону и пытайтесь приписать ему какой-нибудь из использованных цветов, совместимый с уже сделанной раскраской. (Может случиться, что раскрашивать больше нечего, тогда задача решена. Возможен и случай, когда не осталось нераскрашенных регионов, соседних с раскрашенными, т.е. попалась несвязная карта). Если в некоторый момент новый регион не удается раскрасить, отступайте от уже раскрашенных регионов (в соответствии с порядком раскраски) до тех пор, пока не найдется регион, цвет которого можно изменить. Раскрасьте его в цвет, которого он ранее не имел, и снова продвигайтесь вперед. Если при отступлении вы возвратились в регион, раскрашенный первым, добавьте к своей палитре новый цвет и начните сначала.
ИНСТРУМЕНТОВКА. Для решения задачи достаточно таких структур данных, как массивы и стеки, поэтому годится почти любой алгебраический язык высокого уровня с подходящими управляющими структурами. (Попытки записи решения на Фортране или Бейсике должны показать скудость этих языков). С другой стороны, перебор с возвратами выглядит элегантно в рекурсивной формулировке. Поэтому, возможно, полезным окажется язык с рекурсивными процедурами. И рекурсия, и подходящие структуры данных имеются в языке Лисп.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
РАЗВИТИЕ ТЕМЫ. При использовании метода перебора с возвратами огромное влияние на время работы оказывает порядок выбора регионов. Учитывая этот эффект, можно заранее упорядочить регионы или использовать некоторые эвристики для выбора очередного региона. По-видимому, те регионы, у которых много соседей, раскрасить труднее, поскольку на их цвет накладывается больше ограничений. Из тех же соображений почти изолированную группу регионов следует рассмотреть отдельно, так как если ее не удастся раскрасить некоторым набором цветов, то и всю карту - тоже. Идея в обоих случаях состоит в том, что, если раскраска какого-либо региона может вызвать затруднения, ее нужно выполнить пораньше, чтобы не тратить время на разрушение почти законченной раскраски. Разумеется, полное решение такой "предварительной" задачи равносильно решению исходной задачи, но ведь и небольшой вклад может принести вполне ощутимую прибыль. Сравните несколько стратегий предварительного упорядочения по стоимости и эффекту.
ЛИТЕРАТУРА
Битнер, Рейнгольд (Bitner J.R., Reingold E.M.). Backtrack Programming Techniques. CACM, 18, 11, pp.651-656, November 1975.
Эта статья - очень краткое руководство по программированию методом перебора с возвратами. Но если приведенных авторами примеров окажется недостаточно, чтобы вы поняли суть метода, к вашим услугам обширная библиография по проблемам, которые решены методом перебора с возвратами или которые целесообразно этим методом решать.
Ope (Ore О.). The Four Color Problem. Academic Press, New York, 1967.
В книге дан обзор математических вопросов, связанных с гипотезой четырех красок. По ней можно ознакомиться со многими разделами теории графов; можно почерпнуть и способ ускорения перебора с возвратами. Но не пытайтесь найти в книге быстрого алгоритмического решения.
* Ершов А.П. Введение в теоретическое программирование.- М.: Наука, 1977.
* Абрамов С.А. Математические построения и программирование.- М.: Наука, 1978. * Харари Ф. Теория графов, гл.12. Пер. с англ.- М.: Мир, 1973.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
4
ПЕЧАТНИК-ПОДМАСТЕРЬЕ,
ИЛИ...
АВТОМАТИЧЕСКОЕ ФОРМАТИРОВАНИЕ ТЕКСТА
Известно вам или нет, но с недавних пор еще одно тяжкое бремя свалилось с плеч человечества. Заботу о создании и размещении опечаток в тексте взяли на себя компьютеры. Там, где раньше линотипы отливали горячий свинец в строки, теперь небольшие, вполне доступные по цене компьютеры методами фотонабора выдают нескончаемые потоки готовых текстов. Жаль только, что с появлением новых эффективных методов уходит очарование доброго старого времени. Ну какой, скажите, интерес выискивать опечатки в воскресном номере Нью-Йорк Таймс, в которых и заключается весь юмор этого обширного собрания важных скучностей, если вы знаете, что компьютер способен делать ошибки в сотни раз быстрее, чем человек? Такова цена, которую приходится платить за прогресс.
Конечно, реальный прогресс заключен в том, что в издательском деле компьютер привлекается в качестве подмастерья, некоего чудесного помощника, способного выполнять черную работу быстро и - при аккуратном программировании - почти бесплатно. Программисты уже пользуются руководствами по вычислительной технике, изданными при помощи ЭВМ. Такие руководства часто очень неудобны для чтения из-за неудачного шрифта, которым снабжено печатающее устройство машины. Однако большинство людей и не подозревает, что многие журналы, газеты и книги также печатаются с помощью ЭВМ. Они выглядят гораздо привлекательнее благодаря тому, что машина не только редактирует и соответствующим образом располагает текст, но и управляет специальными периферийными фотонаборными устройствами. Последние, обладая десятками шрифтов различной гарнитуры, выдают готовую к изданию продукцию. Черновик настоящей книги также был подготовлен при помощи такой системы, и первые читатели были уверены, что держат в руках фотокопию реальной книги, а вовсе некий аналог обычного машинописного экземпляра.
Система подготовки публикаций состоит из четырех компонентов. Во-первых, необходима хорошая ФАЙЛОВАЯ система, в которой можно хранить готовящиеся и архивные текстовые файлы. Обычно память для хранения файлов предоставляется операционной системой, но известен случай, когда в качестве такой памяти использовался шкаф для перфокарт в кабинете автора. Конечно, перфокарты не самый практичный носитель, когда речь идет об операциях над большими объемами информации, например при издании газет. Во-вторых, нужен РЕДАКТОР ТЕКСТОВ, для того чтобы вносить изменения и поправки в файлы перед выдачей на печать. Редакторы текстов также имеются, в большинстве операционных систем, но может понадобиться специальный редактор издания, обладающий именно теми возможностями, которые требуются при подготовке публикаций. Третий элемент - ФОРМАТОР, который умеет размещать заголовки, выбирать размер страницы, располагать материал в таблицах, выделять абзацы и т.п. Форматор работает с такими элементами текста, как слова, предложения, абзацы, т.е. уже на том уровне, на котором текст воспринимается человеком. Наконец, имеется ПРОГРАММА-НАБОРЩИК, которая преобразует форматированный текст в его образ на внешнем носителе. Работа этой программы связана в первую очередь с особенностями шрифтов, физическими размерами, командами выводного устройства, отдельными литерами и тому подобными вещами. Программа-наборщик, так же как и оператор линотипа, готова выдать на печать любой вздор, лишь бы он поместился в отведенное ему место. Функционально файловая система и редактор текстов заботятся о содержании текста, а форматор и наборщик - о том, как он будет выглядеть. Этот этюд посвящен форматированию [Английское существительное format (формат) служит для обозначения размера, формы и общего оформления публикации. Фортран присвоил это слово для описания формы и структуры записей данных. Но для обозначения того процесса, которым управляет фортранная инструкция FORMAT, удобного глагола не существует. Поэтому, говоря о процессе оформления текста по заданному образцу или схеме, наряду с глаголом to edit (редактировать) в этой главе будем использовать глагол to format (форматировать). Следует ли это считать жаргоном или нормальным развитием английского языка - дело вкуса читателя. (Примерно так же обстоит дело с терминологией в русском языке. В скобках указаны термины, которые используются в переводе этого этюда. Спорным, конечно, является и слово "форматор" (formattor). - Перев.] текстов.
ФОРМАТОР
Процесс форматирования текста вручную проходит несколько этапов. Вначале автор создает черновик рукописи, и он перепечатывается набело. Затем автор вместе с редактором (по крайней мере, когда речь идет о больших публикациях) принимаются терзать эту рукопись, пока там не останется живого места, после чего автор начинает работу над новым вариантом рукописи. Этот цикл повторяется до тех пор, пока и автор, и редактор не будут удовлетворены. Затем рукопись еще раз перепечатывается (как правило, через два интервала) и передается техническому редактору. Он размечает рукопись, давая всевозможные указания относительно наборных шрифтов, размера и расположения заголовков, полосы набора, курсива и прочих деталей, определяющих в конечном счете внешний вид издания. Разметка делается при помощи специальных обозначений, и каждый значок ставится в то место рукописи, к которому он относится. Размеченная рукопись отправляется в наборный цех, где текст набирают и делают корректурный оттиск в нескольких экземплярах, называемый версткой. Верстка возвращается в редакцию, где редактор и корректор сверяют ее с окончательным вариантом рукописи. Мелкие ошибки легко исправить в наборном цехе, заменив одну строку набора другой. Но как быть, если автор вдруг решит, что вся четвертая глава никуда не годится, или художнику покажется, что гарнитура бодони будет выглядеть лучше литературной? Такие изменения повлекут за собой новый набор и обойдутся недешево. Можно только диву даваться, насколько по-разному воспринимаются типографский текст и тот же текст, напечатанный на машинке.
Система подготовки публикаций с помощью ЭВМ исключает из этого цикла большую часть работы и множество людей. Как и прежде, автор должен подготовить первоначальный вариант рукописи. Но затем рукопись поступает не в машинописное бюро, а в файловую систему машины. Текст рукописи можно ввести, как и любую информацию для ЭВМ, либо с перфокарт, либо непосредственно через терминальное устройство машины. (БОльшая часть этой рукописи была отперфорирована). Автор исполняет также и функции технического редактора, сопровождая текст простейшими командами для форматора. Текстовый файл с рукописью обрабатывается форматором и наборщиком, в результате чего получается черновая верстка окончательного печатного текста. Эта черновая верстка выглядит куда как более чисто, чем машинописный вариант,- она оформлена в виде отпечатанных типографским способом страниц с правильными номерами, радующим глаз шрифтом и т.п. Заметим, что все это происходит еще до начала какого-либо пересмотра рукописи.
Затем автор и редактор начинают работать над рукописью. Интеллектуальная часть работы точно такая же, как и раньше, но теперь им значительно проще представить себе конечный результат, поскольку рукопись выглядит почти как готовое печатное издание. Да и процесс редактирования уже не такой трудоемкий. Для того чтобы добавить или убрать фразу, не нужно ничего перепечатывать - все изменения вносятся при помощи редактора текстов, подобно тому как заменяются строки в программах. Переупорядочение больших разделов, а также вызов текстов, временно отсутствующих в основной памяти, осуществляется средствами файловой системы. Поскольку текст в любом случае придется переформатировать, то можно поменять и команды форматора, тоже просто изменив содержимое текстового файла. Наконец, выполнение программы форматора на ЭВМ стоит такие пустяки, что все множество сеансов форматирования текста обойдется наверняка несравненно дешевле, чем одна перепечатка его на машинке при старом способе работы. Имеется, правда, единственное опасение - авторы, зачарованные столь аккуратно оформленной рукописью, будут неохотно вносить в нее изменения; ведь в течение долгих лет за всякое исправление в верстке, противоречащее рукописи, им приходилось расплачиваться из авторского гонорара. Поэтому если мы хотим правильно использовать ЭВМ для подготовки публикаций, то и авторов необходимо должным образом перестроить [Выпускающий редактор этой книги утверждает, что процесс подготовки большинства изданий проходит отнюдь не так идиллически, как это здесь обрисовано. Хотя в издательстве "Прентис Холл" набор текста производится при помощи ЭВМ, все же большая часть работы по оформлению, размещению и расклейке материала еще делается вручную. В частности, наборщики требуют дополнительного вознаграждения за исправления вкравшихся в текст ошибок. Тем не менее ручной труд в печатном деле отходит в прошлое, а для полной победы автоматизации недостает, пожалуй, только устройства непосредственного ввода рукописного текста].
КОМАНДЫ ФОРМАТИРОВАНИЯ
Как работает типичный форматор? В ИСХОДНОМ ФАЙЛЕ текст, предназначенный для редактирования, оформлен как обычная машинопись (с той разницей, что здесь не нужно заботиться об интервале, полях и т.п.) с добавленными командами форматирования. Команды должны располагаться с первой позиции записи и начинаться со знака "?", чтобы их можно было отличить от обычного текста, по крайней мере в нашем примере. Для самого простого вывода достаточно иметь команды для установки размера страницы и для разбиения текста на абзацы. В пределах одного абзаца исходный текст можно вывести в одном из трех режимов:
НЕПЛОТНЫЙ - строки исходного текста передаются на вывод в том виде, в котором они записаны в исходном файле. Этот режим обычно используется для выдачи таблиц и других заранее оформленных материалов без каких бы то ни было изменений.
ПЛОТНЫЙ - строки вывода формируются из исходного текста слева направо наиболее плотным образом, переход на следующую строку происходит только тогда, когда очередное слово исходного текста не помещается в предыдущей строке вывода. Между словами оставляется один пробел, а после символов конца предложения, т.е. после точки, вопросительного и восклицательного знаков, дается два пробела. Именно в этом режиме обычно печатается текст на машинке. Заметим, что в плотном режиме избыточные пробелы между словами исходного текста игнорируются, пробелы служат только для разделения слов исходного текста.
ВЫРАВНИВАНИЕ - сначала из исходного текста формируется полный абзац в плотном режиме. Затем в каждую строку, кроме последней, добавляются пробелы между словами так, чтобы последнее слово заканчивалось у правого края страницы. Ни в один промежуток нельзя добавить (n+1)-й пробел, пока во всех остальных промежутках данной строки не стало по n пробелов, а пробел после символа конца предложения можно добавить, лишь если во всех других промежутках строки уже есть по два пробела. Пробелы следует добавлять в случайно выбираемые промежутки между словами; если пробелы вставлять по какому-нибудь заранее выбранному правилу, то в выводном тексте образуются неприятные для глаза белые полосы. Выровненный текст по внешнему виду приближается к книжному, но не так совершенен, поскольку не учитываются неодинаковые размеры букв.
Для обработки простого текста достаточно иметь команды ?размер, ?абзац и ?режим. Действие этих команд продемонстрировано на рис. 4.1 и 4.2.
Рисунок 4.1. Пример необработанного исходного текста.
Рисунок 4.2. Тот же текст после форматирования.
?размер высота ширина
Команда ?размер устанавливает размер страниц текста; страница измеряется аргументами ВЫСОТА, равным количеству строк, и ШИРИНА, равным количеству литер в каждой строке. Как только выведены очередные строки в количестве ВЫСОТА штук, форматор начинает новую страницу. Выводные строки могут заполнять все пространство между колонками с номерами 1 и ШИРИНА. Новую команду ?размер можно выдать в любом месте текста, но она приводит к автоматическому завершению текущего абзаца. Формирование прерванного абзаца завершается со старыми значениями ВЫСОТА и ШИРИНА, а затем начинают действовать новые значения. Изменение размера страницы может привести также к переходу на новую страницу, если новое значение ВЫСОТА меньше прежнего. В начале сеанса форматирования значение ВЫСОТА равно 40, а ШИРИНА - 72, и если пользователя эти значения устраивают, то команда ?размер необязательна.
?режим тип заполнения
Команда ?режим устанавливает режим обработки выводимого текста. Аргумент ТИП ЗАПОЛНЕНИЯ может принимать в качестве значения одну из цепочек: НЕПЛОТНЫЙ, ПЛОТНЫЙ или ВЫРАВНИВАНИЕ (другие значения не допускаются). По команде ?режим текущий абзац прерывается, но его обработка завершается в прежнем режиме. В начале работы установлен плотный режим; если пользователя это устраивает, то команда ?режим необязательна.
?абзац отступ отбивка
По команде ?абзац начинается новый абзац. Первая строка нового абзаца начинается на ОТСТУП позиций правее левого поля (ОТСТУП может быть нулевым, а позже вы увидите также, что он может быть отрицательным), а между предыдущим и новым абзацем оставляются пустые строки, количество которых задает аргумент ОТБИВКА. Если не указана ОТБИВКА или ОТБИВКА и ОТСТУП, то их значения берутся из последней команды ?абзац, где они были указаны. Начальное значение ОТСТУП равно 3, а ОТБИВКА - 0; если эти значения удовлетворительны, то в команде ?абзац можно не указывать аргументы. Заметим, что при значении ОТСТУП, равном 3, первая строка нового абзаца начинается в колонке 4.
Но команд ?размер, ?режим и ?абзац недостаточно. Полный форматор должен включать по меньшей мере еще следующие команды.
?поле слева справа
Команда ?поле указывает, что выводимый текст будет иметь левое и правое поля, начинающиеся в колонках СЛЕВА и СПРАВА. Естественно, что левое поле должно начинаться в колонке с номером 1 или более, а правое - в колонке с номером не больше текущего значения ШИРИНА страницы. По команде ?поле начинается новый абзац. С введением полей приобретает смысл отрицательный аргумент ОТСТУП в команде ?абзац; первая строка нового абзаца начинается с ВЫСТУПОМ относительно левого края страницы.
?интервал отбивка
Команда ?интервал устанавливает, что между строками вывода нужно оставлять ОТБИВКА-1 пустых строк. Установка значения ОТБИВКА, равного 1, соответствует указанию для машинистки печатать через один интервал. ОТБИВКА 2 соответствует печати через два интервала, ОТБИВКА 3 - через три интервала и т.д. Эта команда прерывает текущий абзац.
?пусто n
По команде ?пусто завершается текущий абзац, выводится n пустых строк с текущим значением интервала между строками. Эта команда по своему действию эквивалентна (n+1) возвратам каретки на пишущей машинке. Если из-за вывода пустых строк происходит переход на следующую страницу, то новая страница действительно начинается, но пустые строки в начале страницы не выводятся. По умолчанию значение n нулевое.
?пропуск n
Команда ?пропуск работает так же, как ?пусто, но выводится точно n пустых строк; текущее значение аргумента команды ?интервал не учитывается. Это действие эквивалентно повороту валика пишущей машинки на n+1 интервалов.
?центр
Команда ?центр выбирает из входного текста очередную строку, убирает из нее лишние пробелы и центрирует то, что получилось, между левым и правым полями следующей выводной строки. Текущий абзац не заканчивается, но перед центрируемой строкой может получиться более короткая строка. Центрируемая строка выводится с текущим интервалом. Если центрируемая строка слишком длинная и не помещается между установленными полями, то имеет место ошибка.
?страница
По этой команде прерывается текущий абзац и после вывода последней строки абзаца происходит переход на новую страницу выводного текста.
?остаток n
По этой команде текущий абзац завершается и выводится. Если в текущей странице осталось меньше чем n пустых строк, то команда ?остаток действует как ?страница. В противном случае она игнорируется. Таким образом, эта команда проверяет, осталось ли еще достаточно места в текущей странице.
?колонтитул глубина место позиция
Команда ?колонтитул устанавливает текст колонтитула, который будет печататься сверху на каждой странице, начиная со следующей. Последующие ГЛУБИНА строк исходного текста запоминаются без изменений и выводятся в качестве колонтитула в верхние ГЛУБИНА строк каждой новой страницы. В строке номер МЕСТО печатается номер страницы слева, справа или в центре, в зависимости от значения аргумента ПОЗИЦИЯ, который может быть одной из цепочек: СЛЕВА, СПРАВА или ЦЕНТР. Страницы нумеруются числами, начиная с единицы, при переходе к следующей странице номер увеличивается на 1. При выводе колонтитула используются те значения полей, которые действовали в момент задания колонтитула. Колонтитул можно отменить при помощи команды ?колонтитул с нулевым значением аргумента ГЛУБИНА. Команда ?колонтитул не прерывает текущий абзац.
?номер n
По команде ?номер номер текущей страницы устанавливается равным n; текущий абзац не прерывается.
?прерывание
Команда ?прерывание означает переход к новому абзацу.
?сноска глубина
По команде ?сноска следующие глубина строк, включая команды, помещаются в конце страницы в качестве сноски. Значения управляющих параметров форматора - поля, интервал и т.д. - сохраняются и затем используются в качестве начального состояния при обработке сноски. Из исходного файла после сноски выбирается достаточное количество слов для заполнения той строки, которая обрабатывалась, когда встретилась команда ?сноска. Затем обрабатывается сноска и помещается в конец страницы. Если в текущей странице уже были сноски, то они выталкиваются в верхние строки, освобождая место для новой сноски. Если при этом сноски начинают наезжать на уже сформатированные строки текущей страницы, то страница завершается, а остаток сноски попадает на следующую страницу (именно поэтому сначала заполняется текущая строка основного текста, а уж потом начинается обработка сноски). После вывода ГЛУБИНА строк сноски продолжается обработка основного текста с прежними значениями управляющих параметров форматора (хотя номер страницы мог уже измениться). Очевидно, что команда ?сноска не должна прерывать текущий абзац и не может находиться внутри другой сноски.
?имя фиктивное настоящее
Эта команда сообщает форматору, что впредь до следующей команды ?имя вместо литеры, имеющей НАСТОЯЩЕЕ имя будет использоваться литера, имеющая ФИКТИВНОЕ имя. Каждый раз перед выдачей строки на печать все фиктивные литеры заменяются соответствующими настоящими литерами. Например, пробелы используются специальным образом для разделения слов; при помощи команды ?имя можно включить в выводной текст пробелы, не разрывая при этом слов. Команда ?имя не прерывает текущий абзац. Все переименования можно отменить, выдав команду ?имя без агрументов.
НЕСКОЛЬКО СЛОВ О СЛОВАХ, БУКВАХ И АРГУМЕНТАХ
Для того чтобы правильно заполнять строки и выравнивать текст, форматор должен уметь распознавать слова и предложения. Со словами все просто - любая цепочка литер без пробелов, заканчивающаяся пробелом или концом записи, является словом. Заметим, что по этому определению знаки препинания входят в состав предшествующего слова. Предложение обычно заканчивается точкой, а в конце предложения, как правило, вместо одного пробела оставляется два. Но ведь точка может стоять внутри скобок или кавычек, а после двоеточия правилами предусматривается два пробела. Поэтому слова, заканчивающиеся литерами
. ? ! .) ?) !) ." ?" !" .") ?") !") :
следует считать концом предложения. Могут быть также и другие варианты, которые здесь не упомянуты; авторы часто весьма вольно обращаются с пунктуацией.
Если ваш форматор будет работать в системе разделения времени, которая умеет вводить прописные и строчные буквы и допускает вывод на терминал, то, несомненно, алфавит языка, на котором реализован форматор, должен включать большие и малые буквы. Но если вы работаете в системе, ориентированной на ввод с перфокарт, то у вас возникнут трудности с чтением букв двух видов, поскольку на перфораторах, как правило, отсутствует переключатель регистров (лучше, если системе все-таки удастся каким-то образом печатать буквы обоих видов, иначе ваше начинание обречено на провал). Для ввода с перфокарт выберите какую-нибудь литеру, например ^, которая будет служить признаком прописной буквы. Так, текст
Машина БЭСМ-6
нужно перфорировать как
^МАШИНА ^Б^Э^С^М-6
Прописные буквы отмечаются специальным образом, поскольку они встречаются значительно реже строчных. Заметим, что буквы, отперфорированные обычным образом, считаются строчными, хотя на перфокартах они выглядят как прописные.
Аргументы команд могут быть двух видов. Некоторые аргументы представляют собой целые числа и задают либо значения управляющих параметров для форматора, либо число строк исходного текста, относящихся к этой команде. Другие аргументы являются словами или отдельными литерами, которые непосредственно используются в команде. Аргументы обоих видов разделяются пробелами, избыточные пробелы игнорируются. В команде ?имя второй аргумент может отсутствовать, тогда считается, что он равен пробелу (иначе при данных соглашениях пробел представить трудно). Следует позаботиться о том, чтобы для неправильных команд выдавались сообщения об ошибках.
ТЕМА. Напишите для вашей системы форматор текстов, понимающий описанные выше команды. Поскольку форматирование текста не имеет большого смысла без возможности вывода прописных и строчных букв, то следует использовать выводное устройство с буквами обоих видов. Скорее всего, такое устройство окажется довольно дорогим, и вы не сможете позволить себе достаточное количество тестовых пусков. И хотя, естественно, вы рассчитываете, что у вас с первого же раза все правильно заработает, полезно все же уметь делать тестовые выдачи, по форме аналогичные вводу с перфокарт. Такие выдачи можно делать на обычном АЦПУ.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Вы обнаружите, вероятно, что ваша программа тратит большую часть времени на ввод и вывод и совсем немного времени - на перемещение слов в строке. Значительная часть времени обработки будет уходить, по-видимому, на поиск пробелов между словами. С учетом всего этого ясно, что львиную долю усилий по оптимизации программы следует направить на центральный алгоритм сканирования и на взаимодействие форматора с внешним миром. Обработка команд и алгоритм размещения слов должны быть запрограммированы так, чтобы все было понятно. Как правило, для ввода/вывода следует пользоваться стандартными языковыми средствами, но в данной задаче мы сталкиваемся с тем случаем, когда особенности вашей операционной системы можно употребить с пользой для дела. Важно помнить только, что использование этих особенностей должно быть сконцентрировано в пределах подпрограмм ввода-вывода, а не рассеяно по всему форматору.
Набор команд был подобран с таким расчетом, чтобы требуемый вывод можно было получить за один просмотр входных данных. Ни для одной команды алгоритм не должен требовать повторного просмотра ввода. Если для некоторых алгоритмов потребуется рабочее пространство, как, например, для алгоритма обработки сноски, то попробуйте применить двойную буферизацию вывода и использовать свободный буфер в качестве рабочего пространства. Для оценки времени работы укажем, что форматор, с помощью которого был получен английский оригинал настоящего издания, тратил на одну страницу вывода примерно 2с времени ЦП, а написан он был на некоем диалекте языка Трак (см. гл.28 ). Да и большинство других форматоров тратит на оформление каждой страницы вывода тоже примерно 1-2с независимо от скорости ЭВМ, на которой они работают. Единственное разумное объяснение этому факту - то, что пользователи находят такую скорость приемлемой, и программисты соответственно не считают нужным тратить усилия на ускорение форматоров.
ИНСТРУМЕНТОВКА. В простейшем варианте эта задача традиционно входит в курсы по Сноболу, но думается, что большинство снобольных реализаций окажутся слишком медленными для практического использования. С другой стороны, язык, не имеющий хотя бы простейших средств для обработки текстов, будет в лучшем случае не слишком удобным. Золотой серединой, пожалуй, был бы язык типа XPL или BLISS. На многих машинах имеются стандартные средства для обработки текстов, например для поиска пробелов, для разбиения цепочек, для сравнения цепочек. Поэтому, для того чтобы извлечь выгоду из этих средств, разумно самые внутренние циклы писать на языке ассемблера.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели.
РАЗВИТИЕ ТЕМЫ. В этой книге можно встретить полужирный шрифт, курсив, греческие буквы, латинские рукописные и другие специальные символы. Все это имелось на выводных устройствах, но, как нетрудно догадаться, ни перфораторы, ни файловая память подобными возможностями не обладают. Для представления таких специальных литер используются специальные соглашения. Пусть, например, слова "et cetera" требуется набрать курсивом. Для этого нужно ввести текст "&i+ et cetera &i- ", и тогда на выводе получится "et cetera" курсивом. Тройка литер, начинающаяся значком "&", называется переключателем шрифта. В данном примере вы видели включение и выключение курсива [i - первая буква английского слова italics (курсив).- Прим. перев.]. Рассматривая подчеркивания, верхние и нижние индексы и т.п. как специальные начертания шрифтов, можно таким образом обеспечить доступ ко всем дополнительным средствам, имеющимся на вашем устройстве вывода. Разумеется, можно включить одновременно несколько переключателей, например чтобы вывести подчеркнутые греческие верхние индексы. (Возможно, вам понадобится также переключатель шрифта для возвратов по тексту вида &*n где n - цифра от 1 до 9).
ЛИТЕРАТУРА
Керниган, Черри (Kernighan B.W., Cherry L.L.). A System for Typesetting Mathematics, CACM, 18, 3, pp.151-157, 1975.
В этой статье описывается только система для набора математических формул, но система встроена в форматор текстов общего назначения. Сама статья, как, сообщается в журнале CACM, является фотокопией с результата работы форматора и для публикации повторно не набиралась. Керниган и Черри, между прочим, продают свою систему.
Керниган, Плоджер (Kernighan В.W., Plouger P.J.). Software Tools. AddisonWesley, Reading MA, 1976.
В книге Кернигана и Плоджера обсуждаются системы программного обеспечения, которые могут оказаться полезными при работе над большим (а пожалуй, и любым) проектом. Каждое такое средство, как и в этих этюдах, сначала обрисовывается в общих чертах, а затем формулируется в виде проекта. Одно из описываемых средств - форматор текстов. Даются также некоторые указания по реализации. Возможно, прежде чем браться за этот этюд, вы захотите сравнить свойства двух форматоров.
* Баяковский Ю.М., Мишакова С.Т. Автоматизированная система подготовки публикаций и документов (АСПИД), ИПМ АН СССР им.М.В.Келдыша. Препринт #19, 1977.
Система АСПИД написана на Фортране и на машине БЭСМ-6 тратит на подготовку страницы вывода также около 2с.
ПЕЧАТНИК-ПОДМАСТЕРЬЕ,
ИЛИ...
АВТОМАТИЧЕСКОЕ ФОРМАТИРОВАНИЕ ТЕКСТА
Известно вам или нет, но с недавних пор еще одно тяжкое бремя свалилось с плеч человечества. Заботу о создании и размещении опечаток в тексте взяли на себя компьютеры. Там, где раньше линотипы отливали горячий свинец в строки, теперь небольшие, вполне доступные по цене компьютеры методами фотонабора выдают нескончаемые потоки готовых текстов. Жаль только, что с появлением новых эффективных методов уходит очарование доброго старого времени. Ну какой, скажите, интерес выискивать опечатки в воскресном номере Нью-Йорк Таймс, в которых и заключается весь юмор этого обширного собрания важных скучностей, если вы знаете, что компьютер способен делать ошибки в сотни раз быстрее, чем человек? Такова цена, которую приходится платить за прогресс.
Конечно, реальный прогресс заключен в том, что в издательском деле компьютер привлекается в качестве подмастерья, некоего чудесного помощника, способного выполнять черную работу быстро и - при аккуратном программировании - почти бесплатно. Программисты уже пользуются руководствами по вычислительной технике, изданными при помощи ЭВМ. Такие руководства часто очень неудобны для чтения из-за неудачного шрифта, которым снабжено печатающее устройство машины. Однако большинство людей и не подозревает, что многие журналы, газеты и книги также печатаются с помощью ЭВМ. Они выглядят гораздо привлекательнее благодаря тому, что машина не только редактирует и соответствующим образом располагает текст, но и управляет специальными периферийными фотонаборными устройствами. Последние, обладая десятками шрифтов различной гарнитуры, выдают готовую к изданию продукцию. Черновик настоящей книги также был подготовлен при помощи такой системы, и первые читатели были уверены, что держат в руках фотокопию реальной книги, а вовсе некий аналог обычного машинописного экземпляра.
Система подготовки публикаций состоит из четырех компонентов. Во-первых, необходима хорошая ФАЙЛОВАЯ система, в которой можно хранить готовящиеся и архивные текстовые файлы. Обычно память для хранения файлов предоставляется операционной системой, но известен случай, когда в качестве такой памяти использовался шкаф для перфокарт в кабинете автора. Конечно, перфокарты не самый практичный носитель, когда речь идет об операциях над большими объемами информации, например при издании газет. Во-вторых, нужен РЕДАКТОР ТЕКСТОВ, для того чтобы вносить изменения и поправки в файлы перед выдачей на печать. Редакторы текстов также имеются, в большинстве операционных систем, но может понадобиться специальный редактор издания, обладающий именно теми возможностями, которые требуются при подготовке публикаций. Третий элемент - ФОРМАТОР, который умеет размещать заголовки, выбирать размер страницы, располагать материал в таблицах, выделять абзацы и т.п. Форматор работает с такими элементами текста, как слова, предложения, абзацы, т.е. уже на том уровне, на котором текст воспринимается человеком. Наконец, имеется ПРОГРАММА-НАБОРЩИК, которая преобразует форматированный текст в его образ на внешнем носителе. Работа этой программы связана в первую очередь с особенностями шрифтов, физическими размерами, командами выводного устройства, отдельными литерами и тому подобными вещами. Программа-наборщик, так же как и оператор линотипа, готова выдать на печать любой вздор, лишь бы он поместился в отведенное ему место. Функционально файловая система и редактор текстов заботятся о содержании текста, а форматор и наборщик - о том, как он будет выглядеть. Этот этюд посвящен форматированию [Английское существительное format (формат) служит для обозначения размера, формы и общего оформления публикации. Фортран присвоил это слово для описания формы и структуры записей данных. Но для обозначения того процесса, которым управляет фортранная инструкция FORMAT, удобного глагола не существует. Поэтому, говоря о процессе оформления текста по заданному образцу или схеме, наряду с глаголом to edit (редактировать) в этой главе будем использовать глагол to format (форматировать). Следует ли это считать жаргоном или нормальным развитием английского языка - дело вкуса читателя. (Примерно так же обстоит дело с терминологией в русском языке. В скобках указаны термины, которые используются в переводе этого этюда. Спорным, конечно, является и слово "форматор" (formattor). - Перев.] текстов.
ФОРМАТОР
Процесс форматирования текста вручную проходит несколько этапов. Вначале автор создает черновик рукописи, и он перепечатывается набело. Затем автор вместе с редактором (по крайней мере, когда речь идет о больших публикациях) принимаются терзать эту рукопись, пока там не останется живого места, после чего автор начинает работу над новым вариантом рукописи. Этот цикл повторяется до тех пор, пока и автор, и редактор не будут удовлетворены. Затем рукопись еще раз перепечатывается (как правило, через два интервала) и передается техническому редактору. Он размечает рукопись, давая всевозможные указания относительно наборных шрифтов, размера и расположения заголовков, полосы набора, курсива и прочих деталей, определяющих в конечном счете внешний вид издания. Разметка делается при помощи специальных обозначений, и каждый значок ставится в то место рукописи, к которому он относится. Размеченная рукопись отправляется в наборный цех, где текст набирают и делают корректурный оттиск в нескольких экземплярах, называемый версткой. Верстка возвращается в редакцию, где редактор и корректор сверяют ее с окончательным вариантом рукописи. Мелкие ошибки легко исправить в наборном цехе, заменив одну строку набора другой. Но как быть, если автор вдруг решит, что вся четвертая глава никуда не годится, или художнику покажется, что гарнитура бодони будет выглядеть лучше литературной? Такие изменения повлекут за собой новый набор и обойдутся недешево. Можно только диву даваться, насколько по-разному воспринимаются типографский текст и тот же текст, напечатанный на машинке.
Система подготовки публикаций с помощью ЭВМ исключает из этого цикла большую часть работы и множество людей. Как и прежде, автор должен подготовить первоначальный вариант рукописи. Но затем рукопись поступает не в машинописное бюро, а в файловую систему машины. Текст рукописи можно ввести, как и любую информацию для ЭВМ, либо с перфокарт, либо непосредственно через терминальное устройство машины. (БОльшая часть этой рукописи была отперфорирована). Автор исполняет также и функции технического редактора, сопровождая текст простейшими командами для форматора. Текстовый файл с рукописью обрабатывается форматором и наборщиком, в результате чего получается черновая верстка окончательного печатного текста. Эта черновая верстка выглядит куда как более чисто, чем машинописный вариант,- она оформлена в виде отпечатанных типографским способом страниц с правильными номерами, радующим глаз шрифтом и т.п. Заметим, что все это происходит еще до начала какого-либо пересмотра рукописи.
Затем автор и редактор начинают работать над рукописью. Интеллектуальная часть работы точно такая же, как и раньше, но теперь им значительно проще представить себе конечный результат, поскольку рукопись выглядит почти как готовое печатное издание. Да и процесс редактирования уже не такой трудоемкий. Для того чтобы добавить или убрать фразу, не нужно ничего перепечатывать - все изменения вносятся при помощи редактора текстов, подобно тому как заменяются строки в программах. Переупорядочение больших разделов, а также вызов текстов, временно отсутствующих в основной памяти, осуществляется средствами файловой системы. Поскольку текст в любом случае придется переформатировать, то можно поменять и команды форматора, тоже просто изменив содержимое текстового файла. Наконец, выполнение программы форматора на ЭВМ стоит такие пустяки, что все множество сеансов форматирования текста обойдется наверняка несравненно дешевле, чем одна перепечатка его на машинке при старом способе работы. Имеется, правда, единственное опасение - авторы, зачарованные столь аккуратно оформленной рукописью, будут неохотно вносить в нее изменения; ведь в течение долгих лет за всякое исправление в верстке, противоречащее рукописи, им приходилось расплачиваться из авторского гонорара. Поэтому если мы хотим правильно использовать ЭВМ для подготовки публикаций, то и авторов необходимо должным образом перестроить [Выпускающий редактор этой книги утверждает, что процесс подготовки большинства изданий проходит отнюдь не так идиллически, как это здесь обрисовано. Хотя в издательстве "Прентис Холл" набор текста производится при помощи ЭВМ, все же большая часть работы по оформлению, размещению и расклейке материала еще делается вручную. В частности, наборщики требуют дополнительного вознаграждения за исправления вкравшихся в текст ошибок. Тем не менее ручной труд в печатном деле отходит в прошлое, а для полной победы автоматизации недостает, пожалуй, только устройства непосредственного ввода рукописного текста].
КОМАНДЫ ФОРМАТИРОВАНИЯ
Как работает типичный форматор? В ИСХОДНОМ ФАЙЛЕ текст, предназначенный для редактирования, оформлен как обычная машинопись (с той разницей, что здесь не нужно заботиться об интервале, полях и т.п.) с добавленными командами форматирования. Команды должны располагаться с первой позиции записи и начинаться со знака "?", чтобы их можно было отличить от обычного текста, по крайней мере в нашем примере. Для самого простого вывода достаточно иметь команды для установки размера страницы и для разбиения текста на абзацы. В пределах одного абзаца исходный текст можно вывести в одном из трех режимов:
НЕПЛОТНЫЙ - строки исходного текста передаются на вывод в том виде, в котором они записаны в исходном файле. Этот режим обычно используется для выдачи таблиц и других заранее оформленных материалов без каких бы то ни было изменений.
ПЛОТНЫЙ - строки вывода формируются из исходного текста слева направо наиболее плотным образом, переход на следующую строку происходит только тогда, когда очередное слово исходного текста не помещается в предыдущей строке вывода. Между словами оставляется один пробел, а после символов конца предложения, т.е. после точки, вопросительного и восклицательного знаков, дается два пробела. Именно в этом режиме обычно печатается текст на машинке. Заметим, что в плотном режиме избыточные пробелы между словами исходного текста игнорируются, пробелы служат только для разделения слов исходного текста.
ВЫРАВНИВАНИЕ - сначала из исходного текста формируется полный абзац в плотном режиме. Затем в каждую строку, кроме последней, добавляются пробелы между словами так, чтобы последнее слово заканчивалось у правого края страницы. Ни в один промежуток нельзя добавить (n+1)-й пробел, пока во всех остальных промежутках данной строки не стало по n пробелов, а пробел после символа конца предложения можно добавить, лишь если во всех других промежутках строки уже есть по два пробела. Пробелы следует добавлять в случайно выбираемые промежутки между словами; если пробелы вставлять по какому-нибудь заранее выбранному правилу, то в выводном тексте образуются неприятные для глаза белые полосы. Выровненный текст по внешнему виду приближается к книжному, но не так совершенен, поскольку не учитываются неодинаковые размеры букв.
Для обработки простого текста достаточно иметь команды ?размер, ?абзац и ?режим. Действие этих команд продемонстрировано на рис. 4.1 и 4.2.
Рисунок 4.1. Пример необработанного исходного текста.
Рисунок 4.2. Тот же текст после форматирования.
?размер высота ширина
Команда ?размер устанавливает размер страниц текста; страница измеряется аргументами ВЫСОТА, равным количеству строк, и ШИРИНА, равным количеству литер в каждой строке. Как только выведены очередные строки в количестве ВЫСОТА штук, форматор начинает новую страницу. Выводные строки могут заполнять все пространство между колонками с номерами 1 и ШИРИНА. Новую команду ?размер можно выдать в любом месте текста, но она приводит к автоматическому завершению текущего абзаца. Формирование прерванного абзаца завершается со старыми значениями ВЫСОТА и ШИРИНА, а затем начинают действовать новые значения. Изменение размера страницы может привести также к переходу на новую страницу, если новое значение ВЫСОТА меньше прежнего. В начале сеанса форматирования значение ВЫСОТА равно 40, а ШИРИНА - 72, и если пользователя эти значения устраивают, то команда ?размер необязательна.
?режим тип заполнения
Команда ?режим устанавливает режим обработки выводимого текста. Аргумент ТИП ЗАПОЛНЕНИЯ может принимать в качестве значения одну из цепочек: НЕПЛОТНЫЙ, ПЛОТНЫЙ или ВЫРАВНИВАНИЕ (другие значения не допускаются). По команде ?режим текущий абзац прерывается, но его обработка завершается в прежнем режиме. В начале работы установлен плотный режим; если пользователя это устраивает, то команда ?режим необязательна.
?абзац отступ отбивка
По команде ?абзац начинается новый абзац. Первая строка нового абзаца начинается на ОТСТУП позиций правее левого поля (ОТСТУП может быть нулевым, а позже вы увидите также, что он может быть отрицательным), а между предыдущим и новым абзацем оставляются пустые строки, количество которых задает аргумент ОТБИВКА. Если не указана ОТБИВКА или ОТБИВКА и ОТСТУП, то их значения берутся из последней команды ?абзац, где они были указаны. Начальное значение ОТСТУП равно 3, а ОТБИВКА - 0; если эти значения удовлетворительны, то в команде ?абзац можно не указывать аргументы. Заметим, что при значении ОТСТУП, равном 3, первая строка нового абзаца начинается в колонке 4.
Но команд ?размер, ?режим и ?абзац недостаточно. Полный форматор должен включать по меньшей мере еще следующие команды.
?поле слева справа
Команда ?поле указывает, что выводимый текст будет иметь левое и правое поля, начинающиеся в колонках СЛЕВА и СПРАВА. Естественно, что левое поле должно начинаться в колонке с номером 1 или более, а правое - в колонке с номером не больше текущего значения ШИРИНА страницы. По команде ?поле начинается новый абзац. С введением полей приобретает смысл отрицательный аргумент ОТСТУП в команде ?абзац; первая строка нового абзаца начинается с ВЫСТУПОМ относительно левого края страницы.
?интервал отбивка
Команда ?интервал устанавливает, что между строками вывода нужно оставлять ОТБИВКА-1 пустых строк. Установка значения ОТБИВКА, равного 1, соответствует указанию для машинистки печатать через один интервал. ОТБИВКА 2 соответствует печати через два интервала, ОТБИВКА 3 - через три интервала и т.д. Эта команда прерывает текущий абзац.
?пусто n
По команде ?пусто завершается текущий абзац, выводится n пустых строк с текущим значением интервала между строками. Эта команда по своему действию эквивалентна (n+1) возвратам каретки на пишущей машинке. Если из-за вывода пустых строк происходит переход на следующую страницу, то новая страница действительно начинается, но пустые строки в начале страницы не выводятся. По умолчанию значение n нулевое.
?пропуск n
Команда ?пропуск работает так же, как ?пусто, но выводится точно n пустых строк; текущее значение аргумента команды ?интервал не учитывается. Это действие эквивалентно повороту валика пишущей машинки на n+1 интервалов.
?центр
Команда ?центр выбирает из входного текста очередную строку, убирает из нее лишние пробелы и центрирует то, что получилось, между левым и правым полями следующей выводной строки. Текущий абзац не заканчивается, но перед центрируемой строкой может получиться более короткая строка. Центрируемая строка выводится с текущим интервалом. Если центрируемая строка слишком длинная и не помещается между установленными полями, то имеет место ошибка.
?страница
По этой команде прерывается текущий абзац и после вывода последней строки абзаца происходит переход на новую страницу выводного текста.
?остаток n
По этой команде текущий абзац завершается и выводится. Если в текущей странице осталось меньше чем n пустых строк, то команда ?остаток действует как ?страница. В противном случае она игнорируется. Таким образом, эта команда проверяет, осталось ли еще достаточно места в текущей странице.
?колонтитул глубина место позиция
Команда ?колонтитул устанавливает текст колонтитула, который будет печататься сверху на каждой странице, начиная со следующей. Последующие ГЛУБИНА строк исходного текста запоминаются без изменений и выводятся в качестве колонтитула в верхние ГЛУБИНА строк каждой новой страницы. В строке номер МЕСТО печатается номер страницы слева, справа или в центре, в зависимости от значения аргумента ПОЗИЦИЯ, который может быть одной из цепочек: СЛЕВА, СПРАВА или ЦЕНТР. Страницы нумеруются числами, начиная с единицы, при переходе к следующей странице номер увеличивается на 1. При выводе колонтитула используются те значения полей, которые действовали в момент задания колонтитула. Колонтитул можно отменить при помощи команды ?колонтитул с нулевым значением аргумента ГЛУБИНА. Команда ?колонтитул не прерывает текущий абзац.
?номер n
По команде ?номер номер текущей страницы устанавливается равным n; текущий абзац не прерывается.
?прерывание
Команда ?прерывание означает переход к новому абзацу.
?сноска глубина
По команде ?сноска следующие глубина строк, включая команды, помещаются в конце страницы в качестве сноски. Значения управляющих параметров форматора - поля, интервал и т.д. - сохраняются и затем используются в качестве начального состояния при обработке сноски. Из исходного файла после сноски выбирается достаточное количество слов для заполнения той строки, которая обрабатывалась, когда встретилась команда ?сноска. Затем обрабатывается сноска и помещается в конец страницы. Если в текущей странице уже были сноски, то они выталкиваются в верхние строки, освобождая место для новой сноски. Если при этом сноски начинают наезжать на уже сформатированные строки текущей страницы, то страница завершается, а остаток сноски попадает на следующую страницу (именно поэтому сначала заполняется текущая строка основного текста, а уж потом начинается обработка сноски). После вывода ГЛУБИНА строк сноски продолжается обработка основного текста с прежними значениями управляющих параметров форматора (хотя номер страницы мог уже измениться). Очевидно, что команда ?сноска не должна прерывать текущий абзац и не может находиться внутри другой сноски.
?имя фиктивное настоящее
Эта команда сообщает форматору, что впредь до следующей команды ?имя вместо литеры, имеющей НАСТОЯЩЕЕ имя будет использоваться литера, имеющая ФИКТИВНОЕ имя. Каждый раз перед выдачей строки на печать все фиктивные литеры заменяются соответствующими настоящими литерами. Например, пробелы используются специальным образом для разделения слов; при помощи команды ?имя можно включить в выводной текст пробелы, не разрывая при этом слов. Команда ?имя не прерывает текущий абзац. Все переименования можно отменить, выдав команду ?имя без агрументов.
НЕСКОЛЬКО СЛОВ О СЛОВАХ, БУКВАХ И АРГУМЕНТАХ
Для того чтобы правильно заполнять строки и выравнивать текст, форматор должен уметь распознавать слова и предложения. Со словами все просто - любая цепочка литер без пробелов, заканчивающаяся пробелом или концом записи, является словом. Заметим, что по этому определению знаки препинания входят в состав предшествующего слова. Предложение обычно заканчивается точкой, а в конце предложения, как правило, вместо одного пробела оставляется два. Но ведь точка может стоять внутри скобок или кавычек, а после двоеточия правилами предусматривается два пробела. Поэтому слова, заканчивающиеся литерами
. ? ! .) ?) !) ." ?" !" .") ?") !") :
следует считать концом предложения. Могут быть также и другие варианты, которые здесь не упомянуты; авторы часто весьма вольно обращаются с пунктуацией.
Если ваш форматор будет работать в системе разделения времени, которая умеет вводить прописные и строчные буквы и допускает вывод на терминал, то, несомненно, алфавит языка, на котором реализован форматор, должен включать большие и малые буквы. Но если вы работаете в системе, ориентированной на ввод с перфокарт, то у вас возникнут трудности с чтением букв двух видов, поскольку на перфораторах, как правило, отсутствует переключатель регистров (лучше, если системе все-таки удастся каким-то образом печатать буквы обоих видов, иначе ваше начинание обречено на провал). Для ввода с перфокарт выберите какую-нибудь литеру, например ^, которая будет служить признаком прописной буквы. Так, текст
Машина БЭСМ-6
нужно перфорировать как
^МАШИНА ^Б^Э^С^М-6
Прописные буквы отмечаются специальным образом, поскольку они встречаются значительно реже строчных. Заметим, что буквы, отперфорированные обычным образом, считаются строчными, хотя на перфокартах они выглядят как прописные.
Аргументы команд могут быть двух видов. Некоторые аргументы представляют собой целые числа и задают либо значения управляющих параметров для форматора, либо число строк исходного текста, относящихся к этой команде. Другие аргументы являются словами или отдельными литерами, которые непосредственно используются в команде. Аргументы обоих видов разделяются пробелами, избыточные пробелы игнорируются. В команде ?имя второй аргумент может отсутствовать, тогда считается, что он равен пробелу (иначе при данных соглашениях пробел представить трудно). Следует позаботиться о том, чтобы для неправильных команд выдавались сообщения об ошибках.
ТЕМА. Напишите для вашей системы форматор текстов, понимающий описанные выше команды. Поскольку форматирование текста не имеет большого смысла без возможности вывода прописных и строчных букв, то следует использовать выводное устройство с буквами обоих видов. Скорее всего, такое устройство окажется довольно дорогим, и вы не сможете позволить себе достаточное количество тестовых пусков. И хотя, естественно, вы рассчитываете, что у вас с первого же раза все правильно заработает, полезно все же уметь делать тестовые выдачи, по форме аналогичные вводу с перфокарт. Такие выдачи можно делать на обычном АЦПУ.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Вы обнаружите, вероятно, что ваша программа тратит большую часть времени на ввод и вывод и совсем немного времени - на перемещение слов в строке. Значительная часть времени обработки будет уходить, по-видимому, на поиск пробелов между словами. С учетом всего этого ясно, что львиную долю усилий по оптимизации программы следует направить на центральный алгоритм сканирования и на взаимодействие форматора с внешним миром. Обработка команд и алгоритм размещения слов должны быть запрограммированы так, чтобы все было понятно. Как правило, для ввода/вывода следует пользоваться стандартными языковыми средствами, но в данной задаче мы сталкиваемся с тем случаем, когда особенности вашей операционной системы можно употребить с пользой для дела. Важно помнить только, что использование этих особенностей должно быть сконцентрировано в пределах подпрограмм ввода-вывода, а не рассеяно по всему форматору.
Набор команд был подобран с таким расчетом, чтобы требуемый вывод можно было получить за один просмотр входных данных. Ни для одной команды алгоритм не должен требовать повторного просмотра ввода. Если для некоторых алгоритмов потребуется рабочее пространство, как, например, для алгоритма обработки сноски, то попробуйте применить двойную буферизацию вывода и использовать свободный буфер в качестве рабочего пространства. Для оценки времени работы укажем, что форматор, с помощью которого был получен английский оригинал настоящего издания, тратил на одну страницу вывода примерно 2с времени ЦП, а написан он был на некоем диалекте языка Трак (см. гл.28 ). Да и большинство других форматоров тратит на оформление каждой страницы вывода тоже примерно 1-2с независимо от скорости ЭВМ, на которой они работают. Единственное разумное объяснение этому факту - то, что пользователи находят такую скорость приемлемой, и программисты соответственно не считают нужным тратить усилия на ускорение форматоров.
ИНСТРУМЕНТОВКА. В простейшем варианте эта задача традиционно входит в курсы по Сноболу, но думается, что большинство снобольных реализаций окажутся слишком медленными для практического использования. С другой стороны, язык, не имеющий хотя бы простейших средств для обработки текстов, будет в лучшем случае не слишком удобным. Золотой серединой, пожалуй, был бы язык типа XPL или BLISS. На многих машинах имеются стандартные средства для обработки текстов, например для поиска пробелов, для разбиения цепочек, для сравнения цепочек. Поэтому, для того чтобы извлечь выгоду из этих средств, разумно самые внутренние циклы писать на языке ассемблера.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели.
РАЗВИТИЕ ТЕМЫ. В этой книге можно встретить полужирный шрифт, курсив, греческие буквы, латинские рукописные и другие специальные символы. Все это имелось на выводных устройствах, но, как нетрудно догадаться, ни перфораторы, ни файловая память подобными возможностями не обладают. Для представления таких специальных литер используются специальные соглашения. Пусть, например, слова "et cetera" требуется набрать курсивом. Для этого нужно ввести текст "&i+ et cetera &i- ", и тогда на выводе получится "et cetera" курсивом. Тройка литер, начинающаяся значком "&", называется переключателем шрифта. В данном примере вы видели включение и выключение курсива [i - первая буква английского слова italics (курсив).- Прим. перев.]. Рассматривая подчеркивания, верхние и нижние индексы и т.п. как специальные начертания шрифтов, можно таким образом обеспечить доступ ко всем дополнительным средствам, имеющимся на вашем устройстве вывода. Разумеется, можно включить одновременно несколько переключателей, например чтобы вывести подчеркнутые греческие верхние индексы. (Возможно, вам понадобится также переключатель шрифта для возвратов по тексту вида &*n где n - цифра от 1 до 9).
ЛИТЕРАТУРА
Керниган, Черри (Kernighan B.W., Cherry L.L.). A System for Typesetting Mathematics, CACM, 18, 3, pp.151-157, 1975.
В этой статье описывается только система для набора математических формул, но система встроена в форматор текстов общего назначения. Сама статья, как, сообщается в журнале CACM, является фотокопией с результата работы форматора и для публикации повторно не набиралась. Керниган и Черри, между прочим, продают свою систему.
Керниган, Плоджер (Kernighan В.W., Plouger P.J.). Software Tools. AddisonWesley, Reading MA, 1976.
В книге Кернигана и Плоджера обсуждаются системы программного обеспечения, которые могут оказаться полезными при работе над большим (а пожалуй, и любым) проектом. Каждое такое средство, как и в этих этюдах, сначала обрисовывается в общих чертах, а затем формулируется в виде проекта. Одно из описываемых средств - форматор текстов. Даются также некоторые указания по реализации. Возможно, прежде чем браться за этот этюд, вы захотите сравнить свойства двух форматоров.
* Баяковский Ю.М., Мишакова С.Т. Автоматизированная система подготовки публикаций и документов (АСПИД), ИПМ АН СССР им.М.В.Келдыша. Препринт #19, 1977.
Система АСПИД написана на Фортране и на машине БЭСМ-6 тратит на подготовку страницы вывода также около 2с.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
5
ПОБЕДИТЕЛЕЙ СУДЯТ,
ИЛИ...
СОСТАВЛЕНИЕ И ОЦЕНКА ТУРНИРА
Едва ли не каждый из нас в свое время был болельщиком местной, чуть ли не самой сильной команды. Состоявшийся в конце сезона турнир должен был выявить чемпиона города, округа, штата, страны, мира или Вселенной. Но какое невезение - местные герои проиграли будущему победителю уже в первом круге турнира с немедленным выбыванием. Игра оказалась малоинтересной - никто даже не успел размяться. И ведь как обидно: самые настоящие слабаки в итоге занимают место, которое по праву должно принадлежать нашим парням, а болельщиков вместо волнующей борьбы в финале ждет убогое зрелище.
А виноват во всем ТУРНИР С НЕМЕДЛЕННЫМ ВЫБЫВАНИЕМ. Пусть имеется 2**n команд, n>0. Тогда в первом круге команда 1 играет с командой 2, команда 3 с командой 4, ..., команда 2**n-1 с командой 2**n. Проигравшие вылетают, а победители выходят в следующий круг.
На рис. 5.1 изображен турнир восьми команд. Если предположить, что более сильная команда всегда выигрывает (т.е. что не бывает срывов), лучшая команда, очевидно, завоюет первое место. Однако второй участник финальной игры может занимать в общей табели о рангах лишь место 2**(n-1)+1 при условии, что все более сильные команды оказались в одной группе с победителем. Победитель по мере своего продвижения выведет из розыгрыша хорошие команды, и слабой команде достанутся совсем никудышные соперники. Избежать подобной ситуации можно несколькими способами. Во-первых, команды (в дальнейшем будем называть их соперниками) можно рассеять, чтобы сильные соперники (оценка дается по итогам предыдущих выступлений) разместились по всей турнирной сетке. Например, самый сильный соперник попадает в позицию 1, второй по силе - в 2**(n-1)+1, третий - в 2**(n-1)+2**(n-2)+1, четвертый - в 2**(n-2)+1 и т.д. Если предварительная оценка была достаточно точной, сильные соперники не выбьют друга в первых кругах. Во-вторых, можно устроить ТУРНИР С ОТЛОЖЕННЫМ ВЫБЫВАНИЕМ, когда выбывают после двух поражений. Но на самом деле идеальным решением (хорошо бы еще и практичным!) был бы КРУГОВОЙ ТУРНИР, в котором все соперники играют друг с другом ровно один раз. В предположении отсутствия срывов сильнейший соперник выиграет 2**(n-1) встреч и проиграет 0, второй по силе соответственно 2**n-2 и 1 (уступит лишь сильнейшему), ..., а самый слабый - 0 и 2**n-1 (проиграет всем). Трудность в том, что в круговом турнире нужно провести 2**(n-1)*(2**n-1) встреч, в то время как в турнире с немедленным выбыванием лишь 2**n-1.
Рисунок 5.1. Простой турнир с НЕМЕДЛЕННЫМ ВЫБЫВАНИЕМ. Окончательное упорядочение, как это определено в тексте, имеет вид 1, 3, 5, 2, 8, 6, 4, 7.
Оказавшись между двумя крайностями, выберем компромиссное решение - ШВЕЙЦАРСКУЮ СИСТЕМУ. В первом круге соперник, "посеянный" первым, встречается с последним, второй - с предпоследним и т.д. После каждого круга соперники упорядочиваются в соответствии с набранными очками. Внутри каждой группы (с равным количеством очков) соперники упорядочиваются по среднему числу очков у побежденных ими противников (тем самым ничья не учитывается). В следующем круге соперник, стоящий в описанной классификации на первом месте, встречается с соперником, занимающим наиболее высокое место из тех, с кем он еще не играл. Остальные пары определяются аналогичным образом: соперники должны иметь почти равное количество очков, причем повторные встречи не допускаются. В табл.5.1 показан возможный трехкруговой турнир по швейцарской системе с восемью участниками. Крупный шахматный деятель Харкнесс утверждает, что турнир по швейцарской системе в корень из (N+2k) кругов, где N - число игроков, правильно расставит k+1 первых игроков (и, из соображений симметрии, k+1 последних игроков). Швейцарская система справедливее немедленного выбывания и гораздо быстрее круговой. Она позволяет всем соперникам играть в каждом круге. Вопрос состоит в том, как ведут себя подобные турниры в условиях реальных соревнований. Предположим, имеется 2**n соперников. Соперник 1 - сильнейший, соперник 2 - второй по силе, ..., соперник 2**n - слабейший. Для начала проведем круговой турнир, записывая результаты каждого матча. Если встречаются соперники i и j, i<j, положим вероятность победы игрока i равной
1/2 + (j-i)/2**(n+l).
Тем самым более сильный соперник побеждает с вероятностью, превышающей половину. Упорядочим соперников в соответствии с набранным в круговом турнире количеством очков. Внутри каждой группы команд с равным количеством очков упорядочим их по среднему числу очков, набранных побежденными ими соперниками. Если и здесь наблюдаются совпадения, соперники упорядочиваются по исходным номерам. В результате получается КРУГОВАЯ КЛАССИФИКАЦИЯ, которую мы будем считать самой "справедливой"; она используется для оценки других способов организации турниров.
Следующий шаг состоит в том, чтобы с одной и той же базой данных провести турниры по швейцарской системе и с немедленным выбыванием. Для разбиения соперников на пары в каждом из этих турниров берутся результаты кругового турнира. Заметьте, что в обоих турнирах два соперника могут встретиться лишь однажды. ШВЕЙЦАРСКАЯ КЛАССИФИКАЦИЯ - это упорядочение после заключительного круга (всего n кругов), причем все оставшиеся неясности разрешаются в соответствии с начальным упорядочением. Затем начните турнир с немедленным выбыванием, составив пары для первого круга случайным образом. В КЛАССИФИКАЦИИ ПО ВЫБЫВАНИЮ победитель финальной встречи идет первым, побежденный - вторым, и, вообще, проигравшие в i-м круге располагаются перед ранее выбывшими и после всех победивших в i-м и следующих кругах. Внутри группы побежденных в i-м круге соперники располагается в соответствии с итоговыми местами победивших их команд.
Таблица 5.1. Пример турнира по швейцарской системе
Этот турнир недостаточно велик, чтобы показать достоинства швейцарской системы.
Чтобы сравнить эти классификации, используем новую и старую статистики, Старая статистика - это КОРРЕЛЯЦИЯ МЕСТ определяемая как
R = 1 - 6*Сумма(i от 1 до n)(xi - yi)**2 / (N**3-N),
где xi - место соперника i в одной классификации, yi - место в другой классификации, N - общее число соперников (в данном случае 2**n). Другая статистика ПОДСЧИТЫВАЕТ СОВПАДЕНИЯ и определяется как
M = maxi(для всех j, таких, что j<=i включающих хj=уj).
Тем самым M равно максимальному числу мест (считая от сильнейших к слабейшим), в которых обе классификации в точности совпадают. Статистика R характеризует близость двух классификаций в целом, а M - совпадение верхних частей классификаций [Тут автор неточен. Статистика M показывает, сколько соперников, считавшихся до турниров сильнейшими (имеющих меньшие номера), заняло в обеих классификациях одинаковые места (возможно, и не самые высокие).- Прим. перев.].
ТЕМА. Напишите программу, читающую исходное значение n, проводящую каждый из трех турниров для 2**n соперников и вычисляющую статистики R и M для каждой из трех пар классификаций. Проведите эксперимент большое число раз с постоянным значением n и подсчитайте средние значения M и R. Сравните, какая из двух систем - швейцарская или с немедленным выбыванием - лучше повторяет результаты кругового турнира.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Разумеется, нужно досконально разбираться в разных системах проведения турниров, нужно эффективно программировать подбор пар. Но не упустите из виду еще один момент. Размеры кругового турнира заставляют эффективно запрограммировать внутренний цикл и экономно расходовать память для хранения результатов встреч. Разумеется, вам понадобится хороший генератор случайных чисел для определения результатов встреч. Наконец, при швейцарской системе возможны попытки дважды свести одну и ту же пару соперников, поэтому либо докажите, что такого не произойдет, либо измените алгоритм, избегая повторных встреч, но подчиняясь общему правилу: старайтесь сводить в пары соперников, набравших почти равное количество очков.
ИНСТРУМЕНТОВКА. Годится алгебраический процедурный язык с хорошими управляющими структурами цикла. Возможно, подойдет и APL или другой язык обработки массивов, если только вы сумеете так организовать турниры, чтобы стала выгодной параллельная обработка всех соперников.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Большинство расширений включает более подробный анализ и сравнение систем проведения турниров. Во-первых, заметьте, что нижняя часть классификации по итогам турнира с немедленным выбыванием носит довольно произвольный характер. Кроме того, соперникам, попавшим в эту часть классификации, весьма тоскливо, ибо они рано вылетели. Для утешения можно организовать турниры с немедленным выбыванием среди неудачников каждого круга. Результаты этих турниров, а не приведенное выше правило, расставят неудачников по местам. Поскольку и в этих побочных турнирах будут проигравшие, организуйте турниры неудачливых неудачников, и так до посинения. Заметьте, что турнир по-прежнему пройдет в n кругов, но теперь все соперники будут участниками всех кругов. Если во всех встречах побеждают сильнейшие, этот, более тщательно организованный турнир превращается в законченный алгоритм сортировки.
Вообще, турниры - это сортировка участвующих в них соперников, хотя правило сравнения и носит вероятностный характер. На основе любого метода сортировки, не нарушающего двух основных правил турниров, можно организовать состязание. Вот основные правила:
1. Ни один из соперников не должен участвовать более чем в одном матче одного круга, а число кругов должно примерно равняться логарифму числа участников.
2. Никакие два соперника не должны встречаться больше одного раза.
Используя изложенные идеи, вы можете оценить и классические способы проведения турниров, такие, как отложенное выбывание, и способы, придуманные вами.
В голову приходит также несколько статистических вопросов. Как влияет частичное или полное рассеивание на турниры с немедленным выбыванием? Как влияет случайная ЖЕРЕБЬЕВКА (т.е. случайное составление начальных пар) на ход турниров по швейцарской системе? Каков будет эффект введения иной функции превосходства? Наконец, поскольку для получения итоговой статистики по нескольким экспериментам, видимо, нельзя просто усреднять две наши статистики, спрашивается: какая статистическая операция должна быть использована?
ЛИТЕРАТУРА
Харкнесс (Harkness К.). Official Chess Handbook. David McKay, New York, NY, 1967.
Книга Харкяесса содержит исчерпывающее изложение шахматной юрисдикции. Поскольку швейцарская система сделала возможным проведение в Соединенных Штатах больших открытых турниров, автор чрезвычайно подробно излагает все ее тонкости. В книге содержится много предложений по разрешению неясных ситуаций и упорядочению игроков.
Кнут (Knuth D.E.). The Art of Computer Programming/Seminumerical Algorithms. Addison-Wesley, Reading, MA, 1969. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т.2. Получисленные алгоритмы.- М.: Мир, 1977]
Глава 3 этой "библии" посвящена случайным числам, их порождению и использованию. Вы узнаете об опасности трюкачества в этой области. Рекомендуем вам воспользоваться генератором Макларена-Марсальи, который Д.Кнут описывает в алгоритме М.
Хоэль (Hoel G.) Introduction to Mathematical Statistics. Wiley, New York, NY, 1971.
Для нестатистиков корреляция и прочая статистическая магия кажутся совершенно недоступными человеческому разуму. Автор строго излагает основы статистики, не обманывая читателя.
* Кнут Д. Искусство программирования для ЭВМ. Т.3. Сортировка и поиск. п.5.3.3. Пер. с англ.- М.: Мир, 1978.
* Шахматный кодекс СССР.- М.: Физкультура и спорт, 1977.
ПОБЕДИТЕЛЕЙ СУДЯТ,
ИЛИ...
СОСТАВЛЕНИЕ И ОЦЕНКА ТУРНИРА
Едва ли не каждый из нас в свое время был болельщиком местной, чуть ли не самой сильной команды. Состоявшийся в конце сезона турнир должен был выявить чемпиона города, округа, штата, страны, мира или Вселенной. Но какое невезение - местные герои проиграли будущему победителю уже в первом круге турнира с немедленным выбыванием. Игра оказалась малоинтересной - никто даже не успел размяться. И ведь как обидно: самые настоящие слабаки в итоге занимают место, которое по праву должно принадлежать нашим парням, а болельщиков вместо волнующей борьбы в финале ждет убогое зрелище.
А виноват во всем ТУРНИР С НЕМЕДЛЕННЫМ ВЫБЫВАНИЕМ. Пусть имеется 2**n команд, n>0. Тогда в первом круге команда 1 играет с командой 2, команда 3 с командой 4, ..., команда 2**n-1 с командой 2**n. Проигравшие вылетают, а победители выходят в следующий круг.
На рис. 5.1 изображен турнир восьми команд. Если предположить, что более сильная команда всегда выигрывает (т.е. что не бывает срывов), лучшая команда, очевидно, завоюет первое место. Однако второй участник финальной игры может занимать в общей табели о рангах лишь место 2**(n-1)+1 при условии, что все более сильные команды оказались в одной группе с победителем. Победитель по мере своего продвижения выведет из розыгрыша хорошие команды, и слабой команде достанутся совсем никудышные соперники. Избежать подобной ситуации можно несколькими способами. Во-первых, команды (в дальнейшем будем называть их соперниками) можно рассеять, чтобы сильные соперники (оценка дается по итогам предыдущих выступлений) разместились по всей турнирной сетке. Например, самый сильный соперник попадает в позицию 1, второй по силе - в 2**(n-1)+1, третий - в 2**(n-1)+2**(n-2)+1, четвертый - в 2**(n-2)+1 и т.д. Если предварительная оценка была достаточно точной, сильные соперники не выбьют друга в первых кругах. Во-вторых, можно устроить ТУРНИР С ОТЛОЖЕННЫМ ВЫБЫВАНИЕМ, когда выбывают после двух поражений. Но на самом деле идеальным решением (хорошо бы еще и практичным!) был бы КРУГОВОЙ ТУРНИР, в котором все соперники играют друг с другом ровно один раз. В предположении отсутствия срывов сильнейший соперник выиграет 2**(n-1) встреч и проиграет 0, второй по силе соответственно 2**n-2 и 1 (уступит лишь сильнейшему), ..., а самый слабый - 0 и 2**n-1 (проиграет всем). Трудность в том, что в круговом турнире нужно провести 2**(n-1)*(2**n-1) встреч, в то время как в турнире с немедленным выбыванием лишь 2**n-1.
Рисунок 5.1. Простой турнир с НЕМЕДЛЕННЫМ ВЫБЫВАНИЕМ. Окончательное упорядочение, как это определено в тексте, имеет вид 1, 3, 5, 2, 8, 6, 4, 7.
Оказавшись между двумя крайностями, выберем компромиссное решение - ШВЕЙЦАРСКУЮ СИСТЕМУ. В первом круге соперник, "посеянный" первым, встречается с последним, второй - с предпоследним и т.д. После каждого круга соперники упорядочиваются в соответствии с набранными очками. Внутри каждой группы (с равным количеством очков) соперники упорядочиваются по среднему числу очков у побежденных ими противников (тем самым ничья не учитывается). В следующем круге соперник, стоящий в описанной классификации на первом месте, встречается с соперником, занимающим наиболее высокое место из тех, с кем он еще не играл. Остальные пары определяются аналогичным образом: соперники должны иметь почти равное количество очков, причем повторные встречи не допускаются. В табл.5.1 показан возможный трехкруговой турнир по швейцарской системе с восемью участниками. Крупный шахматный деятель Харкнесс утверждает, что турнир по швейцарской системе в корень из (N+2k) кругов, где N - число игроков, правильно расставит k+1 первых игроков (и, из соображений симметрии, k+1 последних игроков). Швейцарская система справедливее немедленного выбывания и гораздо быстрее круговой. Она позволяет всем соперникам играть в каждом круге. Вопрос состоит в том, как ведут себя подобные турниры в условиях реальных соревнований. Предположим, имеется 2**n соперников. Соперник 1 - сильнейший, соперник 2 - второй по силе, ..., соперник 2**n - слабейший. Для начала проведем круговой турнир, записывая результаты каждого матча. Если встречаются соперники i и j, i<j, положим вероятность победы игрока i равной
1/2 + (j-i)/2**(n+l).
Тем самым более сильный соперник побеждает с вероятностью, превышающей половину. Упорядочим соперников в соответствии с набранным в круговом турнире количеством очков. Внутри каждой группы команд с равным количеством очков упорядочим их по среднему числу очков, набранных побежденными ими соперниками. Если и здесь наблюдаются совпадения, соперники упорядочиваются по исходным номерам. В результате получается КРУГОВАЯ КЛАССИФИКАЦИЯ, которую мы будем считать самой "справедливой"; она используется для оценки других способов организации турниров.
Следующий шаг состоит в том, чтобы с одной и той же базой данных провести турниры по швейцарской системе и с немедленным выбыванием. Для разбиения соперников на пары в каждом из этих турниров берутся результаты кругового турнира. Заметьте, что в обоих турнирах два соперника могут встретиться лишь однажды. ШВЕЙЦАРСКАЯ КЛАССИФИКАЦИЯ - это упорядочение после заключительного круга (всего n кругов), причем все оставшиеся неясности разрешаются в соответствии с начальным упорядочением. Затем начните турнир с немедленным выбыванием, составив пары для первого круга случайным образом. В КЛАССИФИКАЦИИ ПО ВЫБЫВАНИЮ победитель финальной встречи идет первым, побежденный - вторым, и, вообще, проигравшие в i-м круге располагаются перед ранее выбывшими и после всех победивших в i-м и следующих кругах. Внутри группы побежденных в i-м круге соперники располагается в соответствии с итоговыми местами победивших их команд.
Таблица 5.1. Пример турнира по швейцарской системе
Этот турнир недостаточно велик, чтобы показать достоинства швейцарской системы.
Чтобы сравнить эти классификации, используем новую и старую статистики, Старая статистика - это КОРРЕЛЯЦИЯ МЕСТ определяемая как
R = 1 - 6*Сумма(i от 1 до n)(xi - yi)**2 / (N**3-N),
где xi - место соперника i в одной классификации, yi - место в другой классификации, N - общее число соперников (в данном случае 2**n). Другая статистика ПОДСЧИТЫВАЕТ СОВПАДЕНИЯ и определяется как
M = maxi(для всех j, таких, что j<=i включающих хj=уj).
Тем самым M равно максимальному числу мест (считая от сильнейших к слабейшим), в которых обе классификации в точности совпадают. Статистика R характеризует близость двух классификаций в целом, а M - совпадение верхних частей классификаций [Тут автор неточен. Статистика M показывает, сколько соперников, считавшихся до турниров сильнейшими (имеющих меньшие номера), заняло в обеих классификациях одинаковые места (возможно, и не самые высокие).- Прим. перев.].
ТЕМА. Напишите программу, читающую исходное значение n, проводящую каждый из трех турниров для 2**n соперников и вычисляющую статистики R и M для каждой из трех пар классификаций. Проведите эксперимент большое число раз с постоянным значением n и подсчитайте средние значения M и R. Сравните, какая из двух систем - швейцарская или с немедленным выбыванием - лучше повторяет результаты кругового турнира.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Разумеется, нужно досконально разбираться в разных системах проведения турниров, нужно эффективно программировать подбор пар. Но не упустите из виду еще один момент. Размеры кругового турнира заставляют эффективно запрограммировать внутренний цикл и экономно расходовать память для хранения результатов встреч. Разумеется, вам понадобится хороший генератор случайных чисел для определения результатов встреч. Наконец, при швейцарской системе возможны попытки дважды свести одну и ту же пару соперников, поэтому либо докажите, что такого не произойдет, либо измените алгоритм, избегая повторных встреч, но подчиняясь общему правилу: старайтесь сводить в пары соперников, набравших почти равное количество очков.
ИНСТРУМЕНТОВКА. Годится алгебраический процедурный язык с хорошими управляющими структурами цикла. Возможно, подойдет и APL или другой язык обработки массивов, если только вы сумеете так организовать турниры, чтобы стала выгодной параллельная обработка всех соперников.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Большинство расширений включает более подробный анализ и сравнение систем проведения турниров. Во-первых, заметьте, что нижняя часть классификации по итогам турнира с немедленным выбыванием носит довольно произвольный характер. Кроме того, соперникам, попавшим в эту часть классификации, весьма тоскливо, ибо они рано вылетели. Для утешения можно организовать турниры с немедленным выбыванием среди неудачников каждого круга. Результаты этих турниров, а не приведенное выше правило, расставят неудачников по местам. Поскольку и в этих побочных турнирах будут проигравшие, организуйте турниры неудачливых неудачников, и так до посинения. Заметьте, что турнир по-прежнему пройдет в n кругов, но теперь все соперники будут участниками всех кругов. Если во всех встречах побеждают сильнейшие, этот, более тщательно организованный турнир превращается в законченный алгоритм сортировки.
Вообще, турниры - это сортировка участвующих в них соперников, хотя правило сравнения и носит вероятностный характер. На основе любого метода сортировки, не нарушающего двух основных правил турниров, можно организовать состязание. Вот основные правила:
1. Ни один из соперников не должен участвовать более чем в одном матче одного круга, а число кругов должно примерно равняться логарифму числа участников.
2. Никакие два соперника не должны встречаться больше одного раза.
Используя изложенные идеи, вы можете оценить и классические способы проведения турниров, такие, как отложенное выбывание, и способы, придуманные вами.
В голову приходит также несколько статистических вопросов. Как влияет частичное или полное рассеивание на турниры с немедленным выбыванием? Как влияет случайная ЖЕРЕБЬЕВКА (т.е. случайное составление начальных пар) на ход турниров по швейцарской системе? Каков будет эффект введения иной функции превосходства? Наконец, поскольку для получения итоговой статистики по нескольким экспериментам, видимо, нельзя просто усреднять две наши статистики, спрашивается: какая статистическая операция должна быть использована?
ЛИТЕРАТУРА
Харкнесс (Harkness К.). Official Chess Handbook. David McKay, New York, NY, 1967.
Книга Харкяесса содержит исчерпывающее изложение шахматной юрисдикции. Поскольку швейцарская система сделала возможным проведение в Соединенных Штатах больших открытых турниров, автор чрезвычайно подробно излагает все ее тонкости. В книге содержится много предложений по разрешению неясных ситуаций и упорядочению игроков.
Кнут (Knuth D.E.). The Art of Computer Programming/Seminumerical Algorithms. Addison-Wesley, Reading, MA, 1969. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т.2. Получисленные алгоритмы.- М.: Мир, 1977]
Глава 3 этой "библии" посвящена случайным числам, их порождению и использованию. Вы узнаете об опасности трюкачества в этой области. Рекомендуем вам воспользоваться генератором Макларена-Марсальи, который Д.Кнут описывает в алгоритме М.
Хоэль (Hoel G.) Introduction to Mathematical Statistics. Wiley, New York, NY, 1971.
Для нестатистиков корреляция и прочая статистическая магия кажутся совершенно недоступными человеческому разуму. Автор строго излагает основы статистики, не обманывая читателя.
* Кнут Д. Искусство программирования для ЭВМ. Т.3. Сортировка и поиск. п.5.3.3. Пер. с англ.- М.: Мир, 1978.
* Шахматный кодекс СССР.- М.: Физкультура и спорт, 1977.
Последний раз редактировалось: Gudleifr (Вс Фев 21, 2021 11:09 am), всего редактировалось 1 раз(а)
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
6
ФИНАНСОВЫЕ ВОРОТИЛЫ,
ИЛИ...
УПРАВЛЕНИЕ ПРЕДПРИЯТИЯМИ И МАШИННОЕ МОДЕЛИРОВАНИЕ
Эту главу я уже выкладывал в "Заметках" - ТЕМА #61, АБЗАЦ #640.
ФИНАНСОВЫЕ ВОРОТИЛЫ,
ИЛИ...
УПРАВЛЕНИЕ ПРЕДПРИЯТИЯМИ И МАШИННОЕ МОДЕЛИРОВАНИЕ
Эту главу я уже выкладывал в "Заметках" - ТЕМА #61, АБЗАЦ #640.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
7
КРИСС-КРОСС,
ИЛИ...
ЭВРИСТИЧЕСКОЕ СОСТАВЛЕНИЕ ГОЛОВОЛОМКИ
Многие считают кроссворды слишком трудной головоломкой, потому что отгадать слово им не под силу. Но вписывать буквы в клетки нравится. Для подобных людей существует более простая головоломка - крисс-кросс.
Каждый крисс-кросс состоит из списка слов, разбитых для удобства на группы в соответствии с длиной и упорядоченных по алфавиту внутри каждой группы, а также из схемы, в которую нужно вписать слова. Схема подчиняется тому же правилу, что и в кроссворде,- в местах пересечения слова имеют общую букву, однако номера отсутствуют, поскольку слова известны заранее, требуется лишь вписать их в нужные места. Обычно в схемах крисс-кросса гораздо меньше пересечений по сравнению с кроссвордами, а незаполняемые клетки не заштриховываются, если это не приводит к путанице. Крисс-кросс всегда имеет единственное решение, в котором используются все перечисленные слова. Пример головоломки, правда очень маленький, приведен на рис.7.1. Заметьте, что длина слова служит важным ключом к разгадке.
Рисунок 7.1. Пример головоломки крисс-кросс.
ТЕМА. Напишите программу, читающую список слов и строящую для этого списка правильную схему крисс-кросса. Представьте заполненную схему как доказательство того, что она правильная. Возможно, хотя и маловероятно, что для данного списка слов не существует решения (как и в кроссворде, схема должна быть связной). Ваша программа должна сообщать о всех неудачах при построении схемы и о всех ситуациях, нарушающих однозначность (таких, например, как наличие повторяющихся слов). Попутно решите еще одну задачу - получите красивый графический вывод.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Качество схем крисс-кросса пропорционально их "связанности", т.е., чем теснее в среднем слова переплетены с соседями, тем интереснее головоломка. Связанность можно измерять по-разному: как отношение площади схемы к площади наименьшего объемлющего прямоугольника; как среднее число пересечений на слово; как среднее число пересечений на букву; как минимальное число пересечений на слово. При генерации головоломок крисс-кросс для массовых изданий использовалась коммерческая программа, но головоломки получались неинтересные - слишком длинные и извилистые. Когда ваша программа заработает, позаботьтесь об увеличении связанности.
Предложенная задача - классическая для метода перебора с возвратами. Начните с вписывания слов в фиксированную схему, пока в списке есть подходящие слова. Когда они кончатся, вернитесь на шаг назад, удалив последнее вписанное слово, и попытайтесь вписать другое слово. Необходимо разработать эвристику для выбора очередного кандидата из списка неиспользованных слов. Контроль однозначности должен включать проверку того, что в схеме нельзя поменять местами никакие два слова равной длины. Достаточна ли такая проверка? Нет ли более изящной? Полное алгоритмическое решение, максимизирующее связанность, несомненно, представит значительный теоретический интерес.
ИНСТРУМЕНТОВКА. К решению задачи имеется много подходов, но в любом случае нужны гибкие структуры данных, чтобы отслеживать продвижение программы, и средства для удобной работы с цепочками литер и образцами. Напрашиваются языки Снобол и PL/I. В Паскале есть подходящие структуры данных, но средства для работы с цепочками придется создавать самому.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели. Еще неделя на графический вывод.
ЛИТЕРАТУРА
Армбрастер (Armbruster F.). Computer Crosswords, Troubadour Press, San FranFrancisco, CA, 1974.
Именно эта книга подсказала этюд. Сами по себе головоломки, помещенные в ней, не особенно хороши. Возможно, ваше решение окажется лучше.
Мазлак (Mazlack L.J.). Machine Selection of Elements in Crossword Puzzles: An Application of Computational Linguistics. SIAM J. Comput., 5, 1, pp.51-72, March 1976.
Автор описывает программу, пытающуюся заполнить схему кроссворда словами из очень большого словаря. Схема и словарь даны заранее. Предполагается, что заключительные слова придумывает человек. Эта задача аналогична задаче построения схемы крисс-кросса, и, возможно, книга подскажет вам, как подступиться к решению.
КРИСС-КРОСС,
ИЛИ...
ЭВРИСТИЧЕСКОЕ СОСТАВЛЕНИЕ ГОЛОВОЛОМКИ
Многие считают кроссворды слишком трудной головоломкой, потому что отгадать слово им не под силу. Но вписывать буквы в клетки нравится. Для подобных людей существует более простая головоломка - крисс-кросс.
Каждый крисс-кросс состоит из списка слов, разбитых для удобства на группы в соответствии с длиной и упорядоченных по алфавиту внутри каждой группы, а также из схемы, в которую нужно вписать слова. Схема подчиняется тому же правилу, что и в кроссворде,- в местах пересечения слова имеют общую букву, однако номера отсутствуют, поскольку слова известны заранее, требуется лишь вписать их в нужные места. Обычно в схемах крисс-кросса гораздо меньше пересечений по сравнению с кроссвордами, а незаполняемые клетки не заштриховываются, если это не приводит к путанице. Крисс-кросс всегда имеет единственное решение, в котором используются все перечисленные слова. Пример головоломки, правда очень маленький, приведен на рис.7.1. Заметьте, что длина слова служит важным ключом к разгадке.
Рисунок 7.1. Пример головоломки крисс-кросс.
ТЕМА. Напишите программу, читающую список слов и строящую для этого списка правильную схему крисс-кросса. Представьте заполненную схему как доказательство того, что она правильная. Возможно, хотя и маловероятно, что для данного списка слов не существует решения (как и в кроссворде, схема должна быть связной). Ваша программа должна сообщать о всех неудачах при построении схемы и о всех ситуациях, нарушающих однозначность (таких, например, как наличие повторяющихся слов). Попутно решите еще одну задачу - получите красивый графический вывод.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Качество схем крисс-кросса пропорционально их "связанности", т.е., чем теснее в среднем слова переплетены с соседями, тем интереснее головоломка. Связанность можно измерять по-разному: как отношение площади схемы к площади наименьшего объемлющего прямоугольника; как среднее число пересечений на слово; как среднее число пересечений на букву; как минимальное число пересечений на слово. При генерации головоломок крисс-кросс для массовых изданий использовалась коммерческая программа, но головоломки получались неинтересные - слишком длинные и извилистые. Когда ваша программа заработает, позаботьтесь об увеличении связанности.
Предложенная задача - классическая для метода перебора с возвратами. Начните с вписывания слов в фиксированную схему, пока в списке есть подходящие слова. Когда они кончатся, вернитесь на шаг назад, удалив последнее вписанное слово, и попытайтесь вписать другое слово. Необходимо разработать эвристику для выбора очередного кандидата из списка неиспользованных слов. Контроль однозначности должен включать проверку того, что в схеме нельзя поменять местами никакие два слова равной длины. Достаточна ли такая проверка? Нет ли более изящной? Полное алгоритмическое решение, максимизирующее связанность, несомненно, представит значительный теоретический интерес.
ИНСТРУМЕНТОВКА. К решению задачи имеется много подходов, но в любом случае нужны гибкие структуры данных, чтобы отслеживать продвижение программы, и средства для удобной работы с цепочками литер и образцами. Напрашиваются языки Снобол и PL/I. В Паскале есть подходящие структуры данных, но средства для работы с цепочками придется создавать самому.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели. Еще неделя на графический вывод.
ЛИТЕРАТУРА
Армбрастер (Armbruster F.). Computer Crosswords, Troubadour Press, San FranFrancisco, CA, 1974.
Именно эта книга подсказала этюд. Сами по себе головоломки, помещенные в ней, не особенно хороши. Возможно, ваше решение окажется лучше.
Мазлак (Mazlack L.J.). Machine Selection of Elements in Crossword Puzzles: An Application of Computational Linguistics. SIAM J. Comput., 5, 1, pp.51-72, March 1976.
Автор описывает программу, пытающуюся заполнить схему кроссворда словами из очень большого словаря. Схема и словарь даны заранее. Предполагается, что заключительные слова придумывает человек. Эта задача аналогична задаче построения схемы крисс-кросса, и, возможно, книга подскажет вам, как подступиться к решению.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
8
ТЕЗЕЙ, ИЛИ...
АВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ ЛАБИРИНТОВ
Тезей должен был найти выход из Критского лабиринта или погибнуть от руки Минотавра. Но что поразительно: найти вход в лабиринт - задача не менее трудная.
Здесь не представляется возможным описать все мыслимые лабиринты, да это и не требуется. Мы займемся простыми лабиринтами, построенными на прямоугольнике m*n, где m, n - положительные целые числа. Внутри и на границах прямоугольника поставлены стенки по ребрам покрывающей его единичной квадратной сетки. Чтобы построить из прямоугольника лабиринт, выбьем одну единичную стенку на одной из сторон прямоугольника (получится вход в лабиринт); выбьем одну единичную стенку на противоположной стороне (получится выход) и еще удалим какое-то число строго внутренних стенок. Говорят, что лабиринт имеет решение, если между входом и выходом внутри лабиринта есть путь в виде ломаной, не имеющей общих точек со стенками. Решение единственно, если любые два таких пути проходят через одни и те же внутренние ячейки сетки. На рис.8.1 приведен пример лабиринта 6*6.
Рисунок 8.1. Пример лабиринта.
ТЕМА. Напишите программу, которая по исходным данным m и n строит прямоугольный лабиринт m*n (проверьте, допустимы ли заданные тип). Предусмотрите, чтобы программа при каждом обращении к ней порождала разные лабиринты. Лабиринт должен иметь единственное решение, и, чтобы получившийся лабиринт был интересным, все ячейки должны быть соединены с основным путем, дающим решение. Если в вашем распоряжении имеется хорошее графическое устройство, используйте его для изображения лабиринтов, в противном случае придумайте систему обозначений для записи лабиринтов или выводите лабиринты на АЦПУ.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Теоретически нельзя удовлетворить требованию, чтобы любые два лабиринта (даже при одинаковых m и n) были различны, поскольку существует лишь конечное число лабиринтов любого наперед заданного размера, а программу можно вызвать большее число раз. Однако число лабиринтов какого-нибудь размера очень велико, и поэтому вероятность повторения лабиринта можно сделать очень маленькой. Практически это достигается, если программа будет производить "случайный" выбор различных вариантов, опираясь на какое-либо доступное ей, но неуправляемое значение (обычно берут дату и время вызова программы). Варианты, между которыми выбирает программа, это, например, положение входа и выхода и положение хотя бы нескольких внутренних разрушаемых стенок. При отладке разумно будет отключить механизм случайного выбора, чтобы изменения результата работы вызывались только изменениями самой программы.
Один из возможных подходов к решению таков. Выбираем вход; затем, начав от него, добавляем по одной ячейке к главному пути-решению, пока он не достигнет выходной стороны. После этого удаляем некоторые внутренние стенки так, чтобы все клетки оказались соединенными с главным путем. Чтобы главный путь не получился прямым коридором, следует при его построении предусмотреть случайные повороты. Программа должна также следить за тем, чтобы при построении главного пути или при открытии боковых ячеек не нарушалась единственность решения. Наблюдательный читатель заметит, что определение единственности решения не годится в случае, когда путь заходит в боковой тупик и затем возвращается. Вы можете попробовать разработать в том же духе формально корректное определение.
ИНСТРУМЕНТОВКА. Программу можно написать почти на любом из процедурных языков. Используйте эту программу для сравнения языков с точки зрения управляющих структур, встроенных структур данных и эффективности выполнения.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
ТЕЗЕЙ, ИЛИ...
АВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ ЛАБИРИНТОВ
Тезей должен был найти выход из Критского лабиринта или погибнуть от руки Минотавра. Но что поразительно: найти вход в лабиринт - задача не менее трудная.
Здесь не представляется возможным описать все мыслимые лабиринты, да это и не требуется. Мы займемся простыми лабиринтами, построенными на прямоугольнике m*n, где m, n - положительные целые числа. Внутри и на границах прямоугольника поставлены стенки по ребрам покрывающей его единичной квадратной сетки. Чтобы построить из прямоугольника лабиринт, выбьем одну единичную стенку на одной из сторон прямоугольника (получится вход в лабиринт); выбьем одну единичную стенку на противоположной стороне (получится выход) и еще удалим какое-то число строго внутренних стенок. Говорят, что лабиринт имеет решение, если между входом и выходом внутри лабиринта есть путь в виде ломаной, не имеющей общих точек со стенками. Решение единственно, если любые два таких пути проходят через одни и те же внутренние ячейки сетки. На рис.8.1 приведен пример лабиринта 6*6.
Рисунок 8.1. Пример лабиринта.
ТЕМА. Напишите программу, которая по исходным данным m и n строит прямоугольный лабиринт m*n (проверьте, допустимы ли заданные тип). Предусмотрите, чтобы программа при каждом обращении к ней порождала разные лабиринты. Лабиринт должен иметь единственное решение, и, чтобы получившийся лабиринт был интересным, все ячейки должны быть соединены с основным путем, дающим решение. Если в вашем распоряжении имеется хорошее графическое устройство, используйте его для изображения лабиринтов, в противном случае придумайте систему обозначений для записи лабиринтов или выводите лабиринты на АЦПУ.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Теоретически нельзя удовлетворить требованию, чтобы любые два лабиринта (даже при одинаковых m и n) были различны, поскольку существует лишь конечное число лабиринтов любого наперед заданного размера, а программу можно вызвать большее число раз. Однако число лабиринтов какого-нибудь размера очень велико, и поэтому вероятность повторения лабиринта можно сделать очень маленькой. Практически это достигается, если программа будет производить "случайный" выбор различных вариантов, опираясь на какое-либо доступное ей, но неуправляемое значение (обычно берут дату и время вызова программы). Варианты, между которыми выбирает программа, это, например, положение входа и выхода и положение хотя бы нескольких внутренних разрушаемых стенок. При отладке разумно будет отключить механизм случайного выбора, чтобы изменения результата работы вызывались только изменениями самой программы.
Один из возможных подходов к решению таков. Выбираем вход; затем, начав от него, добавляем по одной ячейке к главному пути-решению, пока он не достигнет выходной стороны. После этого удаляем некоторые внутренние стенки так, чтобы все клетки оказались соединенными с главным путем. Чтобы главный путь не получился прямым коридором, следует при его построении предусмотреть случайные повороты. Программа должна также следить за тем, чтобы при построении главного пути или при открытии боковых ячеек не нарушалась единственность решения. Наблюдательный читатель заметит, что определение единственности решения не годится в случае, когда путь заходит в боковой тупик и затем возвращается. Вы можете попробовать разработать в том же духе формально корректное определение.
ИНСТРУМЕНТОВКА. Программу можно написать почти на любом из процедурных языков. Используйте эту программу для сравнения языков с точки зрения управляющих структур, встроенных структур данных и эффективности выполнения.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
9
ПОЗНАЙ САМОГО СЕБЯ,
ИЛИ...
ПРОГРАММА, ПЕЧАТАЮЩАЯ СОБСТВЕННЫЙ ИСХОДНЫЙ ТЕКСТ
В философии интроспекция (или самонаблюдение) считается одним из важных элементов мышления. Все здравомыслящие люди должны внимательно отнестись к названию этюда. Если человек может достичь самопознания, то почему этого не может сделать программа? Ну а чтобы познать себя, лучше всего написать автобиографию.
ТЕМА. Напишите программу, печатающую копию собственного исходного текста. Вывод не должен содержать "управляющих" карт или другой информации, зависящей от системы. Печатается только то, что перфорируется для компилятора. Однако ваша программа ничего не должна вводить; ей не следует опираться на системные "штучки", например на знание того, что конкретный компилятор оставляет копию исходной программы в непомеченном COMMON-блоке. Проследите, чтобы программа давала одинаковый результат независимо от места и времени выполнения.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Не поддавайтесь отчаянию и страху, даже если тринадцатая попытка оказалась неудачной! Подобные программы называются ИНТРОСПЕКТИВНЫМИ, и существует теорема, в которой утверждается, что интроспективную программу можно написать на любом "достаточно мощном" языке. Все обычные языки программирования - достаточно мощные. Для решения требуется лишь взглянуть на язык под соответствующим углом зрения. Программа, вероятно, займет не более 30-40 строк.
ИНСТРУМЕНТОВКА. Годится любой язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
ЛИТЕРАТУРА
Брэтли, Милло (Bratley P., Millo J.). Computer Recreations Self-Reproducing Automata. Software - Practice and Experience, 2, pp.397-400, 1972. Эту статью нужно читать только в крайнем случае, поскольку в ней представлено полное решение задачи.
Роджерс (Rogers H., Jr.). Theory of Recursive Functions and Effective Computability. McGraw-Hill, New York, NY, 1972. [Имеется перевод: Роджерс X. Теория рекурсивных функций и эффективная вычислимость.- М.: Мир, 1972]
Чтение этого превосходного введения в теорию рекурсивных функций требует усердия, но вы будете вознаграждены полнотой и ясностью полученной картины. Главы 1-3 образуют достаточный фундамент; результаты об интроспекции содержатся в параграфах 11.1, 11.2 и 11.4.
ПОЗНАЙ САМОГО СЕБЯ,
ИЛИ...
ПРОГРАММА, ПЕЧАТАЮЩАЯ СОБСТВЕННЫЙ ИСХОДНЫЙ ТЕКСТ
В философии интроспекция (или самонаблюдение) считается одним из важных элементов мышления. Все здравомыслящие люди должны внимательно отнестись к названию этюда. Если человек может достичь самопознания, то почему этого не может сделать программа? Ну а чтобы познать себя, лучше всего написать автобиографию.
ТЕМА. Напишите программу, печатающую копию собственного исходного текста. Вывод не должен содержать "управляющих" карт или другой информации, зависящей от системы. Печатается только то, что перфорируется для компилятора. Однако ваша программа ничего не должна вводить; ей не следует опираться на системные "штучки", например на знание того, что конкретный компилятор оставляет копию исходной программы в непомеченном COMMON-блоке. Проследите, чтобы программа давала одинаковый результат независимо от места и времени выполнения.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Не поддавайтесь отчаянию и страху, даже если тринадцатая попытка оказалась неудачной! Подобные программы называются ИНТРОСПЕКТИВНЫМИ, и существует теорема, в которой утверждается, что интроспективную программу можно написать на любом "достаточно мощном" языке. Все обычные языки программирования - достаточно мощные. Для решения требуется лишь взглянуть на язык под соответствующим углом зрения. Программа, вероятно, займет не более 30-40 строк.
ИНСТРУМЕНТОВКА. Годится любой язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
ЛИТЕРАТУРА
Брэтли, Милло (Bratley P., Millo J.). Computer Recreations Self-Reproducing Automata. Software - Practice and Experience, 2, pp.397-400, 1972. Эту статью нужно читать только в крайнем случае, поскольку в ней представлено полное решение задачи.
Роджерс (Rogers H., Jr.). Theory of Recursive Functions and Effective Computability. McGraw-Hill, New York, NY, 1972. [Имеется перевод: Роджерс X. Теория рекурсивных функций и эффективная вычислимость.- М.: Мир, 1972]
Чтение этого превосходного введения в теорию рекурсивных функций требует усердия, но вы будете вознаграждены полнотой и ясностью полученной картины. Главы 1-3 образуют достаточный фундамент; результаты об интроспекции содержатся в параграфах 11.1, 11.2 и 11.4.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
10 НЕ ПРЯЧЬТЕ ВАШИ ДЕНЕЖКИ,
ИЛИ...
РАСЧЕТ ДОХОДА ОТ ВЛОЖЕННОГО КАПИТАЛА
Самым разным людям - финансистам, биржевым дельцам, банкирам и даже обыкновенным труженикам, вроде казначея пенсионного фонда Тимстеров [Профсоюз водителей грузовиков.- Прим. перев. ],- хотелось бы знать, какой доход принесут им вложенные средства. Если деньги лежат на срочном вкладе, то особых сложностей не возникает, ибо банки в каждом рекламном проспекте трубят о своих процентах. Даже если ваши средства вложены в облигации, по которым не только выплачиваются проценты, но которые можно впоследствии еще и с выгодой продать, то, чтобы определить свой доход, достаточно взять разницу курсовой стоимости облигаций, прибавить проценты, и вы получите сумму, которую должен выплатить банк. Результатом этих вычислений, если их выразить в процентах годовых, приносящих при условии непрерывного их начисления известную прибыль, является инвестиционный ДОХОД.
Ситуация, однако, не столь проста, если инвестиции связаны, скажем, с инвестиционным фондом, счетом капитала или небольшим собственным делом, когда имеют место нерегулярные поступления и платежи и текущие показатели меняются изо дня в день. Хорошим, в этом смысле, примером служит инвестиционный фонд [Инвестиционный фонд - тип финансового института - вкладывает в ценные бумаги денежный капитал, аккумулированный путем эмиссии собственных ценных бумаг. Прибыли фонда обусловлены разницей между полученными и выплаченными дивидендами и процентами.- Прим. перев.]. Действительно, новые акции могут приобретаться по рыночной стоимости в любой момент, а купленные ранее акции точно так же могут сбываться; в процессе функционирования фонда дивиденды все время меняются (и даже исчезают), однако, как правило, вкладываются в дополнительные акции; и наконец, стоимость акций фонда ежедневно меняется по мере того, как меняется курс лежащих в его основе ценных бумаг. Было бы, конечно, здорово сравнить доход, получаемый со срочного вклада, с той радужной перспективой, которую обещают проспекты инвестиционных фондов, не забывая, само собой, о том, что обычно доход пропорционален риску.
К счастью, для таких случаев имеется формула расчета дохода. Формула, к сожалению, не в замкнутом виде, а итерационная.
Таблица 10.1.
Запись реальных инвестиций.
Даты представлены в виде: месяц/число/год.
Предположим, что A - текущая величина инвестиций, что существует m операций с капиталом, причем i-я операция производилась на сумму Pi (отрицательные значения указывают на изъятие капитала) и имела место Ti лет назад, и пусть первоначальная оценка ожидаемого дохода Yo полагается равной нулю. Итак, определим при j>0 величины
Cj = A - Сумма(i от 1 до m)(Pi*exp(Y(j-1)*Ti))
и
Dj = Сумма(i от 1 до m)(Ti*Pi*exp(Y(j-1)*Ti)).
Тогда наилучшая оценка дохода Yj дается формулой
Yj = Y(j-1) + Cj/Dj.
Как только разность
|Yj - Y(j-1)|
станет достаточно малой, величина дохода считается найденной [Читатели, знакомые с вычислительными методами, должны были заметить, что приведенная формула соответствует решению уравнения относительно дохода методом Ньютона]. При изучении табл. 10.1 обратите внимание, что величина A получается суммированием среднего и правого столбцов таблицы. Например, для третьей строки A = 189.82 долл., P1 = 68.26долл., P2 = 50.00долл., P3 = 75.00 долл., a T1 ~ 85/365, T2 ~ 31/365, T3 = 0. Заметим также, что для каждой строки таблицы оценка Yo считается равной нулю и что расчет дохода для любой текущей даты не зависит от величины доходов в предшествующие времена.
ТЕМА. Напишите программу вычисления дохода от вложенного капитала. Исходные данные представляют собой записи о проведенных операциях, в каждой из которых указываются дата, сумма операции и величина инвестиции на день проведения операции БЕЗ УЧЕТА последней. Предполагается, что информация упорядочена по времени. Программа должна проверить, не нарушен ли хронологический порядок следования данных и нет ли где-нибудь изъятия средств, превышающего текущий счет. Программа должна отпечатать аккуратную таблицу платежных операций. При этом для каждой операции в выводимой строке должны быть указаны дата ее проведения, сумма инвестиций до операции, объем операции, сумма инвестиций после операции, доход на день проведения и сумма всех поступлений и платежей на текущий день. Каким именно образом обозначить конец вводимой информации - решать самому программисту, а вот равенство нулю суммы операции является удобным способом выяснения величины текущего дохода. Если у вас нет собственных инвестиций и вы не можете раздобыть Wall Street Journal [Журнал деловых кругов США - Прим. перев.], тогда исходными данными для программы, быть может не вполне удачными, зато реальными, может служить табл. 10.1.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. В рассматриваемой задаче существует интересный побочный вопрос. Даты проведения банковских операций задаются в обычном виде: месяц/число/год. А для решения задачи требуется иметь отрезки времени Ti, прошедшие после операции, выраженные в годах. У банкиров и юристов имеется несколько способов определения момента времени, когда прекращается начисление процентов на деньги (подозревают, что метод расчета зависит от того, кто кому должен). В программе достаточно вычислять годы в виде вещественных чисел с учетом високосных лет, предполагая, что все даты лежат в диапазоне от 1900 до 1999 включительно. Вообще говоря, перевод дат из одного календаря в другой может оказаться отнюдь не простым делом.
ИНСТРУМЕНТОВКА. Годится любой процедурный язык, предусматривающий действия с вещественными числами.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на одну неделю.
ЛИТЕРАТУРА
* Аникин А.В. Кредитная система современного капитализма.- М.: Наука, 1964.
Эту книгу можно рекомендовать читателю, желающему подробнее ознакомиться с деятельностью различных финансовых институтов капиталистических стран, особенно
США.
ИЛИ...
РАСЧЕТ ДОХОДА ОТ ВЛОЖЕННОГО КАПИТАЛА
Самым разным людям - финансистам, биржевым дельцам, банкирам и даже обыкновенным труженикам, вроде казначея пенсионного фонда Тимстеров [Профсоюз водителей грузовиков.- Прим. перев. ],- хотелось бы знать, какой доход принесут им вложенные средства. Если деньги лежат на срочном вкладе, то особых сложностей не возникает, ибо банки в каждом рекламном проспекте трубят о своих процентах. Даже если ваши средства вложены в облигации, по которым не только выплачиваются проценты, но которые можно впоследствии еще и с выгодой продать, то, чтобы определить свой доход, достаточно взять разницу курсовой стоимости облигаций, прибавить проценты, и вы получите сумму, которую должен выплатить банк. Результатом этих вычислений, если их выразить в процентах годовых, приносящих при условии непрерывного их начисления известную прибыль, является инвестиционный ДОХОД.
Ситуация, однако, не столь проста, если инвестиции связаны, скажем, с инвестиционным фондом, счетом капитала или небольшим собственным делом, когда имеют место нерегулярные поступления и платежи и текущие показатели меняются изо дня в день. Хорошим, в этом смысле, примером служит инвестиционный фонд [Инвестиционный фонд - тип финансового института - вкладывает в ценные бумаги денежный капитал, аккумулированный путем эмиссии собственных ценных бумаг. Прибыли фонда обусловлены разницей между полученными и выплаченными дивидендами и процентами.- Прим. перев.]. Действительно, новые акции могут приобретаться по рыночной стоимости в любой момент, а купленные ранее акции точно так же могут сбываться; в процессе функционирования фонда дивиденды все время меняются (и даже исчезают), однако, как правило, вкладываются в дополнительные акции; и наконец, стоимость акций фонда ежедневно меняется по мере того, как меняется курс лежащих в его основе ценных бумаг. Было бы, конечно, здорово сравнить доход, получаемый со срочного вклада, с той радужной перспективой, которую обещают проспекты инвестиционных фондов, не забывая, само собой, о том, что обычно доход пропорционален риску.
К счастью, для таких случаев имеется формула расчета дохода. Формула, к сожалению, не в замкнутом виде, а итерационная.
Таблица 10.1.
Запись реальных инвестиций.
Даты представлены в виде: месяц/число/год.
Предположим, что A - текущая величина инвестиций, что существует m операций с капиталом, причем i-я операция производилась на сумму Pi (отрицательные значения указывают на изъятие капитала) и имела место Ti лет назад, и пусть первоначальная оценка ожидаемого дохода Yo полагается равной нулю. Итак, определим при j>0 величины
Cj = A - Сумма(i от 1 до m)(Pi*exp(Y(j-1)*Ti))
и
Dj = Сумма(i от 1 до m)(Ti*Pi*exp(Y(j-1)*Ti)).
Тогда наилучшая оценка дохода Yj дается формулой
Yj = Y(j-1) + Cj/Dj.
Как только разность
|Yj - Y(j-1)|
станет достаточно малой, величина дохода считается найденной [Читатели, знакомые с вычислительными методами, должны были заметить, что приведенная формула соответствует решению уравнения относительно дохода методом Ньютона]. При изучении табл. 10.1 обратите внимание, что величина A получается суммированием среднего и правого столбцов таблицы. Например, для третьей строки A = 189.82 долл., P1 = 68.26долл., P2 = 50.00долл., P3 = 75.00 долл., a T1 ~ 85/365, T2 ~ 31/365, T3 = 0. Заметим также, что для каждой строки таблицы оценка Yo считается равной нулю и что расчет дохода для любой текущей даты не зависит от величины доходов в предшествующие времена.
ТЕМА. Напишите программу вычисления дохода от вложенного капитала. Исходные данные представляют собой записи о проведенных операциях, в каждой из которых указываются дата, сумма операции и величина инвестиции на день проведения операции БЕЗ УЧЕТА последней. Предполагается, что информация упорядочена по времени. Программа должна проверить, не нарушен ли хронологический порядок следования данных и нет ли где-нибудь изъятия средств, превышающего текущий счет. Программа должна отпечатать аккуратную таблицу платежных операций. При этом для каждой операции в выводимой строке должны быть указаны дата ее проведения, сумма инвестиций до операции, объем операции, сумма инвестиций после операции, доход на день проведения и сумма всех поступлений и платежей на текущий день. Каким именно образом обозначить конец вводимой информации - решать самому программисту, а вот равенство нулю суммы операции является удобным способом выяснения величины текущего дохода. Если у вас нет собственных инвестиций и вы не можете раздобыть Wall Street Journal [Журнал деловых кругов США - Прим. перев.], тогда исходными данными для программы, быть может не вполне удачными, зато реальными, может служить табл. 10.1.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. В рассматриваемой задаче существует интересный побочный вопрос. Даты проведения банковских операций задаются в обычном виде: месяц/число/год. А для решения задачи требуется иметь отрезки времени Ti, прошедшие после операции, выраженные в годах. У банкиров и юристов имеется несколько способов определения момента времени, когда прекращается начисление процентов на деньги (подозревают, что метод расчета зависит от того, кто кому должен). В программе достаточно вычислять годы в виде вещественных чисел с учетом високосных лет, предполагая, что все даты лежат в диапазоне от 1900 до 1999 включительно. Вообще говоря, перевод дат из одного календаря в другой может оказаться отнюдь не простым делом.
ИНСТРУМЕНТОВКА. Годится любой процедурный язык, предусматривающий действия с вещественными числами.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на одну неделю.
ЛИТЕРАТУРА
* Аникин А.В. Кредитная система современного капитализма.- М.: Наука, 1964.
Эту книгу можно рекомендовать читателю, желающему подробнее ознакомиться с деятельностью различных финансовых институтов капиталистических стран, особенно
США.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
11
МЕНЬШЕ COPY - МЕНЬШЕ И ВЗДОРУ
ИЛИ...
ИЗБЫТОЧНОСТЬ ТЕКСТА И СЖАТИЕ ФАЙЛА
Все знают, что большинству людей свойственно излишнее многословие. Гораздо менее широко известно, что даже самые лаконичные высказывания можно было бы значительно сократить. Вообще, естественные языки отличаются чрезвычайной избыточностью. Даж есл нсклко бкв вбрсть, эт прдлжн ещ мжн прчть. Языки, используемые для вычислений, обладают той же особенностью. Для экономии памяти компьютера, объем которой ограничен, имеет смысл ликвидировать избыточность текста.
Существует несколько способов уплотнения текста. Самый очевидный из них - поиск различных по длине цепочек из одной повторяющейся литеры. Такая группа может быть заменена тройкой литер mcn, где m обозначает признак повторения, специальную литеру, не используемую нигде в тексте для других целей, c - сама повторяющаяся литера и n - длина цепочки. Один такой ТРИГРАФ [В лингвистике диграф - комбинация из двух букв, обозначающая один звук; аналогично, триграф - из трех букв, квадриграф - из четырех и т.д.- Прим. перев.] экономит n-3 литер, причем значение n не может превышать максимального числа, представимого в поле одной литеры. Описанный способ обработки весьма неплохо оправдывает себя для текстов, содержащих длинные цепочки повторяющихся литер, например длинные цепочки пробелов, характерных для большинства программ. К сожалению, этот прием не столь хорош для других текстов, поскольку большинство данных не отличается такой же строгой формой записи, как программы.
Второй способ основан на том, что в различных системах кодировки литер, применяемых на ЭВМ, большинство литер практически не используется (из 256 литер обычного 8-разрядного кода, как правило, употребляется лишь около 100). Сначала в тексте отыскиваются наиболее распространенные ДИГРАФЫ, и каждому из них ставится в соответствие одна из не используемых в тексте одиночных литер. Уплотнение текста производится при просмотре его слева направо путем последовательной замены выявленных диграфов их однолитерными эквивалентами. При этом может быть достигнута значительная экономия, поскольку, например, 150 наиболее часто встречающихся диграфов уже составляют большую долю текста на естественном языке. И если не ставить целью слишком высокую степень уплотнения текста, можно написать довольно эффективные программы кодирования и декодирования, работающие с машинным представлением литер.
Однако существуют все же определенные трудности. Кто сказал, что наиболее часто встречающиеся диграфы в английском тексте должны быть теми же, что и во французском, или в наборе файлов, содержащих почтовые адреса, или в тексте на Алголе? А если даже это и так, то как насчет триграфов, квадриграфов или более длинных групп? Ведь более длинные группы, даже если они и реже встречаются, дают большую экономию, а бывает, что определенный фрагмент появляется в большом куске текста намного чаще, чем можно было бы ожидать. И, возвращаясь назад, как подсчитать частоты появления диграфов?
Ответ на все эти вопросы содержится в третьем подходе к решению исходной задачи. Вместо того чтобы употреблять некоторый, заранее заданный набор кодировок, можно на ходу генерировать кодовый словарь, используя непосредственно текст, подлежащий сжатию, или выборку из него. Поскольку при этом каждый элемент текста будет участвовать в создании своего собственного словаря, исчезнут трудности, вызванные неудачными аббревиатурами. Теперь нам надо найти способ построения такого словаря.
Опишем наш план действий в общих чертах. Начинаем с пустого словаря. Текст просматриваем слева направо. Ищем в словаре гнездо возможно большей длины, совпадающее с головной частью текста, и увеличиваем счетчик частоты соответствующего гнезда словаря. Если совпадений цепочек нет, образуем новое гнездо словаря и помещаем туда первую букву текста. Вычеркиваем обработанную цепочку из начала текста и начинаем просмотр заново. При обстоятельствах, поясняемых ниже, иногда два гнезда словаря соединяются в одно, образуя цепочку большей длины - процесс укрупнения гнезд. Когда словарь переполняется, производим его чистку, удаляя наиболее редко встречающиеся гнезда, и продолжаем просмотр. После того как частоты встречаемости гнезд словаря стабилизируются, вводим таблицу кодировок и, взяв исходный текст, полностью его кодируем.
В предложенной схеме есть два невыясненных момента: каким образом происходит укрупнение гнезд словаря и как осуществляется его чистка? Укрупнение двух гнезд словаря производится в случае, когда одно из них следует в тексте непосредственно за другим и частоты обоих гнезд превышают некоторое пороговое значение. При этом, чтобы новое гнездо словаря не подвергалось ближайшей чистке, ему может быть приписана начальная частота несколько выше обычной. Таким образом, если в словаре уже имеются, например, цепочки КОН и ТАКТ, то при условии, что содержимое их счетчиков достаточно велико, может образоваться новое гнездо словаря, содержащее цепочку КОНТАКТ. Что же касается чистки словаря, то существует простой способ - удалять все те гнезда, значения счетчиков которых меньше среднего. Можно действовать и иначе - выбрасывать все гнезда, частота которых ниже медианы частот. Годятся и другие, подобные этому способы.
АЛГОРИТМ ПОСТРОЕНИЯ СЛОВАРЯ
В приводимом алгоритме предполагается, что построение словаря производится с помощью некоторой выборки из текста, подлежащего сжатию. Для алгоритма существенны все литеры текста, и если табуляция, концы строк и другие аналогичные элементы имеют значение, то в тексте должны присутствовать соответствующие управляющие литеры. Предполагается, что в начале работы словарь пуст. В начальный момент переменная last match содержит пустую цепочку, а переменная last count имеет значение, равное нулю.
1. Ищем в головной части входного текста возможно более длинную цепочку match, совпадающую с каким-нибудь гнездом словаря. Если переменная match пустая, засылаем в нее первую литеру входного текста, помещаем в свободное гнездо словаря и устанавливаем начальное значение счетчика этого нового гнезда равным единице. Если цепочка match не пустая, увеличиваем на единицу счетчик соответствующего гнезда словаря. Содержимое счетчика этого гнезда записываем в count.
2. Если либо count, либо last count меньше значения порога укрупнения гнезд, то переходим к шагу 4. Порог укрупнения определяется как отношение максимально допустимого объема словаря к числу оставшихся в данный момент свободных гнезд.
3. Образуем новое гнездо словаря путем объединения цепочек last match и match. Поскольку данное гнездо словаря возникло впервые, засылаем в его счетчик единицу. Можно применить и другие стратегии.
4. Если в словаре остались свободными менее двух гнезд, производим чистку, удаляя все гнезда с частотами меньше медианы частот. При этом, если окажется, что исключилось гнездо, содержащее match, устанавливаем count равным нулю.
5. Вычеркиваем match из начала входного текста. Если текст исчерпан, то алгоритм работу заканчивает - выход. В противном случае помещаем last match в match, пересылаем last count в count и возвращаемся к шагу 1.
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ
Как только построеиие словаря завершилось, необходимо составить таблицы для кодирования и декодирования. Образуем все возможные детрафы, начинающиеся с литеры, которая нигде в тексте ее используется. Исключим из словаря все гнезда, состоящие из одной или двух литер (их уплотнение экономии дать ве может). Упорядочим оставшиеся цепочки по частоте встречаемости. Поставим в соответствие гнездам словаря полученные выше кодирующее диграфы, начиная с гнезд, имеющих наибольшую частоту. Формировавши таблицы кодировок завершается по исчерпании гнезд словаре или набора диграфов.
Процесс кодирования текста подобен процедуре построения словаря. На каждом этапе головная часть входного текста проверяется на совпадение в возможно большем числе позиций с гнездами словаря. Совпавшая цепочка заменяется в тексте соответствующим кодирующим диграфом, и начало просмотра входного текста сдвигается на длину выделенной цепочки. Если же в словаре не найдено нужного гнезда, в выходной текст просто переносится первая литера из головной части входного текста и начало просмотра перемещается вправо ва одну позицию. Декодирование осуществляется путем простой замены кодирующих диграфов их эквивалентами из словаря.
ТЕМА. Напишите программу, реализующую описанные выше алгоритмы построения словаря, кодирования и декодирования. Проверьте программу на достаточно больших фрагментах текста на ественном языке и языке программирования. Коэффициент сжатия данного куска текста определяется как частное от деления суммы длин сжатого текста и словаря на длину исходного текста. Проведите небольшое исследование зависимости коэффициента сжатия от какого-нибудь из следующих параметров: языка уплотняемого текста; объема используемой для упражнения выборки из текста; длины словаря при его построении; имеющегося количества кодирующих диграфов или применимости словаря, полученного на основании одного текста, для другого текста на том же языке.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Данная задача интересна тем, что для ее эффективного решения требуется употребить некоторые весьма развитые алгоритмы и структуры данных. Однако пусть не столь эффективную, но правильно работающую программу можно написать, используя простые алгоритмы и структуры, которые можно, когда программа заработает, постепенно заменять более изящными конструкциями. Одним из примеров служит вычисление медианы для чистки словаря. В качестве первого варианта можно просто выбрасывать гнезда словаря с частотами, меньшими средней. При этом среднюю частоту легко вычислить за один полный просмотр всех частот словаря. А после того, как такая программа в целом заработает, можно уже для нахождения порога исключения строк подключить более сложную программу расчета медианы.
Другим примером является выбор структуры словаря на этапах его создания и кодирования. Если гнезда словаря расположить в случайном порядке, то при проверках на совпадение необходимо проходить весь словарь. Однако при такой структуре появляющиеся новые гнезда добавляются просто в конец словаря. Небольшое усложнение могло бы заключаться в группировке гнезд словаря по их длинам. Тогда поиск мог бы осуществляться в направлении от самых длинных групп к коротким и прекращаться при первом же удачном сравнении. Если же каждую группу еще и лексикографически упорядочить, то можно было 6ы воспользоваться вместо линейного поиска внутри группы двоичным поиском, экономя таким образом время. Но зато добавление в словарь новых гнезд становится в этом случае более сложным, так как для любого нового гнезда потребуется место, скорее всего, где-то в середине группы. Не исключено, что самой выгодной структурой для организации поиска окажется какая-либо разновидность дерева. Разыскиваемую цепочку словаря могла бы тогда составить последовательность букв по пути от корня дерева к его листьям, или, иначе говоря, в узлах некоего подобия двоичного дерева поиска могли бы располагаться соответствующие строки словаря. В то же время при составлении словаря деревья потребуют намного большей обработки, нежели описанные выше более простые структуры.
ИНСТРУМЕНТОВКА. Вследствие разнообразия структур данных, используемых в готовой программе, исходный язык должен обладать хорошими средствами описания данных. В этом плане можно рекомендовать Паскаль, Алгол-68 и PL/I. Можно было бы предложить сначала написать программу на Сноболе, опираясь на заложенные в этом языке средства сопоставления с образцом, а затем переписать готовую программу на каком-нибудь более эффективном при массовых расчетах языке. При использовании этого пути необходимо быть внимательными и избегать употребления таких средств Снобола, которые трудно воспроизвести на другом языке.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. В описанной модели имеются три области свободы: критерий укрупнения гнезд, критерий исключения низкочастотных гнезд словаря и система их кодирования. Рассматривая их по-порядку, начнем с критерия укрупнения гнезд. Для того чтобы могло произойти укрупнение гнезд, в нашем алгоритме требуется, чтобы частоты встречаемости каждого из двух последовательных гнезд превысили один и тот же крайний предел. Можно, однако, для каждого гнезда иметь свой порог. В другом варианте может быть у одного гнезда постоянный порог, а у другого - порог, являющийся функцией средней частоты гнезд. Аналогично может варьироваться начальная частота укрупненного гнезда, причем при любом способе начальная частота задается большой, исходя из условия повышения шансов на сохранение данного гнезда при чистке.
Точно так же может быть видоизменен образ действий при исключении гнезд словаря во время его чистки. Можно выбрасывать неизменную часть низкочастотных гнезд (используя медиану, устанавливающую эту часть равной половине). Можно исключать все гнезда с частотами, меньшими некоторой, кратной средней частоте. Или же можно вычеркивать все гнезда с частотами, меньшими заданной, и эту процедуру осуществлять до тех пор, пока словарь не будет достаточно вычищен. Сочетание различных способов укрупнения и чистки гнезд характеризуется особым показателем исключаемости. В некоторых вариантах оставляются цепочки, которые часто встречаются в одной части текста и реже в других; в иных случаях предпочтение отдается цепочкам, равномерно разбросанным по тексту. Какому показателю исключаемости отдать предпочтение, зависит от используемых особенностей как словаря, так и текста.
В алгоритме кодирования употребляются диграфы, начинающиеся с не используемых во входном тексте литер. Однако, если набор диграфов кончился, а словарь еще не доделан, можно использовать триграфы и т.д. Коль скоро частоты гнезд словаря известны, их можно употребить для организации ВЗВЕШЕННОГО КОДИРОВАНИЯ ПЕРЕМЕННОЙ ДЛИНЫ. Этот способ будет дороже при декодировании (почему не при кодировании?), зато обеспечит даже более высокую степень сжатия текста.
ЛИТЕРАТУРА
Мэйн, Джеймс (Маупе A., James Е.В.). Information Compression by Factorising Common Strings. Comput. J., 18, 2, pp.157-160, 1975.
Этот этюд представляет собой в основном переформулировку работы Мэйна и Джеймса. Надо заметить, что наш алгоритм более прозрачен, а их работа содержит ряд существенных результатов.
Кнут (Knuth D.E.). The Art of Computer Programming, Volume 3/Sorting and Searching. Addison-Wesley, Reading, MA, 1973. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ, Т.3. Сортировка и поиск.- M. Мир, 1978]
Хотя чтение любой части книги Кнута доставляет массу удовольствия, представляется, что обсуждаемому вопросу наиболее соответствует материал разд.6.2 о дереве поиска.
МЕНЬШЕ COPY - МЕНЬШЕ И ВЗДОРУ
ИЛИ...
ИЗБЫТОЧНОСТЬ ТЕКСТА И СЖАТИЕ ФАЙЛА
Все знают, что большинству людей свойственно излишнее многословие. Гораздо менее широко известно, что даже самые лаконичные высказывания можно было бы значительно сократить. Вообще, естественные языки отличаются чрезвычайной избыточностью. Даж есл нсклко бкв вбрсть, эт прдлжн ещ мжн прчть. Языки, используемые для вычислений, обладают той же особенностью. Для экономии памяти компьютера, объем которой ограничен, имеет смысл ликвидировать избыточность текста.
Существует несколько способов уплотнения текста. Самый очевидный из них - поиск различных по длине цепочек из одной повторяющейся литеры. Такая группа может быть заменена тройкой литер mcn, где m обозначает признак повторения, специальную литеру, не используемую нигде в тексте для других целей, c - сама повторяющаяся литера и n - длина цепочки. Один такой ТРИГРАФ [В лингвистике диграф - комбинация из двух букв, обозначающая один звук; аналогично, триграф - из трех букв, квадриграф - из четырех и т.д.- Прим. перев.] экономит n-3 литер, причем значение n не может превышать максимального числа, представимого в поле одной литеры. Описанный способ обработки весьма неплохо оправдывает себя для текстов, содержащих длинные цепочки повторяющихся литер, например длинные цепочки пробелов, характерных для большинства программ. К сожалению, этот прием не столь хорош для других текстов, поскольку большинство данных не отличается такой же строгой формой записи, как программы.
Второй способ основан на том, что в различных системах кодировки литер, применяемых на ЭВМ, большинство литер практически не используется (из 256 литер обычного 8-разрядного кода, как правило, употребляется лишь около 100). Сначала в тексте отыскиваются наиболее распространенные ДИГРАФЫ, и каждому из них ставится в соответствие одна из не используемых в тексте одиночных литер. Уплотнение текста производится при просмотре его слева направо путем последовательной замены выявленных диграфов их однолитерными эквивалентами. При этом может быть достигнута значительная экономия, поскольку, например, 150 наиболее часто встречающихся диграфов уже составляют большую долю текста на естественном языке. И если не ставить целью слишком высокую степень уплотнения текста, можно написать довольно эффективные программы кодирования и декодирования, работающие с машинным представлением литер.
Однако существуют все же определенные трудности. Кто сказал, что наиболее часто встречающиеся диграфы в английском тексте должны быть теми же, что и во французском, или в наборе файлов, содержащих почтовые адреса, или в тексте на Алголе? А если даже это и так, то как насчет триграфов, квадриграфов или более длинных групп? Ведь более длинные группы, даже если они и реже встречаются, дают большую экономию, а бывает, что определенный фрагмент появляется в большом куске текста намного чаще, чем можно было бы ожидать. И, возвращаясь назад, как подсчитать частоты появления диграфов?
Ответ на все эти вопросы содержится в третьем подходе к решению исходной задачи. Вместо того чтобы употреблять некоторый, заранее заданный набор кодировок, можно на ходу генерировать кодовый словарь, используя непосредственно текст, подлежащий сжатию, или выборку из него. Поскольку при этом каждый элемент текста будет участвовать в создании своего собственного словаря, исчезнут трудности, вызванные неудачными аббревиатурами. Теперь нам надо найти способ построения такого словаря.
Опишем наш план действий в общих чертах. Начинаем с пустого словаря. Текст просматриваем слева направо. Ищем в словаре гнездо возможно большей длины, совпадающее с головной частью текста, и увеличиваем счетчик частоты соответствующего гнезда словаря. Если совпадений цепочек нет, образуем новое гнездо словаря и помещаем туда первую букву текста. Вычеркиваем обработанную цепочку из начала текста и начинаем просмотр заново. При обстоятельствах, поясняемых ниже, иногда два гнезда словаря соединяются в одно, образуя цепочку большей длины - процесс укрупнения гнезд. Когда словарь переполняется, производим его чистку, удаляя наиболее редко встречающиеся гнезда, и продолжаем просмотр. После того как частоты встречаемости гнезд словаря стабилизируются, вводим таблицу кодировок и, взяв исходный текст, полностью его кодируем.
В предложенной схеме есть два невыясненных момента: каким образом происходит укрупнение гнезд словаря и как осуществляется его чистка? Укрупнение двух гнезд словаря производится в случае, когда одно из них следует в тексте непосредственно за другим и частоты обоих гнезд превышают некоторое пороговое значение. При этом, чтобы новое гнездо словаря не подвергалось ближайшей чистке, ему может быть приписана начальная частота несколько выше обычной. Таким образом, если в словаре уже имеются, например, цепочки КОН и ТАКТ, то при условии, что содержимое их счетчиков достаточно велико, может образоваться новое гнездо словаря, содержащее цепочку КОНТАКТ. Что же касается чистки словаря, то существует простой способ - удалять все те гнезда, значения счетчиков которых меньше среднего. Можно действовать и иначе - выбрасывать все гнезда, частота которых ниже медианы частот. Годятся и другие, подобные этому способы.
АЛГОРИТМ ПОСТРОЕНИЯ СЛОВАРЯ
В приводимом алгоритме предполагается, что построение словаря производится с помощью некоторой выборки из текста, подлежащего сжатию. Для алгоритма существенны все литеры текста, и если табуляция, концы строк и другие аналогичные элементы имеют значение, то в тексте должны присутствовать соответствующие управляющие литеры. Предполагается, что в начале работы словарь пуст. В начальный момент переменная last match содержит пустую цепочку, а переменная last count имеет значение, равное нулю.
1. Ищем в головной части входного текста возможно более длинную цепочку match, совпадающую с каким-нибудь гнездом словаря. Если переменная match пустая, засылаем в нее первую литеру входного текста, помещаем в свободное гнездо словаря и устанавливаем начальное значение счетчика этого нового гнезда равным единице. Если цепочка match не пустая, увеличиваем на единицу счетчик соответствующего гнезда словаря. Содержимое счетчика этого гнезда записываем в count.
2. Если либо count, либо last count меньше значения порога укрупнения гнезд, то переходим к шагу 4. Порог укрупнения определяется как отношение максимально допустимого объема словаря к числу оставшихся в данный момент свободных гнезд.
3. Образуем новое гнездо словаря путем объединения цепочек last match и match. Поскольку данное гнездо словаря возникло впервые, засылаем в его счетчик единицу. Можно применить и другие стратегии.
4. Если в словаре остались свободными менее двух гнезд, производим чистку, удаляя все гнезда с частотами меньше медианы частот. При этом, если окажется, что исключилось гнездо, содержащее match, устанавливаем count равным нулю.
5. Вычеркиваем match из начала входного текста. Если текст исчерпан, то алгоритм работу заканчивает - выход. В противном случае помещаем last match в match, пересылаем last count в count и возвращаемся к шагу 1.
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ
Как только построеиие словаря завершилось, необходимо составить таблицы для кодирования и декодирования. Образуем все возможные детрафы, начинающиеся с литеры, которая нигде в тексте ее используется. Исключим из словаря все гнезда, состоящие из одной или двух литер (их уплотнение экономии дать ве может). Упорядочим оставшиеся цепочки по частоте встречаемости. Поставим в соответствие гнездам словаря полученные выше кодирующее диграфы, начиная с гнезд, имеющих наибольшую частоту. Формировавши таблицы кодировок завершается по исчерпании гнезд словаре или набора диграфов.
Процесс кодирования текста подобен процедуре построения словаря. На каждом этапе головная часть входного текста проверяется на совпадение в возможно большем числе позиций с гнездами словаря. Совпавшая цепочка заменяется в тексте соответствующим кодирующим диграфом, и начало просмотра входного текста сдвигается на длину выделенной цепочки. Если же в словаре не найдено нужного гнезда, в выходной текст просто переносится первая литера из головной части входного текста и начало просмотра перемещается вправо ва одну позицию. Декодирование осуществляется путем простой замены кодирующих диграфов их эквивалентами из словаря.
ТЕМА. Напишите программу, реализующую описанные выше алгоритмы построения словаря, кодирования и декодирования. Проверьте программу на достаточно больших фрагментах текста на ественном языке и языке программирования. Коэффициент сжатия данного куска текста определяется как частное от деления суммы длин сжатого текста и словаря на длину исходного текста. Проведите небольшое исследование зависимости коэффициента сжатия от какого-нибудь из следующих параметров: языка уплотняемого текста; объема используемой для упражнения выборки из текста; длины словаря при его построении; имеющегося количества кодирующих диграфов или применимости словаря, полученного на основании одного текста, для другого текста на том же языке.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Данная задача интересна тем, что для ее эффективного решения требуется употребить некоторые весьма развитые алгоритмы и структуры данных. Однако пусть не столь эффективную, но правильно работающую программу можно написать, используя простые алгоритмы и структуры, которые можно, когда программа заработает, постепенно заменять более изящными конструкциями. Одним из примеров служит вычисление медианы для чистки словаря. В качестве первого варианта можно просто выбрасывать гнезда словаря с частотами, меньшими средней. При этом среднюю частоту легко вычислить за один полный просмотр всех частот словаря. А после того, как такая программа в целом заработает, можно уже для нахождения порога исключения строк подключить более сложную программу расчета медианы.
Другим примером является выбор структуры словаря на этапах его создания и кодирования. Если гнезда словаря расположить в случайном порядке, то при проверках на совпадение необходимо проходить весь словарь. Однако при такой структуре появляющиеся новые гнезда добавляются просто в конец словаря. Небольшое усложнение могло бы заключаться в группировке гнезд словаря по их длинам. Тогда поиск мог бы осуществляться в направлении от самых длинных групп к коротким и прекращаться при первом же удачном сравнении. Если же каждую группу еще и лексикографически упорядочить, то можно было 6ы воспользоваться вместо линейного поиска внутри группы двоичным поиском, экономя таким образом время. Но зато добавление в словарь новых гнезд становится в этом случае более сложным, так как для любого нового гнезда потребуется место, скорее всего, где-то в середине группы. Не исключено, что самой выгодной структурой для организации поиска окажется какая-либо разновидность дерева. Разыскиваемую цепочку словаря могла бы тогда составить последовательность букв по пути от корня дерева к его листьям, или, иначе говоря, в узлах некоего подобия двоичного дерева поиска могли бы располагаться соответствующие строки словаря. В то же время при составлении словаря деревья потребуют намного большей обработки, нежели описанные выше более простые структуры.
ИНСТРУМЕНТОВКА. Вследствие разнообразия структур данных, используемых в готовой программе, исходный язык должен обладать хорошими средствами описания данных. В этом плане можно рекомендовать Паскаль, Алгол-68 и PL/I. Можно было бы предложить сначала написать программу на Сноболе, опираясь на заложенные в этом языке средства сопоставления с образцом, а затем переписать готовую программу на каком-нибудь более эффективном при массовых расчетах языке. При использовании этого пути необходимо быть внимательными и избегать употребления таких средств Снобола, которые трудно воспроизвести на другом языке.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. В описанной модели имеются три области свободы: критерий укрупнения гнезд, критерий исключения низкочастотных гнезд словаря и система их кодирования. Рассматривая их по-порядку, начнем с критерия укрупнения гнезд. Для того чтобы могло произойти укрупнение гнезд, в нашем алгоритме требуется, чтобы частоты встречаемости каждого из двух последовательных гнезд превысили один и тот же крайний предел. Можно, однако, для каждого гнезда иметь свой порог. В другом варианте может быть у одного гнезда постоянный порог, а у другого - порог, являющийся функцией средней частоты гнезд. Аналогично может варьироваться начальная частота укрупненного гнезда, причем при любом способе начальная частота задается большой, исходя из условия повышения шансов на сохранение данного гнезда при чистке.
Точно так же может быть видоизменен образ действий при исключении гнезд словаря во время его чистки. Можно выбрасывать неизменную часть низкочастотных гнезд (используя медиану, устанавливающую эту часть равной половине). Можно исключать все гнезда с частотами, меньшими некоторой, кратной средней частоте. Или же можно вычеркивать все гнезда с частотами, меньшими заданной, и эту процедуру осуществлять до тех пор, пока словарь не будет достаточно вычищен. Сочетание различных способов укрупнения и чистки гнезд характеризуется особым показателем исключаемости. В некоторых вариантах оставляются цепочки, которые часто встречаются в одной части текста и реже в других; в иных случаях предпочтение отдается цепочкам, равномерно разбросанным по тексту. Какому показателю исключаемости отдать предпочтение, зависит от используемых особенностей как словаря, так и текста.
В алгоритме кодирования употребляются диграфы, начинающиеся с не используемых во входном тексте литер. Однако, если набор диграфов кончился, а словарь еще не доделан, можно использовать триграфы и т.д. Коль скоро частоты гнезд словаря известны, их можно употребить для организации ВЗВЕШЕННОГО КОДИРОВАНИЯ ПЕРЕМЕННОЙ ДЛИНЫ. Этот способ будет дороже при декодировании (почему не при кодировании?), зато обеспечит даже более высокую степень сжатия текста.
ЛИТЕРАТУРА
Мэйн, Джеймс (Маупе A., James Е.В.). Information Compression by Factorising Common Strings. Comput. J., 18, 2, pp.157-160, 1975.
Этот этюд представляет собой в основном переформулировку работы Мэйна и Джеймса. Надо заметить, что наш алгоритм более прозрачен, а их работа содержит ряд существенных результатов.
Кнут (Knuth D.E.). The Art of Computer Programming, Volume 3/Sorting and Searching. Addison-Wesley, Reading, MA, 1973. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ, Т.3. Сортировка и поиск.- M. Мир, 1978]
Хотя чтение любой части книги Кнута доставляет массу удовольствия, представляется, что обсуждаемому вопросу наиболее соответствует материал разд.6.2 о дереве поиска.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
12
В ДУХЕ ДОБРОСОСЕДСТВА,
ИЛИ...
ДОМАШНЯЯ
БУХГАЛТЕРИЯ
Кооперативы - довольно характерное явление в студенческой жизни. Иногда несколько студентов просто вместе платят за квартиру; порой они связаны друг с другом тесными и официальными общинными узами. Однако в любом случае им нужно вести и оплачивать счета. Немало общин распалось из-за денег, и, хотя более глубоких проблем ЭВМ решить не могут, честно вести расчеты они в состоянии.
Как правило, счета присылают в конце месяца, как раз после самой крупной траты - внесения платы за квартиру. В течение месяца каждый член группы платит за все из своего кармана. Пошел в магазин - плати за продукты, открыл дверь - плати разносчику газет, сел за руль - плати за бензин. При удачном стечении обстоятельств большинство членов группы заплатит примерно свою долю, но уж, конечно, точного соответствия не получится никогда.
Если расходы распределяются не поровну, расчет не сводится к простому делению. Обычно кто-нибудь не прочь платить побольше, но иметь еще одну комнату; тот, кто выходные проводит у родителей, платит за еду несколько меньше других и т.п. И разумеется, каждый может потратить деньги по своему усмотрению, например на междугородный телефонный разговор или пиво, что не будет фиксироваться в ежемесячном групповом расчете. Чтобы учесть отмеченные нами и подобные им обстоятельства, нужна устоявшаяся бухгалтерская система.
ТЕМА. Напишите программу, обеспечивающую небольшую общину постатейно расписанными счетами. Исходные данные подразделяются на четыре части. Первая часть должна содержать фамилии тех, кто участвует в расходах в текущем месяце. Во второй части перечисляются основные статьи расходов, такие, как питание, квартплата, коммунальные услуги. За каждой статьей должен следовать список членов общины и их доли в общих расходах. Доля может выражаться как в долларах, так и в процентах. Если вся статья распределена явным образом, то остаток делится поровну между остальными членами. Например, если квартплата составляет 200долл., студент A взялся платить 45долл., а B - 35%, то на всех остальных членов общины приходятся равные доли от 85долл.
Элементами третьей части исходных данных должны быть записи общественно полезных расходах. Запись содержит дату, фамилию члена группы, уплаченную сумму, статью расхода и краткое описание. Четвертая часть содержит сходную информацию, но о расходах на личные нужды. Каждая запись в этой части имеет ту же структуру, что и в части 3, с очевидным дополнением - указывается фамилия человека, на нужды которого истрачены деньги. Исходные данные необходимо проверить на непротиворечивость, обращая особое внимание на даты, размеры платежей, фамилии и статьи расходов.
Выходная информация также должна подразделяться на несколько частей. Во-первых, каждому члену группы нужно предоставить хронологический список всех платежей и приходов в данном месяце. Во-вторых, каждый должен получить такой же список, упорядоченный по статьям и датам. В этом списке необходимо указать долговые обязательства каждого члена по каждой статье и их разложение на пай и приход. Наконец, все должны узнать свое финансовое положение на конец месяца. Должники пусть знают, кому платить, а те, кому задолжали, пусть знают, с кого требовать деньги. Желательно, чтобы программа по возможности минимизировала число таких балансовых действий.
Заключительная часть вывода должна включать хронологический перечень всех расходов на общественные нужды и таблицу (люди/статьи), в которой приведены расходы, приходы, паи и сбалансированные долговые обязательства. Перекрестное суммирование таблицы позволит оценить точность бухгалтерии.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Ничего особо сложного в предложенной задаче нет. Конечно, эффективная программа всегда лучше неэффективной, но в данном случае время счета мало по сравнению с временем ввода/вывода. Основного внимания требуют разнообразный формат исходных данных к элегантная организация проверки данных на непротиворечивость. А в общем это прозаическая программа, как и большинство производственных программ. Дайте "профессиональное" решение.
ИНСТРУМЕНТОВКА. Хотя Кобол - лучшее средство, можно использовать почти любой процедурный язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Существенная особенность коммерчески-ориентированных языков - точные вычисления и отредактированный вывод долларовых величин. При вычислениях с вещественными числами ошибки округления местами могут достигать нескольких центов; перекрестные проверки при этом дадут разные результаты. Уместно написать несложные подпрограммы для операций с числами с фиксированной точкой (но не с целыми числами!). Если вы напишите программу на Фортране, вам придется уяснить, как печатать эти надоедливые плавающие знаки доллара, "хвостовые" указатели кредита и левые нули. Если применяется Кобол или PL/I, таких трудностей не возникает.
В ДУХЕ ДОБРОСОСЕДСТВА,
ИЛИ...
ДОМАШНЯЯ
БУХГАЛТЕРИЯ
Кооперативы - довольно характерное явление в студенческой жизни. Иногда несколько студентов просто вместе платят за квартиру; порой они связаны друг с другом тесными и официальными общинными узами. Однако в любом случае им нужно вести и оплачивать счета. Немало общин распалось из-за денег, и, хотя более глубоких проблем ЭВМ решить не могут, честно вести расчеты они в состоянии.
Как правило, счета присылают в конце месяца, как раз после самой крупной траты - внесения платы за квартиру. В течение месяца каждый член группы платит за все из своего кармана. Пошел в магазин - плати за продукты, открыл дверь - плати разносчику газет, сел за руль - плати за бензин. При удачном стечении обстоятельств большинство членов группы заплатит примерно свою долю, но уж, конечно, точного соответствия не получится никогда.
Если расходы распределяются не поровну, расчет не сводится к простому делению. Обычно кто-нибудь не прочь платить побольше, но иметь еще одну комнату; тот, кто выходные проводит у родителей, платит за еду несколько меньше других и т.п. И разумеется, каждый может потратить деньги по своему усмотрению, например на междугородный телефонный разговор или пиво, что не будет фиксироваться в ежемесячном групповом расчете. Чтобы учесть отмеченные нами и подобные им обстоятельства, нужна устоявшаяся бухгалтерская система.
ТЕМА. Напишите программу, обеспечивающую небольшую общину постатейно расписанными счетами. Исходные данные подразделяются на четыре части. Первая часть должна содержать фамилии тех, кто участвует в расходах в текущем месяце. Во второй части перечисляются основные статьи расходов, такие, как питание, квартплата, коммунальные услуги. За каждой статьей должен следовать список членов общины и их доли в общих расходах. Доля может выражаться как в долларах, так и в процентах. Если вся статья распределена явным образом, то остаток делится поровну между остальными членами. Например, если квартплата составляет 200долл., студент A взялся платить 45долл., а B - 35%, то на всех остальных членов общины приходятся равные доли от 85долл.
Элементами третьей части исходных данных должны быть записи общественно полезных расходах. Запись содержит дату, фамилию члена группы, уплаченную сумму, статью расхода и краткое описание. Четвертая часть содержит сходную информацию, но о расходах на личные нужды. Каждая запись в этой части имеет ту же структуру, что и в части 3, с очевидным дополнением - указывается фамилия человека, на нужды которого истрачены деньги. Исходные данные необходимо проверить на непротиворечивость, обращая особое внимание на даты, размеры платежей, фамилии и статьи расходов.
Выходная информация также должна подразделяться на несколько частей. Во-первых, каждому члену группы нужно предоставить хронологический список всех платежей и приходов в данном месяце. Во-вторых, каждый должен получить такой же список, упорядоченный по статьям и датам. В этом списке необходимо указать долговые обязательства каждого члена по каждой статье и их разложение на пай и приход. Наконец, все должны узнать свое финансовое положение на конец месяца. Должники пусть знают, кому платить, а те, кому задолжали, пусть знают, с кого требовать деньги. Желательно, чтобы программа по возможности минимизировала число таких балансовых действий.
Заключительная часть вывода должна включать хронологический перечень всех расходов на общественные нужды и таблицу (люди/статьи), в которой приведены расходы, приходы, паи и сбалансированные долговые обязательства. Перекрестное суммирование таблицы позволит оценить точность бухгалтерии.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Ничего особо сложного в предложенной задаче нет. Конечно, эффективная программа всегда лучше неэффективной, но в данном случае время счета мало по сравнению с временем ввода/вывода. Основного внимания требуют разнообразный формат исходных данных к элегантная организация проверки данных на непротиворечивость. А в общем это прозаическая программа, как и большинство производственных программ. Дайте "профессиональное" решение.
ИНСТРУМЕНТОВКА. Хотя Кобол - лучшее средство, можно использовать почти любой процедурный язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Существенная особенность коммерчески-ориентированных языков - точные вычисления и отредактированный вывод долларовых величин. При вычислениях с вещественными числами ошибки округления местами могут достигать нескольких центов; перекрестные проверки при этом дадут разные результаты. Уместно написать несложные подпрограммы для операций с числами с фиксированной точкой (но не с целыми числами!). Если вы напишите программу на Фортране, вам придется уяснить, как печатать эти надоедливые плавающие знаки доллара, "хвостовые" указатели кредита и левые нули. Если применяется Кобол или PL/I, таких трудностей не возникает.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
13
ТУР ДО ТЬЮРИНГУ,
ИЛИ...
МОДЕЛИРОВАНИЕ МАШИНЫ ТЬЮРИНГА
Задолго до появления первых универсальных цифровых вычислительных машин вопрос об ограничениях на вычисления, которые могли бы выполнять машины, заинтересовал Алана Тьюринга. Чтобы быть уверенным, что мощь его гипотетической машины не обусловлена каким-либо хитрым механизмом, Тьюринг исключил почти все возможности, которые существенны для реальных компьютеров. Осталась лишь программная память простого вида, не допускающая изменений во время выполнения, только один тип команд и простая лента для ввода и вывода. Тем не менее это устройство - МАШИНА ТЬЮРИНГА, предмет обожания студентов-логиков в последние 40 лет - способно повторить все вычисления любого современного цифрового компьютера. Но какой мерзкой была бы задача промоделировать, скажем, IBM 370/155 на машине Тьюринга! К счастью, перед нами стоит куда более приятная обратная задача.
Машина Тьюринга состоит из УСТРОЙСТВА УПРАВЛЕНИЯ, которое с помощью ГОЛОВКИ связано с ЛЕНТОЙ ВВОДА/ВЫВОДА. Лента - это длинная полоска, разделенная на ячейки, каждая из которых может содержать одну литеру; лента простирается вправо до бесконечности (иными словами, на правом конце ленты находится небольшая фабрика, производящая по мере необходимости дополнительную ленту). Головка указывает на какую-то одну ячейку ленты и может читать содержимое ячейки, записывать и перемещаться вправо или влево. В начале работы исходные данные всегда заполняют левую часть ленты, а головка читает самую левую ячейку ленты. Когда головка, двигаясь вправо, достигает ячейки, которая не является частью исходных данных и никогда ранее не обозревалась головкой, считается, что в этой ячейке записан пробел, обозначаемый /b.
Устройство управления выполняет программу, подчиняясь строгим правилам. В любой момент времени устройство управления находится в некотором СОСТОЯНИИ, которое записано в регистре ТЕКУЩЕЕ СОСТОЯНИЕ. Состояния обозначаются положительными целыми числами. Каждая команда программы представляет собой ПЯТЕРКУ, составленную из состояния, литеры, еще одного состояния, еще одной литеры и направления движения ленты. Цикл выполнения команды начинается с того, что устройство управления сравнивает текущее состояние и литеру на ленте под головкой с первыми двумя компонентами всех команд. По правилам программирования для машины Тьюринга в программе может быть не более одной пятерки с какой-либо определенной начальной парой состояние-литера (но может и не быть ни одной). Когда совпадение найдено, устройство управления выполняет три действия: в ячейку ленты под головкой записывается литера, являющаяся четвертой компонентой пятерки; головка передвигается на одну ячейку влево или вправо или остается на месте, как указано в пятой компоненте пятерки; текущее состояние заменяется на третью компоненту. После этого машина готова к следующему циклу. По соглашению, работа начинается в состоянии 1 при описанном выше состоянии ленты. Машина останавливается, если в цикле выполнения не удается найти совпадения с текущей парой состояние-литера или если головка выходит за левый край ленты; при этом результатом работы считается все, что остается на ленте после остановки. Отметим, что программа может содержать лишь конечное число команд, так что для любой программы осмысленно только конечное число состояний и литер.
Для пояснения изложения полезно привести пример. Пусть мы хотим написать программу для машины Тьюринга, которая будет строить сумму двух целых чисел. Целое число n будет изображаться на ленте n последовательными значками * (отсутствие звездочек соответствует нулю), два исходных числа будут разделены запятой, и если исходные данные представляют n+m, то результатом должны быть n+m звездочек, расположенных у левого края ленты. Так, чтобы вычислить 7+4, следует записать в качестве исходных данных
*******,****
результатом должно быть
***********
Структура программы проста. Сначала головка движется вправо в поисках запятой (не забывайте, что первоначально головка стоит над крайней левой ячейкой исходных данных). Запятая заменяется звездочкой, и головка продолжает движение, отыскивая пробел, ограничивающий справа исходные данные. Головка возвращается на одну ячейку назад и записывает пробел на место находящейся там звездочки, после чего программа завершается. Легко видеть, что при построении суммы одна звездочка добавляется в середине и одна убирается с правого края. Программа приведена в табл. 13.1.
Таблица 13.1. Программа для машины Тьюринга
Чтобы изобразить состояние машины Тьюринга, можно напечатать все ячейки ленты, которые когда-либо рассматривались, и среди них - текущее состояние непосредственно слева от ячейки, находящейся под головкой в данный момент; такой способ мы будем считать стандартным. Мы получаем МОМЕНТАЛЬНЫЙ СНИМОК; следующий пример показывает начало сложения 2 и 3:
1**,***
На рис. 13.1 показана последовательность моментальных снимков для всего вычисления. Отметим, что программа останавливается в состоянии 3, поскольку в ней не предусмотрены действия для пробела. Состояние 4 возникает только, если в исходных данных имеется ошибка; в этом случае машина попадает в бесконечный цикл. Убедитесь, что программа работает, если любое из исходных чисел (или оба) равно нулю.
Рисунок 13.1. Последовательность моментальных снимков.
Наш пример программы может показаться слишком простым. Попробуйте изменить программу, чтобы она выполняла не сложение, а умножение. Для машины Тьюринга единичная система счисления более естественна, чем любая другая; программа сложения десятичных чисел будет длиннее и сложнее. В литературе, указанной в библиографии, можно найти гораздо более подробный материал о машине Тьюринга и обоснование того, что машина Тьюринга может выполнить любое вычисление, выполнимое на какой-либо другой машине. Вы обнаружите небольшие отличия в разных описаниях машины Тьюринга и там же - доказательства того, что эти отличия ни на что не влияют.
ТЕМА. Напишите универсальный имитатор машины Тьюринга. Входными данными будут: программа для машины Тьюринга, ее исходные данные и (по причине, которая будет объяснена позже) начальное состояние машины. Результатом должны быть трассировка работы машины и ее окончательное состояние. Поскольку машина Тьюринга вовсе не всегда останавливается, причем заранее нельзя предсказать, остановится она или нет (если вы не понимаете, почему это так, обратите внимание на проблему остановки), необходимо как-то контролировать объем печати имитатора и расходуемое им время. Проверьте имитатор на нескольких программах, аналогичных рассмотренным выше.
Хотя в нашем описании именами состояний были положительные целые числа, ваш имитатор должен допускать в качестве имени состояния произвольный идентификатор. В предыдущем примере мы могли бы назвать состояния НАЧАЛО, ДВИЖЕНИЕВПРАВО, КОНЕЦ и ОШИБКА, тогда одна из команд могла бы иметь вид
ДВИЖЕНИЕВПРАВО /b КОНЕЦ /b ВЛЕВО
Теперь у нас нет выделенного первого состояния, поэтому его должен указать пользователь.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. При разработке данной программы, как и любого имитатора, перед нами стоит проблема эффективности. Если на протяжении всего выполнения используются имена состояний, то постоянно требуемый поиск займет значительное время. Скорость выполнения будет наибольшей, если представить программу для машины Тьюринга в виде двумерного массива, индексами в котором будут состояния и литеры. Элементы массива содержат команду, которую нужно выполнить; элемент специального вида указывает, что соответствующая пятерка отсутствует. Тут, конечно, определенную трудность представляет незнание необходимого размера этого массива до того, как будут прочитаны исходные данные. Отметим также, что необходимо проверить непротиворечивость исходных данных, т.е, убедиться, что никакие две пятерки не начинаются одной и той же парой состояние-литера.
Трассировочная информация должна печататься после каждого изменения состояния. Она должна включать в себя: содержимое всей ленты до самого правого непробела или до головки, в зависимости от того, что находится правее, положение головки и текущее состояние. Вероятно, содержимое ленты следует напечатать на одной строке, а указатель головки и состояние - на следующей. Руководствуйтесь соображениями красоты и ясности. АЛФАВИТ ЛЕНТЫ, т.е. множество символов, которые могут появляться на ленте, есть просто набор литер, встречающихся где-либо во второй или четвертой компоненте пятерки. Программа должна позволять использовать любую нормальную литеру, имеющуюся в вашей системе. В алфавит всегда входит пробел. Его непросто изобразить в исходных данных, а появляясь в выходной строке, пробелы могут вносить неразбериху. Проблему с вводом можно обойти, если, например, разделять пять компонент команды запятыми. Работа со значащими пробелами часто вызывает затруднения. В ественных языках пробелы осмысленны, но обычно лишь как разделители слов, а не как полноправные символы. Таким образом не существует какого-либо стандартного соглашения об употреблении пробелов в качестве символов.
ИНСТРУМЕНТОВКА. Эта задача представляет собой еще один случай, когда почти любой язык имеет как достоинства, так и недостатки; следует, однако, избегать интерпретативных языков ввиду малого размера внутреннего цикла.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
ЛИТЕРАТУРА
Дэвис (Davis M.). Computability and Unsolvability, McGraw-Hill, New York, NY, 1958.
Дэвис приводит с изматывающими подробностями все те доказательства, которые другие авторы "оставляют читателю". Прочитав Дэвиса от корки до карки, вы уже никогда не усомнитесь в справедливости любого утверждения о мощи машины Тьюринга. Впрочем, вполне возможно, что у вас навсегда пропадет охота что бы то ни было слышать об этой машине.
Хопкрофт, Ульман (Hopcroft J.E., Ullman J.D). Formal Languages and Their Relation to Automata. Addison-Wesley, Reading, MAy 1969.
Книга Хопкрофга и Ульмана - наилучший в своей области учебник для аспирантов первого года обучения. В ней содержатся все основные результаты о машинах Тьюринга, причем они излагаются в контексте других классов автоматов Книга полезна также своей обширной библиографией.
Минский (Minsky M.L.). Computation: Finite and Infinite Machines. Prentice-Hall, Englewood Cliffs NJ, 1967.
Минский дает прекрасное, легко воспринимаемое введение в теорию автоматов. Это, вероятно, наиболее подходящая книга для первого знакомства с предметом.
* Трахтенброт Б.А. Алгоритмы и вычислительные автоматы.- М.: Советское радио, 1974.
ТУР ДО ТЬЮРИНГУ,
ИЛИ...
МОДЕЛИРОВАНИЕ МАШИНЫ ТЬЮРИНГА
Задолго до появления первых универсальных цифровых вычислительных машин вопрос об ограничениях на вычисления, которые могли бы выполнять машины, заинтересовал Алана Тьюринга. Чтобы быть уверенным, что мощь его гипотетической машины не обусловлена каким-либо хитрым механизмом, Тьюринг исключил почти все возможности, которые существенны для реальных компьютеров. Осталась лишь программная память простого вида, не допускающая изменений во время выполнения, только один тип команд и простая лента для ввода и вывода. Тем не менее это устройство - МАШИНА ТЬЮРИНГА, предмет обожания студентов-логиков в последние 40 лет - способно повторить все вычисления любого современного цифрового компьютера. Но какой мерзкой была бы задача промоделировать, скажем, IBM 370/155 на машине Тьюринга! К счастью, перед нами стоит куда более приятная обратная задача.
Машина Тьюринга состоит из УСТРОЙСТВА УПРАВЛЕНИЯ, которое с помощью ГОЛОВКИ связано с ЛЕНТОЙ ВВОДА/ВЫВОДА. Лента - это длинная полоска, разделенная на ячейки, каждая из которых может содержать одну литеру; лента простирается вправо до бесконечности (иными словами, на правом конце ленты находится небольшая фабрика, производящая по мере необходимости дополнительную ленту). Головка указывает на какую-то одну ячейку ленты и может читать содержимое ячейки, записывать и перемещаться вправо или влево. В начале работы исходные данные всегда заполняют левую часть ленты, а головка читает самую левую ячейку ленты. Когда головка, двигаясь вправо, достигает ячейки, которая не является частью исходных данных и никогда ранее не обозревалась головкой, считается, что в этой ячейке записан пробел, обозначаемый /b.
Устройство управления выполняет программу, подчиняясь строгим правилам. В любой момент времени устройство управления находится в некотором СОСТОЯНИИ, которое записано в регистре ТЕКУЩЕЕ СОСТОЯНИЕ. Состояния обозначаются положительными целыми числами. Каждая команда программы представляет собой ПЯТЕРКУ, составленную из состояния, литеры, еще одного состояния, еще одной литеры и направления движения ленты. Цикл выполнения команды начинается с того, что устройство управления сравнивает текущее состояние и литеру на ленте под головкой с первыми двумя компонентами всех команд. По правилам программирования для машины Тьюринга в программе может быть не более одной пятерки с какой-либо определенной начальной парой состояние-литера (но может и не быть ни одной). Когда совпадение найдено, устройство управления выполняет три действия: в ячейку ленты под головкой записывается литера, являющаяся четвертой компонентой пятерки; головка передвигается на одну ячейку влево или вправо или остается на месте, как указано в пятой компоненте пятерки; текущее состояние заменяется на третью компоненту. После этого машина готова к следующему циклу. По соглашению, работа начинается в состоянии 1 при описанном выше состоянии ленты. Машина останавливается, если в цикле выполнения не удается найти совпадения с текущей парой состояние-литера или если головка выходит за левый край ленты; при этом результатом работы считается все, что остается на ленте после остановки. Отметим, что программа может содержать лишь конечное число команд, так что для любой программы осмысленно только конечное число состояний и литер.
Для пояснения изложения полезно привести пример. Пусть мы хотим написать программу для машины Тьюринга, которая будет строить сумму двух целых чисел. Целое число n будет изображаться на ленте n последовательными значками * (отсутствие звездочек соответствует нулю), два исходных числа будут разделены запятой, и если исходные данные представляют n+m, то результатом должны быть n+m звездочек, расположенных у левого края ленты. Так, чтобы вычислить 7+4, следует записать в качестве исходных данных
*******,****
результатом должно быть
***********
Структура программы проста. Сначала головка движется вправо в поисках запятой (не забывайте, что первоначально головка стоит над крайней левой ячейкой исходных данных). Запятая заменяется звездочкой, и головка продолжает движение, отыскивая пробел, ограничивающий справа исходные данные. Головка возвращается на одну ячейку назад и записывает пробел на место находящейся там звездочки, после чего программа завершается. Легко видеть, что при построении суммы одна звездочка добавляется в середине и одна убирается с правого края. Программа приведена в табл. 13.1.
Таблица 13.1. Программа для машины Тьюринга
Чтобы изобразить состояние машины Тьюринга, можно напечатать все ячейки ленты, которые когда-либо рассматривались, и среди них - текущее состояние непосредственно слева от ячейки, находящейся под головкой в данный момент; такой способ мы будем считать стандартным. Мы получаем МОМЕНТАЛЬНЫЙ СНИМОК; следующий пример показывает начало сложения 2 и 3:
1**,***
На рис. 13.1 показана последовательность моментальных снимков для всего вычисления. Отметим, что программа останавливается в состоянии 3, поскольку в ней не предусмотрены действия для пробела. Состояние 4 возникает только, если в исходных данных имеется ошибка; в этом случае машина попадает в бесконечный цикл. Убедитесь, что программа работает, если любое из исходных чисел (или оба) равно нулю.
Рисунок 13.1. Последовательность моментальных снимков.
Наш пример программы может показаться слишком простым. Попробуйте изменить программу, чтобы она выполняла не сложение, а умножение. Для машины Тьюринга единичная система счисления более естественна, чем любая другая; программа сложения десятичных чисел будет длиннее и сложнее. В литературе, указанной в библиографии, можно найти гораздо более подробный материал о машине Тьюринга и обоснование того, что машина Тьюринга может выполнить любое вычисление, выполнимое на какой-либо другой машине. Вы обнаружите небольшие отличия в разных описаниях машины Тьюринга и там же - доказательства того, что эти отличия ни на что не влияют.
ТЕМА. Напишите универсальный имитатор машины Тьюринга. Входными данными будут: программа для машины Тьюринга, ее исходные данные и (по причине, которая будет объяснена позже) начальное состояние машины. Результатом должны быть трассировка работы машины и ее окончательное состояние. Поскольку машина Тьюринга вовсе не всегда останавливается, причем заранее нельзя предсказать, остановится она или нет (если вы не понимаете, почему это так, обратите внимание на проблему остановки), необходимо как-то контролировать объем печати имитатора и расходуемое им время. Проверьте имитатор на нескольких программах, аналогичных рассмотренным выше.
Хотя в нашем описании именами состояний были положительные целые числа, ваш имитатор должен допускать в качестве имени состояния произвольный идентификатор. В предыдущем примере мы могли бы назвать состояния НАЧАЛО, ДВИЖЕНИЕВПРАВО, КОНЕЦ и ОШИБКА, тогда одна из команд могла бы иметь вид
ДВИЖЕНИЕВПРАВО /b КОНЕЦ /b ВЛЕВО
Теперь у нас нет выделенного первого состояния, поэтому его должен указать пользователь.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. При разработке данной программы, как и любого имитатора, перед нами стоит проблема эффективности. Если на протяжении всего выполнения используются имена состояний, то постоянно требуемый поиск займет значительное время. Скорость выполнения будет наибольшей, если представить программу для машины Тьюринга в виде двумерного массива, индексами в котором будут состояния и литеры. Элементы массива содержат команду, которую нужно выполнить; элемент специального вида указывает, что соответствующая пятерка отсутствует. Тут, конечно, определенную трудность представляет незнание необходимого размера этого массива до того, как будут прочитаны исходные данные. Отметим также, что необходимо проверить непротиворечивость исходных данных, т.е, убедиться, что никакие две пятерки не начинаются одной и той же парой состояние-литера.
Трассировочная информация должна печататься после каждого изменения состояния. Она должна включать в себя: содержимое всей ленты до самого правого непробела или до головки, в зависимости от того, что находится правее, положение головки и текущее состояние. Вероятно, содержимое ленты следует напечатать на одной строке, а указатель головки и состояние - на следующей. Руководствуйтесь соображениями красоты и ясности. АЛФАВИТ ЛЕНТЫ, т.е. множество символов, которые могут появляться на ленте, есть просто набор литер, встречающихся где-либо во второй или четвертой компоненте пятерки. Программа должна позволять использовать любую нормальную литеру, имеющуюся в вашей системе. В алфавит всегда входит пробел. Его непросто изобразить в исходных данных, а появляясь в выходной строке, пробелы могут вносить неразбериху. Проблему с вводом можно обойти, если, например, разделять пять компонент команды запятыми. Работа со значащими пробелами часто вызывает затруднения. В ественных языках пробелы осмысленны, но обычно лишь как разделители слов, а не как полноправные символы. Таким образом не существует какого-либо стандартного соглашения об употреблении пробелов в качестве символов.
ИНСТРУМЕНТОВКА. Эта задача представляет собой еще один случай, когда почти любой язык имеет как достоинства, так и недостатки; следует, однако, избегать интерпретативных языков ввиду малого размера внутреннего цикла.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
ЛИТЕРАТУРА
Дэвис (Davis M.). Computability and Unsolvability, McGraw-Hill, New York, NY, 1958.
Дэвис приводит с изматывающими подробностями все те доказательства, которые другие авторы "оставляют читателю". Прочитав Дэвиса от корки до карки, вы уже никогда не усомнитесь в справедливости любого утверждения о мощи машины Тьюринга. Впрочем, вполне возможно, что у вас навсегда пропадет охота что бы то ни было слышать об этой машине.
Хопкрофт, Ульман (Hopcroft J.E., Ullman J.D). Formal Languages and Their Relation to Automata. Addison-Wesley, Reading, MAy 1969.
Книга Хопкрофга и Ульмана - наилучший в своей области учебник для аспирантов первого года обучения. В ней содержатся все основные результаты о машинах Тьюринга, причем они излагаются в контексте других классов автоматов Книга полезна также своей обширной библиографией.
Минский (Minsky M.L.). Computation: Finite and Infinite Machines. Prentice-Hall, Englewood Cliffs NJ, 1967.
Минский дает прекрасное, легко воспринимаемое введение в теорию автоматов. Это, вероятно, наиболее подходящая книга для первого знакомства с предметом.
* Трахтенброт Б.А. Алгоритмы и вычислительные автоматы.- М.: Советское радио, 1974.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
14
МАШИННЫЕ ЗАБАВЫ,
ИЛИ...
СТРАТЕГИЯ КОМПЬЮТЕРА ПРИ ИГРЕ В КАЛАХ
Дискуссии о "разумном" поведении компьютеров начались задолго до появления реальных вычислительных машин. Многие согласятся, что высокое мастерство в какой-либо интеллектуальной игре, не поддающейся полному анализу, должно свидетельствовать о незаурядных умственных способностях игрока. Если компьютер к тому же обучаем, то отрицать его интеллект еще труднее. Говоря о машинной игре, чаще всего имеют в виду шахматы, однако даже самые лучшие программы оказываются на уровне весьма посредственных шахматистов. Но в других играх можно достичь большего успеха.
Калах, известный также и под другими названиями (манкала, вари, озари),- это старинная африканская игра. По ее теории написано очень мало, тем не менее в течение столетий в калах играют с помощью камешков представители самых разных культур. Хотя игра эта - чистая борьба умов, не содержащая какого-либо случайного элемента, африканцы режутся в нее постоянно. Благодаря нехитрому инвентарю и простым правилам, калах великолепно подходит и для игры с машиной. Как показывают современные исследования, компьютер с программой наподобие предлагаемой здесь играет в калах лучше любого человека.
Игровое поле для калаха схематически изображено на рис.14.1. Игроки (их двое) садятся друг против друга. Каждому игроку принадлежат шесть малых ЛУНОК вдоль длинной стороны поля и одна лунка большего размера по его правую руку, называемая КАЛАХОМ. В начале игры в каждую малую лунку помещается некоторое количество k КАМНЕЙ (для k<=3 известно полное решение; африканцы обычно используют k=6). Ход игрока заключается в том, что он забирает все камни в одной из малых лунок на своей стороне и раскладывает их по одному в остальные лунки, двигаясь против часовой стрелки. Первый камень кладется в лунку справа от той, из которых взяты камни, затем в следующие, включая свой калах и малые лунки противника, но не калах противника. Может случиться (и это допускается правилами), что раскладывая камни, мы обойдем всю доску и вернемся в исходную лунку или даже пройдем дальше. На рис.14.2a и b, показаны позиции до и после выполнения такого циклического хода.
Рисунок 14.1. Игровое поле для калаха. Числа в лунках показывают количество находящихся там камней.
Рисунок 14.2a. Перед циклическим ходом Макса. Макс ходит из лунки 6.
Рисунок 14.2b. После циклического хода Макса. Калах Макса полнялся дважды.
Есть два дополнения к правилу выполнения хода. Если последний камень попал в одну из непустых малых лунок игрока, делавшего ход, причем камни клались и в лунки противника, то делается ПОВТОРНЫЙ ХОД из лунки, в которую попал последний камень, по тем же правилам, что и первый. Игрок может сделать сколь угодно длинную серию повторных ходов. Если последний камень попал в одну из малых лунок противника, и в этой лунке стало два или три камня, то эти камни БЕРУТСЯ В ПЛЕН и помещаются в калах игрока, сделавшего ход. Если при пленении в предыдущей лунке также оказалось два или три камня, то и они забираются в плен. Теоретически игрок может за один ход полностью очистить сторону противника. Игра оканчивается, как только в калахе одного из игроков окажется больше половины всех камней (заметим, что если камень попал в калах, то он уже никогда его не покинет). Если у игрока, получившего очередь хода, не осталось ни одного камня в малых лунках, то игра немедленно прекращается и все камни противника попадают в калах противника. На рис. с 14.3 по 14.5 показаны некоторые типичные ходы.
Рисунок 14.3a. Серия ходов из лунки 6 Макса. Последний камень попадает в лунку 3 Макса, и иэ этой лунки делается повторный ход.
Рисунок 14.3b. После серии ходов. Камни из лунки 3 разложены в следующие лунки.
Рисунок 14.4a. Перед взятием в плен камней Мина. Ходом из лунки 3 Макс попадает в лунку 4 Мина.
Рисунок 14.4b. После взятия в плен камней из лунки 4 Мина. В калах Макса один камень попадает при раскладывании камней и еще три - при пленении.
Рисунок 14.5a. Многократный захват пленных Максом. Камни из лунок Мина 2, 3 и 4 берутся в плен одним ходом из лунки 6.
Рисунок 14.5b. Макс почти опустошил лунки Мина. Отметим, что Макс мог бы сделать ход с пленением из лунки 5 вместо лунки 6.
Программа для проверки правильности хода весьма проста. Выбор игрока ограничен максимум шестью возможностями для хода. После того как начальная лунка выбрана, легко находятся повторные ходы и взятия в плен. Для проверки окончания игры после хода надо лишь сравнить калах игрока, делавшего ход, с половиной общего числа камней. Конечно, отсюда никоим образом не следует, как находить наилучший в данной позиции ход.
Основная идея выбора хода состоит в построении дерева всех возможных продолжений из заданной позиции. Затем мы выбираем такую ветвь дерева, которая обеспечивает в конце концов победу. Для простоты изложения и еще по одной причине, которая вскоре станет понятной, мы будем называть компьютер Максом, а его противника - Мином. Предположим, что где-то в середине игры настала очередь хода компьютера. Макс может попытаться оценить положение, испробовав поочередно каждый из шести возможных ходов. Если один из них сразу же приводит к выигрышу, то Максу, очевидно, следует делать именно этот ход. Но что делать Максу, если ни один ход не ведет к немедленной победе? Как выбрать ход?
Максу следует проанализировать каждый ответ Мина на свои ходы. Допустим, один из этих ответов приводит к выигрышу Мина. Со стороны Макса было бы глупо делать ход, дающий Мину шанс на немедленную победу (хотя иногда Максу не избежать этого). В таком случае Макс узнает, какие ходы не делать. Однако, чтобы выбрать, какой ход делать, Максу придется построить еще один уровень ответов на ответы Мина к исходным ходам Макса. Если можно найти выигрышный ответ для некоторого множества ответов Мина, то Максу следует выбрать тот первоначальный ход, при котором Мину остаются только ответы, для которых есть выигрышный ответ Макса (помните дом, который построил Джек?). Если все это непонятно, попробуйте найти ходы, ответы и ответы на ответы для позиции с рис.14.6.
Рисунок 14.6a. Ход Макса. Макс ходит из лунки 1.
Рисунок 14.6b. Результат хода Макса. Мин отвечает ходом из лунки 6.
Рисунок 14.6c. Позиция после ответа Мина. [Почему нет пленения?- G.] Макс отвечает ходом из лунки 2.
Рисунок 14.6d. Позиция после ответа Макса. Это всего лишь одна из примерно 6**3 подобных цепочек ходов.
Однако может оказаться недостаточным заглядывать вперед на два уровня. Несмотря на то что игра в калах обязательно кончается [Попав в калах, камень уже никогда не покинет его. Кроме того, не существует циклических последовательностей ходов, приводящих к исходной позиции, поскольку любой ход либо помещает в калах хотя бы один камень, либо перемещает некоторые камни ближе к калаху. Если реализовать изменение, упомянутое в следующем абзаце, то любая игра должна заканчиваться в состоянии, когда все камни лежат в одном из двух калахов], предсказать, насколько далеко нужно заглянуть вперед, чтобы найти конец, оказывается весьма трудно. Каждый следующий уровень требует примерно в шесть раз больше времени и памяти, чем предыдущий.
Надо что-то предпринять, чтобы остановить этот рост.
Этой цели служит СТАТИЧЕСКАЯ ОЦЕНОЧНАЯ ФУНКЦИЯ, дающая оценку позиции без построения дерева. В калахе мы воспользуемся РАЗНИЦЕЙ ОЧКОВ, получаемой как разность числа камней в калахах Макса и Мина. Если слегка изменить правила, потребовав, чтобы в калах победившего игрока сразу же перекладывались все камни, то разница очков всегда будет положительной, когда Макс имеет преимущество, а когда Макс выиграет, разница очков станет максимально возможной. Теперь Макс может выбирать тот из шести ходов, который максимизирует (не зря его зовут Макс) статическую оценочную фунцию. Если два хода одинаковы с этой точки зрения, Макс может выбрать любой из них случайным образом.
Ну вот мы и ответили на вопрос о стратегии Макса. Так ли это? Если бы этим исчерпывалась стратегия калаха, то такая игра немногого бы стоила. Ведь Мин может ставить Максу ловушки, и, чтобы их избежать, Максу нужно смотреть вперед. Статическую оценку можно применять к позициям, лежащим глубоко в дереве и не являющимся заведомо выигрышными или проигрышными.
Пусть Макс хочет заглянуть вперед на d уровней. Будем считать, что начальная позиция лежит на уровне 0. Постройте все шесть мыслимых ходов, приводящих нас на уровень 1. Применяя к каждой позиции уровня 1 ходы Мина, получите все позиции уровня 2. Продолжайте в том же духе, пока не построите все дерево вплоть до уровня d. Иногда может оказаться, что не все шесть ходов возможны, поскольку одна или несколько лунок пусты. Кроме того, некоторая ветвь может окончиться из-за хода, завершающего игру. Заметим, что все ходы на четных уровнях делает Макс, а на нечетных - Мин.
Теперь, чтобы перенести оценку с уровня d на уровень 0, выполните следующие действия на всех уровнях, начиная с уровня d и кончая нулевым. Примените статическую оценочную функцию ко всем ЛИСТЬЯМ на рассматриваемом уровне. Это дает разницу очков в листьях. Для нелистовых узлов постройте оценку разницы очков, найдя максимум оценок по всем непосредственным преемникам данного узла, если он находится на четном уровне, и минимум, если узел - на нечетном уровне. Такой способ действий отвечает стремлению Макса максимизировать разрыв и стремлению Мина минимизировать его (или сделать более отрицательным). После того как пройден весь путь до нулевого уровня и найдена разница очков в исходном узле, выберите любой из шести ходов, позволяющий получить эту разницу очков. Отметим, что, как правило, все листья будут находиться на уровне d. Кроме того, при построении дерева можно всегда проходить каждую ветвь сначала вглубь, т.е. строить дерево в порядке ПЕРЕБОРА В ГЛУБИНУ, а не в порядке ПЕРЕБОРА В ШИРИНУ, как описано [Перебор в ширину называют также полным перебором.- Прим. перев.]). На рис.14.7 показана часть возможного дерева игры. До листьев доведена лишь одна ветвь. Изображены правильные значения, вычисленные исходя из показанной на рисунке информации. Максу следует выбрать ход из лунки 1.
Рисунок 14.7. Возможное дерево игры. Полностью показан только один путь до низа дерева. Предполагается, что значения в кружках получены из анализа нижних уровней.
По сути дела, мы сейчас описали МИНИМАКСНУЮ ПРОЦЕДУРУ для игры двух лиц. Как нетрудно видеть, для анализа на d уровней вперед необходимо построить около
Сумма(i от 1 до 6) 6**i ~ 6**(d++1)
позиций. Ввиду очень быстрого роста этой функции желательно иметь какое-либо средство, экономящее усилия. АЛЬФА-БЕТА-ПРОЦЕДУРА при том же объеме работы позволяет иногда провести анализ на вдвое большую глубину.
Идея этой процедуры обобщает рассмотренный пример. Допустим, что в некотором внутреннем узле A дерева ход должен сделать Макс и что он с помощью перебора в глубину уже построил полное дерево B для хода из лунки 1 и дерево C для хода из лунки 2. Предположим далее, что оценка, вычисленная при анализе дерева, равна 1 для узла B и 2 - для C. Тогда можно приписать узлу А ПРЕДВАРИТЕЛЬНУЮ ОЦЕНКУ (ПО), равную 2. Что бы ни случилось, Макс может отвергнуть любой ход из А с оценкой меньше 2. Допустим теперь, что Макс начинает строить дерево для хода из лунки 3 в узел D. В узле D ход Мина. Как только D получит ПО, равную или меньшую 2, дальнейшее построение дерева ниже D окажется уже ненужным. Действительно, Мин заведомо не выберет ход с оценкой больше 2, если доступно значение 2 или меньше. Но тогда узел D не будет интересовать Макса, коль скоро он уже имеет возможность получить 2. Итак, можно прекратить раскрытие узла D. Обсуждавшееся дерево показано на рис.14.8.
Рисунок 14.8. Часть дерева для альфа-бета-процедуры, описанного в тексте. Как только ПО в узле D опустится ниже 3, можно прекращать раскрытие узла D и его преемников.
АЛЬФА-БЕТА-ПРОЦЕДУРА
Для выполнения альфа-бета-процедуры поиска минимакса начните с перебора дерева игры в глубину. Каждому узлу приписывается предварительная оценка (ПО) и ОКОНЧАТЕЛЬНАЯ ОЦЕНКА (ОО). Для листьев как ПО, так и ОО равна статической оценке. ПО во внутренних узлах Макса равна максимуму из
ОО преемников этого узла, в узлах Мина - минимуму. Всякий раз, когда ПО меняется, мы проверяем, не следует ли прекратить раскрытие этого узла. (Первоначально ПО равна -бесконечность во внутренних узлах Макса и +бесконечность во внутренних узлах Мина). В узле Макса происходит ОТСЕЧЕНИЕ всякий раз, как только ПО этого узла становится не меньше ПО какого-либо предшественника этого узла, принадлежащего Мину [Достаточно проверить только непосредственный предшественник, при этом будут найдены все отсечения.- Прим. перев.]). Аналогично в узле Мина отсечение происходит, когда его ПО становится не больше ПО какого-либо из предшественников, принадлежащего Максу [Аналогично]). При отсечении узла его ПО становится его ОО. Вам следует убедиться, что альфа-бета-процедура всегда выбирает тот же ход, что и обычная минимаксная процедура.
ТЕМА. Напишите программу для игры в калах, использующую альфа-бета-процедуру. Ваша программа должна уметь играть как против человека за терминалом, так и против самой себя. Следует предусмотреть возможность изменения глубины d просмотра, числа к камней в каждой лунке, а также замены игрока, делающего первый ход. Вывод позиций и ввод ходов следует представить в наиболее удобной форме. По требованию программа должна выдавать на печать дерево ходов. Чтобы с программой было интересно играть, она должна случайным образом выбирать ход из нескольких равноправных (как обычно, эту возможность следует отключать на время отладки).
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Несмотря на многословное описание, сама программа для игры в калах довольно проста. Основную трудность составляет построение структуры данных для представления игровых деревьев и обеспечение должного порядка создания и уничтожения этих деревьев. Вам, вероятно, придется написать свои собственные программы, которые будут выделять пространство для деревьев и собирать освобождающуюся память. Требование эффективности по времени работы накладывает ограничение на глубину просмотра; учитывайте это в программах порождения дерева. Вероятно, имеет смысл обеспечить относительную независимость минимаксной процедуры от остальной части программы, с тем чтобы изменения минимаксной процедуры не влияли на всю программу.
ИНСТРУМЕНТОВКА. Здесь мы еще раз встречаемся с задачей, для решения которой требуются, по-видимому, противоречивые свойства языка: мощные структуры данных, удобные управляющие структуры и эффективность выполнения. В этом смысле наиболее удачным языком представляется Паскаль, в особенности если избегать широкого использования его возможностей по выделению и освобождению памяти для данных. Для реализации поиска по дереву сами собой напрашиваются рекурсивные процедуры, но они дороги. Попробуйте применить вместо них средства языка, позволяющие преобразовать рекурсию в итеративный обход структур данных.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели.
РАЗВИТИЕ ТЕМЫ. Хотя в литературе, указанной в библиографии, содержится большое число модификаций альфа-бета-процедуры, мы обсудим здесь только две из них. В первой делается попытка повысить эффективность отсечения. Работа альфа-бета-процедуры основана на том, что хорошие ходы (за обоих игроков) прекращают анализ худших ходов. Поэтому, чем раньше мы будем находить хорошие ходы, тем чаще будут отсекаться плохие. Итак, следует попытаться в первую очередь раскрывать хорошие ходы. В методе С ФИКСИРОВАННЫМ УПОРЯДОЧЕНИЕМ непосредственные преемники узла упорядочиваются с помощью статической оценочной функций до их анализа. Первым раскрывается узел с наилучшей оценкой. Статическая оценочная функция, как мы надеемся, хорошо предсказывает окончательный результат, получаемый с помощью просмотра, следовательно, эта процедура повышает вероятность того, что сначала будут рассматриваться хорошие ходы. В узлах Мина в первую очередь следует рассматривать преемники с минимальной оценкой.
Еще одно общение состоит в изменении статической оценочной функции. Часто используют оценку, равную разности числа всех камней на стороне Макса (в калахе и лунках) и числа камней на стороне Мииа. Можно применить любую простую линейную функцию от 14 значений для всех лунок. Наилучшую такую функцию можно выбрать при помощи турнира {это было рассмотрено в гл.5). Не забывайте, однако, что главным фактором, определяющим силу игрока, является, по всей видимости, глубина просмотра.
ЛИТЕРАТУРА
Алеф0 (Aleph0). Computer Recreations. Software - Practice and Experience, 1, pp.297-300, 1971.
В этой статье описывается с внешней стороны программа игры в калах и дается некоторый исторический обзор подобных программ. Имеется полезная библиография.
Белл (Bell R.С.). Board and Table Games from Many Civilizations. Oxford Unшversity Press, London, 1969.
В гл.4 Белл описывает несколько вариантов игры манкала. Книга представляет интерес для широкого круга читателей благодаря обширным сведениям об играх и об истории культуры.
Нильсон (Nilsson N.J.). Problem-Solving Methods in Artificial Intelligence. McGraw-Hiil, New York, NY, 1971. [Имеется перевод: Нильсон H. Искусственный интеллект. Методы поиска решений.- М.: Мир, 1973]
Книга Нильсона, вероятно, наилучшее введение в эту дисциплину. В гл.6 очень понятно разобраны минимаксные методы. Даются ценные рекомендации по дальнейшему чтению.
Слэйгл {Slagle J.R.). Artificial Intelligence: The Heuristic Programming Approach. McGraw-Hill, New York, NY, 1971. [Имеется перевод: Слэйгл Дж. Искусственный интеллект. Подход на основе эвристического программирования.- М.: Мир, 1973]
Слэйгл также дает хороший обзор области искусственного интеллекта. Он экспериментировал с калахом, и поэтому в книге приводится ряд подробностей об этой игре.
* "Наука и жизнь", #12, 1971. Описывается программа игры в калах, разработанная в ВЦ Ленинградского университета. Правила игры, используемые этой программой, сильно отличаются от описанных в настоящей книге.
МАШИННЫЕ ЗАБАВЫ,
ИЛИ...
СТРАТЕГИЯ КОМПЬЮТЕРА ПРИ ИГРЕ В КАЛАХ
Дискуссии о "разумном" поведении компьютеров начались задолго до появления реальных вычислительных машин. Многие согласятся, что высокое мастерство в какой-либо интеллектуальной игре, не поддающейся полному анализу, должно свидетельствовать о незаурядных умственных способностях игрока. Если компьютер к тому же обучаем, то отрицать его интеллект еще труднее. Говоря о машинной игре, чаще всего имеют в виду шахматы, однако даже самые лучшие программы оказываются на уровне весьма посредственных шахматистов. Но в других играх можно достичь большего успеха.
Калах, известный также и под другими названиями (манкала, вари, озари),- это старинная африканская игра. По ее теории написано очень мало, тем не менее в течение столетий в калах играют с помощью камешков представители самых разных культур. Хотя игра эта - чистая борьба умов, не содержащая какого-либо случайного элемента, африканцы режутся в нее постоянно. Благодаря нехитрому инвентарю и простым правилам, калах великолепно подходит и для игры с машиной. Как показывают современные исследования, компьютер с программой наподобие предлагаемой здесь играет в калах лучше любого человека.
Игровое поле для калаха схематически изображено на рис.14.1. Игроки (их двое) садятся друг против друга. Каждому игроку принадлежат шесть малых ЛУНОК вдоль длинной стороны поля и одна лунка большего размера по его правую руку, называемая КАЛАХОМ. В начале игры в каждую малую лунку помещается некоторое количество k КАМНЕЙ (для k<=3 известно полное решение; африканцы обычно используют k=6). Ход игрока заключается в том, что он забирает все камни в одной из малых лунок на своей стороне и раскладывает их по одному в остальные лунки, двигаясь против часовой стрелки. Первый камень кладется в лунку справа от той, из которых взяты камни, затем в следующие, включая свой калах и малые лунки противника, но не калах противника. Может случиться (и это допускается правилами), что раскладывая камни, мы обойдем всю доску и вернемся в исходную лунку или даже пройдем дальше. На рис.14.2a и b, показаны позиции до и после выполнения такого циклического хода.
Рисунок 14.1. Игровое поле для калаха. Числа в лунках показывают количество находящихся там камней.
Рисунок 14.2a. Перед циклическим ходом Макса. Макс ходит из лунки 6.
Рисунок 14.2b. После циклического хода Макса. Калах Макса полнялся дважды.
Есть два дополнения к правилу выполнения хода. Если последний камень попал в одну из непустых малых лунок игрока, делавшего ход, причем камни клались и в лунки противника, то делается ПОВТОРНЫЙ ХОД из лунки, в которую попал последний камень, по тем же правилам, что и первый. Игрок может сделать сколь угодно длинную серию повторных ходов. Если последний камень попал в одну из малых лунок противника, и в этой лунке стало два или три камня, то эти камни БЕРУТСЯ В ПЛЕН и помещаются в калах игрока, сделавшего ход. Если при пленении в предыдущей лунке также оказалось два или три камня, то и они забираются в плен. Теоретически игрок может за один ход полностью очистить сторону противника. Игра оканчивается, как только в калахе одного из игроков окажется больше половины всех камней (заметим, что если камень попал в калах, то он уже никогда его не покинет). Если у игрока, получившего очередь хода, не осталось ни одного камня в малых лунках, то игра немедленно прекращается и все камни противника попадают в калах противника. На рис. с 14.3 по 14.5 показаны некоторые типичные ходы.
Рисунок 14.3a. Серия ходов из лунки 6 Макса. Последний камень попадает в лунку 3 Макса, и иэ этой лунки делается повторный ход.
Рисунок 14.3b. После серии ходов. Камни из лунки 3 разложены в следующие лунки.
Рисунок 14.4a. Перед взятием в плен камней Мина. Ходом из лунки 3 Макс попадает в лунку 4 Мина.
Рисунок 14.4b. После взятия в плен камней из лунки 4 Мина. В калах Макса один камень попадает при раскладывании камней и еще три - при пленении.
Рисунок 14.5a. Многократный захват пленных Максом. Камни из лунок Мина 2, 3 и 4 берутся в плен одним ходом из лунки 6.
Рисунок 14.5b. Макс почти опустошил лунки Мина. Отметим, что Макс мог бы сделать ход с пленением из лунки 5 вместо лунки 6.
Программа для проверки правильности хода весьма проста. Выбор игрока ограничен максимум шестью возможностями для хода. После того как начальная лунка выбрана, легко находятся повторные ходы и взятия в плен. Для проверки окончания игры после хода надо лишь сравнить калах игрока, делавшего ход, с половиной общего числа камней. Конечно, отсюда никоим образом не следует, как находить наилучший в данной позиции ход.
Основная идея выбора хода состоит в построении дерева всех возможных продолжений из заданной позиции. Затем мы выбираем такую ветвь дерева, которая обеспечивает в конце концов победу. Для простоты изложения и еще по одной причине, которая вскоре станет понятной, мы будем называть компьютер Максом, а его противника - Мином. Предположим, что где-то в середине игры настала очередь хода компьютера. Макс может попытаться оценить положение, испробовав поочередно каждый из шести возможных ходов. Если один из них сразу же приводит к выигрышу, то Максу, очевидно, следует делать именно этот ход. Но что делать Максу, если ни один ход не ведет к немедленной победе? Как выбрать ход?
Максу следует проанализировать каждый ответ Мина на свои ходы. Допустим, один из этих ответов приводит к выигрышу Мина. Со стороны Макса было бы глупо делать ход, дающий Мину шанс на немедленную победу (хотя иногда Максу не избежать этого). В таком случае Макс узнает, какие ходы не делать. Однако, чтобы выбрать, какой ход делать, Максу придется построить еще один уровень ответов на ответы Мина к исходным ходам Макса. Если можно найти выигрышный ответ для некоторого множества ответов Мина, то Максу следует выбрать тот первоначальный ход, при котором Мину остаются только ответы, для которых есть выигрышный ответ Макса (помните дом, который построил Джек?). Если все это непонятно, попробуйте найти ходы, ответы и ответы на ответы для позиции с рис.14.6.
Рисунок 14.6a. Ход Макса. Макс ходит из лунки 1.
Рисунок 14.6b. Результат хода Макса. Мин отвечает ходом из лунки 6.
Рисунок 14.6c. Позиция после ответа Мина. [Почему нет пленения?- G.] Макс отвечает ходом из лунки 2.
Рисунок 14.6d. Позиция после ответа Макса. Это всего лишь одна из примерно 6**3 подобных цепочек ходов.
Однако может оказаться недостаточным заглядывать вперед на два уровня. Несмотря на то что игра в калах обязательно кончается [Попав в калах, камень уже никогда не покинет его. Кроме того, не существует циклических последовательностей ходов, приводящих к исходной позиции, поскольку любой ход либо помещает в калах хотя бы один камень, либо перемещает некоторые камни ближе к калаху. Если реализовать изменение, упомянутое в следующем абзаце, то любая игра должна заканчиваться в состоянии, когда все камни лежат в одном из двух калахов], предсказать, насколько далеко нужно заглянуть вперед, чтобы найти конец, оказывается весьма трудно. Каждый следующий уровень требует примерно в шесть раз больше времени и памяти, чем предыдущий.
Надо что-то предпринять, чтобы остановить этот рост.
Этой цели служит СТАТИЧЕСКАЯ ОЦЕНОЧНАЯ ФУНКЦИЯ, дающая оценку позиции без построения дерева. В калахе мы воспользуемся РАЗНИЦЕЙ ОЧКОВ, получаемой как разность числа камней в калахах Макса и Мина. Если слегка изменить правила, потребовав, чтобы в калах победившего игрока сразу же перекладывались все камни, то разница очков всегда будет положительной, когда Макс имеет преимущество, а когда Макс выиграет, разница очков станет максимально возможной. Теперь Макс может выбирать тот из шести ходов, который максимизирует (не зря его зовут Макс) статическую оценочную фунцию. Если два хода одинаковы с этой точки зрения, Макс может выбрать любой из них случайным образом.
Ну вот мы и ответили на вопрос о стратегии Макса. Так ли это? Если бы этим исчерпывалась стратегия калаха, то такая игра немногого бы стоила. Ведь Мин может ставить Максу ловушки, и, чтобы их избежать, Максу нужно смотреть вперед. Статическую оценку можно применять к позициям, лежащим глубоко в дереве и не являющимся заведомо выигрышными или проигрышными.
Пусть Макс хочет заглянуть вперед на d уровней. Будем считать, что начальная позиция лежит на уровне 0. Постройте все шесть мыслимых ходов, приводящих нас на уровень 1. Применяя к каждой позиции уровня 1 ходы Мина, получите все позиции уровня 2. Продолжайте в том же духе, пока не построите все дерево вплоть до уровня d. Иногда может оказаться, что не все шесть ходов возможны, поскольку одна или несколько лунок пусты. Кроме того, некоторая ветвь может окончиться из-за хода, завершающего игру. Заметим, что все ходы на четных уровнях делает Макс, а на нечетных - Мин.
Теперь, чтобы перенести оценку с уровня d на уровень 0, выполните следующие действия на всех уровнях, начиная с уровня d и кончая нулевым. Примените статическую оценочную функцию ко всем ЛИСТЬЯМ на рассматриваемом уровне. Это дает разницу очков в листьях. Для нелистовых узлов постройте оценку разницы очков, найдя максимум оценок по всем непосредственным преемникам данного узла, если он находится на четном уровне, и минимум, если узел - на нечетном уровне. Такой способ действий отвечает стремлению Макса максимизировать разрыв и стремлению Мина минимизировать его (или сделать более отрицательным). После того как пройден весь путь до нулевого уровня и найдена разница очков в исходном узле, выберите любой из шести ходов, позволяющий получить эту разницу очков. Отметим, что, как правило, все листья будут находиться на уровне d. Кроме того, при построении дерева можно всегда проходить каждую ветвь сначала вглубь, т.е. строить дерево в порядке ПЕРЕБОРА В ГЛУБИНУ, а не в порядке ПЕРЕБОРА В ШИРИНУ, как описано [Перебор в ширину называют также полным перебором.- Прим. перев.]). На рис.14.7 показана часть возможного дерева игры. До листьев доведена лишь одна ветвь. Изображены правильные значения, вычисленные исходя из показанной на рисунке информации. Максу следует выбрать ход из лунки 1.
Рисунок 14.7. Возможное дерево игры. Полностью показан только один путь до низа дерева. Предполагается, что значения в кружках получены из анализа нижних уровней.
По сути дела, мы сейчас описали МИНИМАКСНУЮ ПРОЦЕДУРУ для игры двух лиц. Как нетрудно видеть, для анализа на d уровней вперед необходимо построить около
Сумма(i от 1 до 6) 6**i ~ 6**(d++1)
позиций. Ввиду очень быстрого роста этой функции желательно иметь какое-либо средство, экономящее усилия. АЛЬФА-БЕТА-ПРОЦЕДУРА при том же объеме работы позволяет иногда провести анализ на вдвое большую глубину.
Идея этой процедуры обобщает рассмотренный пример. Допустим, что в некотором внутреннем узле A дерева ход должен сделать Макс и что он с помощью перебора в глубину уже построил полное дерево B для хода из лунки 1 и дерево C для хода из лунки 2. Предположим далее, что оценка, вычисленная при анализе дерева, равна 1 для узла B и 2 - для C. Тогда можно приписать узлу А ПРЕДВАРИТЕЛЬНУЮ ОЦЕНКУ (ПО), равную 2. Что бы ни случилось, Макс может отвергнуть любой ход из А с оценкой меньше 2. Допустим теперь, что Макс начинает строить дерево для хода из лунки 3 в узел D. В узле D ход Мина. Как только D получит ПО, равную или меньшую 2, дальнейшее построение дерева ниже D окажется уже ненужным. Действительно, Мин заведомо не выберет ход с оценкой больше 2, если доступно значение 2 или меньше. Но тогда узел D не будет интересовать Макса, коль скоро он уже имеет возможность получить 2. Итак, можно прекратить раскрытие узла D. Обсуждавшееся дерево показано на рис.14.8.
Рисунок 14.8. Часть дерева для альфа-бета-процедуры, описанного в тексте. Как только ПО в узле D опустится ниже 3, можно прекращать раскрытие узла D и его преемников.
АЛЬФА-БЕТА-ПРОЦЕДУРА
Для выполнения альфа-бета-процедуры поиска минимакса начните с перебора дерева игры в глубину. Каждому узлу приписывается предварительная оценка (ПО) и ОКОНЧАТЕЛЬНАЯ ОЦЕНКА (ОО). Для листьев как ПО, так и ОО равна статической оценке. ПО во внутренних узлах Макса равна максимуму из
ОО преемников этого узла, в узлах Мина - минимуму. Всякий раз, когда ПО меняется, мы проверяем, не следует ли прекратить раскрытие этого узла. (Первоначально ПО равна -бесконечность во внутренних узлах Макса и +бесконечность во внутренних узлах Мина). В узле Макса происходит ОТСЕЧЕНИЕ всякий раз, как только ПО этого узла становится не меньше ПО какого-либо предшественника этого узла, принадлежащего Мину [Достаточно проверить только непосредственный предшественник, при этом будут найдены все отсечения.- Прим. перев.]). Аналогично в узле Мина отсечение происходит, когда его ПО становится не больше ПО какого-либо из предшественников, принадлежащего Максу [Аналогично]). При отсечении узла его ПО становится его ОО. Вам следует убедиться, что альфа-бета-процедура всегда выбирает тот же ход, что и обычная минимаксная процедура.
ТЕМА. Напишите программу для игры в калах, использующую альфа-бета-процедуру. Ваша программа должна уметь играть как против человека за терминалом, так и против самой себя. Следует предусмотреть возможность изменения глубины d просмотра, числа к камней в каждой лунке, а также замены игрока, делающего первый ход. Вывод позиций и ввод ходов следует представить в наиболее удобной форме. По требованию программа должна выдавать на печать дерево ходов. Чтобы с программой было интересно играть, она должна случайным образом выбирать ход из нескольких равноправных (как обычно, эту возможность следует отключать на время отладки).
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Несмотря на многословное описание, сама программа для игры в калах довольно проста. Основную трудность составляет построение структуры данных для представления игровых деревьев и обеспечение должного порядка создания и уничтожения этих деревьев. Вам, вероятно, придется написать свои собственные программы, которые будут выделять пространство для деревьев и собирать освобождающуюся память. Требование эффективности по времени работы накладывает ограничение на глубину просмотра; учитывайте это в программах порождения дерева. Вероятно, имеет смысл обеспечить относительную независимость минимаксной процедуры от остальной части программы, с тем чтобы изменения минимаксной процедуры не влияли на всю программу.
ИНСТРУМЕНТОВКА. Здесь мы еще раз встречаемся с задачей, для решения которой требуются, по-видимому, противоречивые свойства языка: мощные структуры данных, удобные управляющие структуры и эффективность выполнения. В этом смысле наиболее удачным языком представляется Паскаль, в особенности если избегать широкого использования его возможностей по выделению и освобождению памяти для данных. Для реализации поиска по дереву сами собой напрашиваются рекурсивные процедуры, но они дороги. Попробуйте применить вместо них средства языка, позволяющие преобразовать рекурсию в итеративный обход структур данных.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 4 недели.
РАЗВИТИЕ ТЕМЫ. Хотя в литературе, указанной в библиографии, содержится большое число модификаций альфа-бета-процедуры, мы обсудим здесь только две из них. В первой делается попытка повысить эффективность отсечения. Работа альфа-бета-процедуры основана на том, что хорошие ходы (за обоих игроков) прекращают анализ худших ходов. Поэтому, чем раньше мы будем находить хорошие ходы, тем чаще будут отсекаться плохие. Итак, следует попытаться в первую очередь раскрывать хорошие ходы. В методе С ФИКСИРОВАННЫМ УПОРЯДОЧЕНИЕМ непосредственные преемники узла упорядочиваются с помощью статической оценочной функций до их анализа. Первым раскрывается узел с наилучшей оценкой. Статическая оценочная функция, как мы надеемся, хорошо предсказывает окончательный результат, получаемый с помощью просмотра, следовательно, эта процедура повышает вероятность того, что сначала будут рассматриваться хорошие ходы. В узлах Мина в первую очередь следует рассматривать преемники с минимальной оценкой.
Еще одно общение состоит в изменении статической оценочной функции. Часто используют оценку, равную разности числа всех камней на стороне Макса (в калахе и лунках) и числа камней на стороне Мииа. Можно применить любую простую линейную функцию от 14 значений для всех лунок. Наилучшую такую функцию можно выбрать при помощи турнира {это было рассмотрено в гл.5). Не забывайте, однако, что главным фактором, определяющим силу игрока, является, по всей видимости, глубина просмотра.
ЛИТЕРАТУРА
Алеф0 (Aleph0). Computer Recreations. Software - Practice and Experience, 1, pp.297-300, 1971.
В этой статье описывается с внешней стороны программа игры в калах и дается некоторый исторический обзор подобных программ. Имеется полезная библиография.
Белл (Bell R.С.). Board and Table Games from Many Civilizations. Oxford Unшversity Press, London, 1969.
В гл.4 Белл описывает несколько вариантов игры манкала. Книга представляет интерес для широкого круга читателей благодаря обширным сведениям об играх и об истории культуры.
Нильсон (Nilsson N.J.). Problem-Solving Methods in Artificial Intelligence. McGraw-Hiil, New York, NY, 1971. [Имеется перевод: Нильсон H. Искусственный интеллект. Методы поиска решений.- М.: Мир, 1973]
Книга Нильсона, вероятно, наилучшее введение в эту дисциплину. В гл.6 очень понятно разобраны минимаксные методы. Даются ценные рекомендации по дальнейшему чтению.
Слэйгл {Slagle J.R.). Artificial Intelligence: The Heuristic Programming Approach. McGraw-Hill, New York, NY, 1971. [Имеется перевод: Слэйгл Дж. Искусственный интеллект. Подход на основе эвристического программирования.- М.: Мир, 1973]
Слэйгл также дает хороший обзор области искусственного интеллекта. Он экспериментировал с калахом, и поэтому в книге приводится ряд подробностей об этой игре.
* "Наука и жизнь", #12, 1971. Описывается программа игры в калах, разработанная в ВЦ Ленинградского университета. Правила игры, используемые этой программой, сильно отличаются от описанных в настоящей книге.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
15
ПРОЩЕ ПРОСТОГО,
ИЛИ...
ПОИСК УЗОРОВ ИЗ ПРОСТЫХ ЧИСЕЛ
Всякий, кто изучает простые числа, бывает очарован ими и одновременно ощущает собственное бессилие. Определение простых чисел так просто и очевидно; найти очередное простое число так легко; разложение на простые сомножители - такое естественное действие. Почему же тогда простые числа столь упорно сопротивляются нашим попыткам постичь порядок и закономерности их расположения? Может быть, в них вообще нет порядка, или же мы так слепы, что не видим его?
Какой-то порядок в простых числах, несомненно, есть. Простые числа можно отсеять от составных РЕШЕТОМ ЭРАТОСФЕНА. Начнем с того, что 2 - простое число. Теперь выбросим все большие четные числа (делящиеся на 2). Первое из уцелевших за двойкой чисел, 3, также должно быть простым. Удалим все его кратные; останется 5. После удаления кратных пяти останется 7. Будем продолжать в том же духе; все числа, прошедшие через решето, будут простыми. Эта регулярная, хотя и медленная процедура находит все простые числа. Мы знаем, кроме того, что при n, стремящемся к бесконечности, отношение количества простых чисел к составным среди первых целых чисел приближается к ln n/n [Это не совсем так. Число простых чисел среди первых n (при n->бесконечность) примерно равно n/ln n. Таким образом, отношение числа простых и составных чисел есть
(n/ln n)/(n - n/ln n) = 1/(ln n -1) ~ 1/ln n.- Прим. перев.]). К сожалению, этот предел чисто статистический и не помогает при нахождении простых чисел.
Оказывается, что все известные методы построения таблицы простых чисел - не что иное, как вариации унылого метода решета. Эйлер придумал формулу x**2+x+41; для всех x от нуля до 39 эта формула дает простые числа. Однако никакая полиномиальная формула не может давать подряд бесконечный ряд простых чисел, и функция Эйлера терпит фиаско при х=40. Другие известные функции дают длинные ряды простых чисел, но ни одна не дает сплошь простые. Исследователи проанализировали множество целочисленных функций, однако до сих пор не удалось увидеть закономерность.
Рисунок 15.1. Числа расположены по спирали против часовой стрелки.
Закономерности проявляются, когда целые числа отображаются на плоскость (или в пространство). Одно из возможных отображений показано на рис.15.1, где числа располагаются вокруг начальной точки по спирали против часовой стрелки. На рис.15.2 целые числа заполняют треугольник положительного квадранта. Если достаточно далеко расширить рамки этих рисунков, то станет видно, что простые числа располагаются преимущественно вдоль отдельных прямых (в основном по диагоналям) и совершенно игнорируют другие прямые. Частично этот эффект легко объясним. В обоих расположениях целые числа, попадающие на любую диагональ, даются некоторым квадратичным многочленом. Если многочлен, соответствующий какой-либо прямой, разлагается на рациональные линейные множители, то эта прямая будет содержать одни составные числа. Таким образом, простым числам волей-неволей пришлось облюбовать неприводимые прямые. Однако некоторые неприводимые многочлены изобилуют простыми числами, и изобилие это не оскудевает, несмотря на то что плотность простых чисел среди всех целых медленно стремится к нулю. Иными словами, хотя разложение многочленов объясняет в некоторой степени скученность простых чисел, все же существуют многочлены, более богатые простыми числами, чем предсказывает обычный статистический анализ.
Рисунок 15.2. Числа в треугольнике.
ТЕМА. Напишите программу, которая отображает целые числа на плоскость некоторым регулярным образом и отмечает на рисунке места, где находятся простые числа. Выведите формулы, описывающие прямые линия на вашем рисунке, и напечатайте те из них, которые особенно изобилуют простыми числами; печатайте также долю простых чисел на этих прямых. Обеспечьте высокую эффективность ваших программ проверки целых чисел на простоту, так чтобы вам хватило времени для анализа весьма отдаленных отрезков натурального ряда.
ИНСТРУМЕНТОВКА. Для решения этой задачи больше всего подходит алгебраический язык, У вас должна быть возможность управлять эффективностью проверки на простоту.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
ЛИТЕРАТУРА
Гарднер (Gardner M). Mathematical Games. Scientific American, pp.120-126, March 1964. [Имеется перевод: Гарднер М. Математические досуги.-М.: Мир, 1972, с.410]
Гаусс (Gauss С.F.). Disquisitiones Arithmeticae. Yale University Press, New Haven, CT, 1965.
По теории чисел написаны сотни книг. Но, как это ни странно, одна из первых книг по-прежнему остается одной из лучших. Помимо прочих достоинств она вышла в дешевом издании. Так почему бы не посоветоваться с классиком?
Штейн, Улам, Уэллс (Stein M.L., Ulam S.M., Wells M.В.). A Visual Display of Some Properties of the Distribution of Primes, American Mathematical Monthly, pp.516-520, May 1964.
Гарднер излагает результаты Штейна, Улама и Уэллса более популярно, тем не менее обе работы легки для чтения. На эту тему почти ничего больше не написано, так что это, вероятно, увлечение Улама. Идея получать с помощью простых чисел красивые картинки позволяет убить лишнее машинное время, и, не исключено, что в этом все же что-то есть.
ПРОЩЕ ПРОСТОГО,
ИЛИ...
ПОИСК УЗОРОВ ИЗ ПРОСТЫХ ЧИСЕЛ
Всякий, кто изучает простые числа, бывает очарован ими и одновременно ощущает собственное бессилие. Определение простых чисел так просто и очевидно; найти очередное простое число так легко; разложение на простые сомножители - такое естественное действие. Почему же тогда простые числа столь упорно сопротивляются нашим попыткам постичь порядок и закономерности их расположения? Может быть, в них вообще нет порядка, или же мы так слепы, что не видим его?
Какой-то порядок в простых числах, несомненно, есть. Простые числа можно отсеять от составных РЕШЕТОМ ЭРАТОСФЕНА. Начнем с того, что 2 - простое число. Теперь выбросим все большие четные числа (делящиеся на 2). Первое из уцелевших за двойкой чисел, 3, также должно быть простым. Удалим все его кратные; останется 5. После удаления кратных пяти останется 7. Будем продолжать в том же духе; все числа, прошедшие через решето, будут простыми. Эта регулярная, хотя и медленная процедура находит все простые числа. Мы знаем, кроме того, что при n, стремящемся к бесконечности, отношение количества простых чисел к составным среди первых целых чисел приближается к ln n/n [Это не совсем так. Число простых чисел среди первых n (при n->бесконечность) примерно равно n/ln n. Таким образом, отношение числа простых и составных чисел есть
(n/ln n)/(n - n/ln n) = 1/(ln n -1) ~ 1/ln n.- Прим. перев.]). К сожалению, этот предел чисто статистический и не помогает при нахождении простых чисел.
Оказывается, что все известные методы построения таблицы простых чисел - не что иное, как вариации унылого метода решета. Эйлер придумал формулу x**2+x+41; для всех x от нуля до 39 эта формула дает простые числа. Однако никакая полиномиальная формула не может давать подряд бесконечный ряд простых чисел, и функция Эйлера терпит фиаско при х=40. Другие известные функции дают длинные ряды простых чисел, но ни одна не дает сплошь простые. Исследователи проанализировали множество целочисленных функций, однако до сих пор не удалось увидеть закономерность.
Рисунок 15.1. Числа расположены по спирали против часовой стрелки.
Закономерности проявляются, когда целые числа отображаются на плоскость (или в пространство). Одно из возможных отображений показано на рис.15.1, где числа располагаются вокруг начальной точки по спирали против часовой стрелки. На рис.15.2 целые числа заполняют треугольник положительного квадранта. Если достаточно далеко расширить рамки этих рисунков, то станет видно, что простые числа располагаются преимущественно вдоль отдельных прямых (в основном по диагоналям) и совершенно игнорируют другие прямые. Частично этот эффект легко объясним. В обоих расположениях целые числа, попадающие на любую диагональ, даются некоторым квадратичным многочленом. Если многочлен, соответствующий какой-либо прямой, разлагается на рациональные линейные множители, то эта прямая будет содержать одни составные числа. Таким образом, простым числам волей-неволей пришлось облюбовать неприводимые прямые. Однако некоторые неприводимые многочлены изобилуют простыми числами, и изобилие это не оскудевает, несмотря на то что плотность простых чисел среди всех целых медленно стремится к нулю. Иными словами, хотя разложение многочленов объясняет в некоторой степени скученность простых чисел, все же существуют многочлены, более богатые простыми числами, чем предсказывает обычный статистический анализ.
Рисунок 15.2. Числа в треугольнике.
ТЕМА. Напишите программу, которая отображает целые числа на плоскость некоторым регулярным образом и отмечает на рисунке места, где находятся простые числа. Выведите формулы, описывающие прямые линия на вашем рисунке, и напечатайте те из них, которые особенно изобилуют простыми числами; печатайте также долю простых чисел на этих прямых. Обеспечьте высокую эффективность ваших программ проверки целых чисел на простоту, так чтобы вам хватило времени для анализа весьма отдаленных отрезков натурального ряда.
ИНСТРУМЕНТОВКА. Для решения этой задачи больше всего подходит алгебраический язык, У вас должна быть возможность управлять эффективностью проверки на простоту.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
ЛИТЕРАТУРА
Гарднер (Gardner M). Mathematical Games. Scientific American, pp.120-126, March 1964. [Имеется перевод: Гарднер М. Математические досуги.-М.: Мир, 1972, с.410]
Гаусс (Gauss С.F.). Disquisitiones Arithmeticae. Yale University Press, New Haven, CT, 1965.
По теории чисел написаны сотни книг. Но, как это ни странно, одна из первых книг по-прежнему остается одной из лучших. Помимо прочих достоинств она вышла в дешевом издании. Так почему бы не посоветоваться с классиком?
Штейн, Улам, Уэллс (Stein M.L., Ulam S.M., Wells M.В.). A Visual Display of Some Properties of the Distribution of Primes, American Mathematical Monthly, pp.516-520, May 1964.
Гарднер излагает результаты Штейна, Улама и Уэллса более популярно, тем не менее обе работы легки для чтения. На эту тему почти ничего больше не написано, так что это, вероятно, увлечение Улама. Идея получать с помощью простых чисел красивые картинки позволяет убить лишнее машинное время, и, не исключено, что в этом все же что-то есть.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
16
ГОРЮЧИЕ СЛЕЗЫ,
ИЛИ...
УЧЕТ РАСХОДА БЕНЗИНА
Тридцать центов за галлон - дело прошлое. Сорок центов за галлон - дело прошлое. Пятьдесят центов за галлон - дело прошлое. Сейчас [Напомним, что книга издана в 1978г.- Прим. перев.] галлон бензина стоит шестьдесят центов, и, возможно, вскоре мы останемся вообще без горючего. Так что на повестке дня - анализ индивидуального расходования бензина.
Многие ведут журнал покупок бензина. Обычно туда записывают дату, показания счетчика пройденного пути, марку бензина, цену одного галлона, сколько галлонов куплено и общую стоимость. Три последние величины зависят друг от друга; эта зависимость не совсем точная из-за ошибок округления, но ее все же можно использовать для проверки правильности исходных данных. С помощью ЭВМ вы можете получить разнообразную статистическую информацию. Интересно вычислить такие производные величины, как средняя стоимость одного галлона, средний пробег на галлон, средний пробег за день, средняя стоимость пробега в одну милю, среднее время расходования одного галлона. Кроме того, хорошо было бы получить такую же информацию по каждой марке бензина и посмотреть, есть ли разница между марками. Таблица 16.1 - фрагмент реального журнала покупок бензина [Дата в журнале представлена в последовательности месяц, число, год.- Прим.перев.]. Будем считать в данной задаче, что каждой новой записи в журнале соответствует новая полная заправка автомобиля. Первая запись в журнале устанавливает точки отсчета дат и пройденного пути; никак иначе она не используется. Следующие записи фиксируют пробег и расходы на очередную заправку, показывая объем сожженного горючего и количество пройденных миль после предыдущей заправки. Было бы также любопытно печатать текущие средние значения за самое последнее время, чтобы заметить краткосрочные изменения.
Таблица 16.1. Выдержка из реального журнала покупок бензина
ТЕМА. По данным, имеющимся в журнале покупок бензина, напечатайте разнообразную контрольную статистику, показывающую водителю, во что обходится эксплуатация автомобиля. Исходные данные о каждой покупке - это дата, марка бензина, показание счетчика пройденного пути, цена одного галлона, сколько галлонов куплено и общая стоимость. Выводимая информация должна повторять исходную и, кроме того, включать в себя такие показатели, как пробег между заправками, пробег на один галлон, стоимость пробега в одну милю, стоимость одного галлона, стоимость одного дня, время расходования одного галлона. Все указанные показатели следует получать для каждой заправки и усреднять двумя способами: за небольшой срок и за все время наблюдений. Кроме того, соберите данные по каждой марке бензина и напечатайте соответствующие средние значения. Не ограничивайте число различных марок.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Предлагаемая программа не особенно трудна. Для печати долларовых величин, как и в некоторых других задачах, нужна некоторая изобретательность. Требование неограниченности числа марок означает, что их нельзя задать заранее, поэтому нужна простая расширяемая таблица марок и связанной с ними информации.
ИНСТРУМЕНТОВКА. И снова очевидный кандидат - Кобол, созданный как раз для решения подобных задач. Если вам удастся найти достаточно мощный язык для генерации отчетов, уместно научиться им пользоваться. Можно использовать и любой процедурный алгебраический язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
ГОРЮЧИЕ СЛЕЗЫ,
ИЛИ...
УЧЕТ РАСХОДА БЕНЗИНА
Тридцать центов за галлон - дело прошлое. Сорок центов за галлон - дело прошлое. Пятьдесят центов за галлон - дело прошлое. Сейчас [Напомним, что книга издана в 1978г.- Прим. перев.] галлон бензина стоит шестьдесят центов, и, возможно, вскоре мы останемся вообще без горючего. Так что на повестке дня - анализ индивидуального расходования бензина.
Многие ведут журнал покупок бензина. Обычно туда записывают дату, показания счетчика пройденного пути, марку бензина, цену одного галлона, сколько галлонов куплено и общую стоимость. Три последние величины зависят друг от друга; эта зависимость не совсем точная из-за ошибок округления, но ее все же можно использовать для проверки правильности исходных данных. С помощью ЭВМ вы можете получить разнообразную статистическую информацию. Интересно вычислить такие производные величины, как средняя стоимость одного галлона, средний пробег на галлон, средний пробег за день, средняя стоимость пробега в одну милю, среднее время расходования одного галлона. Кроме того, хорошо было бы получить такую же информацию по каждой марке бензина и посмотреть, есть ли разница между марками. Таблица 16.1 - фрагмент реального журнала покупок бензина [Дата в журнале представлена в последовательности месяц, число, год.- Прим.перев.]. Будем считать в данной задаче, что каждой новой записи в журнале соответствует новая полная заправка автомобиля. Первая запись в журнале устанавливает точки отсчета дат и пройденного пути; никак иначе она не используется. Следующие записи фиксируют пробег и расходы на очередную заправку, показывая объем сожженного горючего и количество пройденных миль после предыдущей заправки. Было бы также любопытно печатать текущие средние значения за самое последнее время, чтобы заметить краткосрочные изменения.
Таблица 16.1. Выдержка из реального журнала покупок бензина
ТЕМА. По данным, имеющимся в журнале покупок бензина, напечатайте разнообразную контрольную статистику, показывающую водителю, во что обходится эксплуатация автомобиля. Исходные данные о каждой покупке - это дата, марка бензина, показание счетчика пройденного пути, цена одного галлона, сколько галлонов куплено и общая стоимость. Выводимая информация должна повторять исходную и, кроме того, включать в себя такие показатели, как пробег между заправками, пробег на один галлон, стоимость пробега в одну милю, стоимость одного галлона, стоимость одного дня, время расходования одного галлона. Все указанные показатели следует получать для каждой заправки и усреднять двумя способами: за небольшой срок и за все время наблюдений. Кроме того, соберите данные по каждой марке бензина и напечатайте соответствующие средние значения. Не ограничивайте число различных марок.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Предлагаемая программа не особенно трудна. Для печати долларовых величин, как и в некоторых других задачах, нужна некоторая изобретательность. Требование неограниченности числа марок означает, что их нельзя задать заранее, поэтому нужна простая расширяемая таблица марок и связанной с ними информации.
ИНСТРУМЕНТОВКА. И снова очевидный кандидат - Кобол, созданный как раз для решения подобных задач. Если вам удастся найти достаточно мощный язык для генерации отчетов, уместно научиться им пользоваться. Можно использовать и любой процедурный алгебраический язык.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
17
ТИШЕ ЕДЕШЬ - ДАЛЬШЕ БУДЕШЬ,
ИЛИ...
МОДЕЛИРОВАНИЕ ДВИЖЕНИЯ НА АВТОСТРАДЕ
Энергетический кризис уже в своем начале привел к снижению допустимой скорости движения на автодорогах в масштабах всей страны. Большинство автомобилистов в длительных поездках не устают проклинать это ограничение. Разумеется, теперь мы знаем, что снижение скорости ежегодно сберегает тысячи жизней и миллионы долларов. Но мало кто из водителей понимает, что в условиях перегруженности автострад вблизи больших городов снижение скорости на самом деле ведет к экономии времени. Более точно парадокс формулируется так: если все тише едут, они скорее приедут.
Вспомните, как вы однажды "с ветерком" катили по шоссе, миль на 5 превышая допустимую скорость, хотя машин было много. Внезапно все стали еле ползти, и вам тоже пришлось нажать на тормоза. Затем последовала четверть, половина, а то и целая миля конвульсивного чередования остановок и движения. Наконец затор остался позади, и вы смогли вновь прибавить скорость. Но все это происходило без всякой видимой причины! Что же нарушило плавность движения?
Для объяснения причины задержки необходимо привлечь гидродинамику. Движущиеся по шоссе автомобили ведут себя во многом аналогично частицам протекающей в трубе жидкости. Если плотность и скорость частиц достаточно велики, любая кратковременная задержка потока приведет к возникновению УДАРНОЙ ВОЛНЫ. Ударная волна - это область очень высокой плотности; автомобили (или частицы) резко замедляются, попадая в эту область, и затем ускоряются, когда, преодолев довольно четко очерченный ударный фронт, оказываются в области с гораздо более низкой плотностью. Ударная волна продолжает существовать длительное время, медленно двигаясь навстречу потоку и медленно рассеиваясь. Отметим, что рассеяние объясняется уменьшением плотности в ударной области и может быть ускорено, если водители заранее слегка притормозят, увидев впереди затор.
Было бы любопытно провести эксперимент на автостраде в часы пик, но, несомненно, пришлось бы привлечь не одну сотню машин. Не лучше ли обойтись одной вычислительной машиной? Рассмотрим прямой однорядный участок автострады длиной 5 миль, без перекрестков. Автомобили появляются на одном конце дороги, проезжают по ней и бесследно исчезают на другом конце. Машины стремятся двигаться по дороге с постоянными скоростями (возможно, разными для разных машин). Чтобы изучать ударные волны, будем вводить в эту транспортную благодать случайные замедления. Для проведения эксперимента нужны генератор автомобилей и генератор возмущений. В начале каждого эксперимента автострада пуста. Запустите генератор автомобилей, который поместит машину на дорогу, придаст ей скорость и выберет интервал до порождения следующего автомобиля. Начальные скорости автомобилей подчиняются равномерному случайному распределению на отрезке от 50 до 60 миль в час, а интервалы между порождениями также равномерно распределены на отрезке от 4 до 6с. Минимальное допустимое сближение составляет одну длину автомобиля (10 футов) на каждые 10 миль в час скорости передней машины. Когда автомобиль приближается к идущей впереди машине на утроенное допустимое расстояние, он начинает притормаживать, пока скорости не сравняются, теряя по одной миле в час за секунду. Если передний автомобиль начинает резко замедляться, идущий сзади выжидает 0.2с и затем тормозит, снижая каждую секунду свою скорость на 15 миль в час. В результате может произойти авария, которой и закончится эксперимент.
Собственно эксперимент состоит в заполнении дороги машинами, введении искусственного замедления и наблюдении результата. Начните запускать машины на пустую дорогу; продолжайте делать это, пока не пройдет 2 минуты (модельного времени) с момента прохождения заданного участка дороги первым автомобилем. Затем, не прекращая запускать машины, выберите автомобиль, который раньше всех пересечет отметку в 4 мили, сбросьте с его скорости как можно резче 0, 10, 20, 30, 40 или 50 миль в час, удержите на новой скорости 100 ярдов, после чего придайте ему ускорение 5 миль в час за секунду, пока автомобиль не наберет свою первоначальную скорость (машины всегда стремятся сохранить первоначальную скорость). Продолжайте эксперимент еще 5 минут после того, как виновник затора начал замедляться, и подсчитайте количество машин, прошедших участок дороги за это время. Полученная величина и есть наблюдаемый результат эксперимента. Машины, следующие за виновником, также могут ускоряться на 5 миль в час за секунду, если дорога перед ними освобождается. Проведите эксперимент несколько раз для каждого значения замедления. Если произойдет авария, все машины, находящиеся позади, автоматически остановятся и не смогут пройти заданный участок дороги. В аварию может попасть не сам виновник, а машины, идущие сзади.
ТЕМА. Напишите программу, позволяющую провести эксперимент с ударной волной на автостраде. Все исходные данные представлены одним числом - сколько раз повторять эксперимент для каждого уменьшения скорости. Обязательная часть выводимой информации - среднее количество машин, прошедших участок дороги после каждого искусственного замедления. Но для отладки и лучшего понимания физического поведения системы полезно вывести дополнительную информацию. В частности, несколько "моментальных снимков" дороги, вероятно, позволят почувствовать ситуацию лучше, чем любое количество статистики. Если в вашем распоряжении имеется хорошее графическое устройство - интерактивное или микрофильмовое - то серия моментальных снимков составит фильм о дороге.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Наиболее трудным в предлагаемой задаче является отслеживание всех автомобилей на дороге [Дополнительную трудность вызывает использование традиционных английских мер. Однако сделано это умышленно, и вы должны выдавать результаты в тех же единицах. Если бы скорость измерялась в д/д, т.е. в дюймах в день, было бы еще хуже...]. Можно организовать цикл и примерно через одну сотую - одну десятую секунды модельного времени должным образом подправлять положение каждого автомобиля. Если интервал достаточно мал, заметного накопления ошибок не произойдет, а выглядеть программа будет красиво - как семейство вложенных циклов. Однако при использовании метода ПОШАГОВОЙ ФИКСАЦИИ цикл может выполняться слишком большое число раз. В нашем случае эксперимент продлится примерно 12 минут модельного времени, в каждый момент на дороге будет около 90 машин, и, даже если выбрать большой интервал в одну десятую секунды, потребуется примерно 1200 циклов, или около 650000 операций с отдельными автомобилями. Если программа тратит много времени на продвижение одного автомобиля, эксперимент слишком затянется. Положение можно подправить, варьируя интервал в зависимости от дорожной обстановки. Другой подход состоит в том, чтобы подправлять положение автомобилей только в моменты критических событий. При таком подходе заводится список всех событий, ожидаемых в недалеком будущем; например, запускается или исчезает автомобиль, одна машина догоняет другую, прошло две минуты с момента исчезновения первого автомобиля, пора вновь ускорять автомобиль-виновник. Головным элементом СПИСКА СОБЫТИЙ всегда должно быть ближайшее событие; список в целом не обязан быть упорядоченным - его можно представить и как ОЧЕРЕДЬ С ПРИОРИТЕТАМИ, и как КУЧУ. В основном цикле от списка отделяется головной элемент, описывающий очередное событие, все автомобили устанавливаются в позиции, соответствующие новому времени, запоминаются все события, которые следует планировать, эти события вставляются в список и список переупорядочивается, чтобы ближайшее событие оказалось в голове. Достоинство МОДЕЛИРОВАНИЯ МЕТОДОМ КРИТИЧЕСКИХ СОБЫТИЙ в том, что порой довольно долго, 4-5 секунд, ничего не происходит. Сэкономленное время можно употребить на более сложную обработку списка событий.
ИНСТРУМЕНТОВКА. Для решения этой задачи естественно воспользоваться языками моделирования, такими, как Симскрипт или Симула. Если они недоступны, подойдет любой процедурный язык. Независимо от метода моделирования существенным подспорьем будут хорошие структуры данных для представления информации об автомобилях и для реализации очереди событий.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели; еще неделя на изготовление фильма.
РАЗВИТИЕ ТЕМЫ. Строго говоря, в предложенной задаче не изучается ситуация, описанная в нескольких первых абзацах. Вместо выяснения того, что происходит с ударной волной при различных средних скоростях движения на автостраде, в эксперименте рассматривались удары различной силы. Проделайте все еще раз, взяв диапазон начальных скоростей от 40 до 50 или от 60 до 70 миль в час. Попробуйте для некоторых переменных нормальное распределение вместо равномерного. Поварьируйте законы торможения и ускорения. Иными словами, изучите влияние всех параметров, а не только одного, выбранного нами.
ЛИТЕРАТУРА
Герман, Гардел (Herman R., Gardels К.). Vehicular Traffic Flow. Scientific AmeAmerican, pp.35-43, December 1963.
Авторы описывают проведение нескольких физических экспериментов над движением транспорта и развитие математической теории. Конечно, использовавшийся ими Голландский туннель в Нью-Йорке для большинства из нас недоступен Если вам интересно проследить за работами по этой тематике после 1963г., научитесь пользоваться Science Citation Index или другими библиографическими средствами, помогающими довести старую информацию до наших дней.
ТИШЕ ЕДЕШЬ - ДАЛЬШЕ БУДЕШЬ,
ИЛИ...
МОДЕЛИРОВАНИЕ ДВИЖЕНИЯ НА АВТОСТРАДЕ
Энергетический кризис уже в своем начале привел к снижению допустимой скорости движения на автодорогах в масштабах всей страны. Большинство автомобилистов в длительных поездках не устают проклинать это ограничение. Разумеется, теперь мы знаем, что снижение скорости ежегодно сберегает тысячи жизней и миллионы долларов. Но мало кто из водителей понимает, что в условиях перегруженности автострад вблизи больших городов снижение скорости на самом деле ведет к экономии времени. Более точно парадокс формулируется так: если все тише едут, они скорее приедут.
Вспомните, как вы однажды "с ветерком" катили по шоссе, миль на 5 превышая допустимую скорость, хотя машин было много. Внезапно все стали еле ползти, и вам тоже пришлось нажать на тормоза. Затем последовала четверть, половина, а то и целая миля конвульсивного чередования остановок и движения. Наконец затор остался позади, и вы смогли вновь прибавить скорость. Но все это происходило без всякой видимой причины! Что же нарушило плавность движения?
Для объяснения причины задержки необходимо привлечь гидродинамику. Движущиеся по шоссе автомобили ведут себя во многом аналогично частицам протекающей в трубе жидкости. Если плотность и скорость частиц достаточно велики, любая кратковременная задержка потока приведет к возникновению УДАРНОЙ ВОЛНЫ. Ударная волна - это область очень высокой плотности; автомобили (или частицы) резко замедляются, попадая в эту область, и затем ускоряются, когда, преодолев довольно четко очерченный ударный фронт, оказываются в области с гораздо более низкой плотностью. Ударная волна продолжает существовать длительное время, медленно двигаясь навстречу потоку и медленно рассеиваясь. Отметим, что рассеяние объясняется уменьшением плотности в ударной области и может быть ускорено, если водители заранее слегка притормозят, увидев впереди затор.
Было бы любопытно провести эксперимент на автостраде в часы пик, но, несомненно, пришлось бы привлечь не одну сотню машин. Не лучше ли обойтись одной вычислительной машиной? Рассмотрим прямой однорядный участок автострады длиной 5 миль, без перекрестков. Автомобили появляются на одном конце дороги, проезжают по ней и бесследно исчезают на другом конце. Машины стремятся двигаться по дороге с постоянными скоростями (возможно, разными для разных машин). Чтобы изучать ударные волны, будем вводить в эту транспортную благодать случайные замедления. Для проведения эксперимента нужны генератор автомобилей и генератор возмущений. В начале каждого эксперимента автострада пуста. Запустите генератор автомобилей, который поместит машину на дорогу, придаст ей скорость и выберет интервал до порождения следующего автомобиля. Начальные скорости автомобилей подчиняются равномерному случайному распределению на отрезке от 50 до 60 миль в час, а интервалы между порождениями также равномерно распределены на отрезке от 4 до 6с. Минимальное допустимое сближение составляет одну длину автомобиля (10 футов) на каждые 10 миль в час скорости передней машины. Когда автомобиль приближается к идущей впереди машине на утроенное допустимое расстояние, он начинает притормаживать, пока скорости не сравняются, теряя по одной миле в час за секунду. Если передний автомобиль начинает резко замедляться, идущий сзади выжидает 0.2с и затем тормозит, снижая каждую секунду свою скорость на 15 миль в час. В результате может произойти авария, которой и закончится эксперимент.
Собственно эксперимент состоит в заполнении дороги машинами, введении искусственного замедления и наблюдении результата. Начните запускать машины на пустую дорогу; продолжайте делать это, пока не пройдет 2 минуты (модельного времени) с момента прохождения заданного участка дороги первым автомобилем. Затем, не прекращая запускать машины, выберите автомобиль, который раньше всех пересечет отметку в 4 мили, сбросьте с его скорости как можно резче 0, 10, 20, 30, 40 или 50 миль в час, удержите на новой скорости 100 ярдов, после чего придайте ему ускорение 5 миль в час за секунду, пока автомобиль не наберет свою первоначальную скорость (машины всегда стремятся сохранить первоначальную скорость). Продолжайте эксперимент еще 5 минут после того, как виновник затора начал замедляться, и подсчитайте количество машин, прошедших участок дороги за это время. Полученная величина и есть наблюдаемый результат эксперимента. Машины, следующие за виновником, также могут ускоряться на 5 миль в час за секунду, если дорога перед ними освобождается. Проведите эксперимент несколько раз для каждого значения замедления. Если произойдет авария, все машины, находящиеся позади, автоматически остановятся и не смогут пройти заданный участок дороги. В аварию может попасть не сам виновник, а машины, идущие сзади.
ТЕМА. Напишите программу, позволяющую провести эксперимент с ударной волной на автостраде. Все исходные данные представлены одним числом - сколько раз повторять эксперимент для каждого уменьшения скорости. Обязательная часть выводимой информации - среднее количество машин, прошедших участок дороги после каждого искусственного замедления. Но для отладки и лучшего понимания физического поведения системы полезно вывести дополнительную информацию. В частности, несколько "моментальных снимков" дороги, вероятно, позволят почувствовать ситуацию лучше, чем любое количество статистики. Если в вашем распоряжении имеется хорошее графическое устройство - интерактивное или микрофильмовое - то серия моментальных снимков составит фильм о дороге.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Наиболее трудным в предлагаемой задаче является отслеживание всех автомобилей на дороге [Дополнительную трудность вызывает использование традиционных английских мер. Однако сделано это умышленно, и вы должны выдавать результаты в тех же единицах. Если бы скорость измерялась в д/д, т.е. в дюймах в день, было бы еще хуже...]. Можно организовать цикл и примерно через одну сотую - одну десятую секунды модельного времени должным образом подправлять положение каждого автомобиля. Если интервал достаточно мал, заметного накопления ошибок не произойдет, а выглядеть программа будет красиво - как семейство вложенных циклов. Однако при использовании метода ПОШАГОВОЙ ФИКСАЦИИ цикл может выполняться слишком большое число раз. В нашем случае эксперимент продлится примерно 12 минут модельного времени, в каждый момент на дороге будет около 90 машин, и, даже если выбрать большой интервал в одну десятую секунды, потребуется примерно 1200 циклов, или около 650000 операций с отдельными автомобилями. Если программа тратит много времени на продвижение одного автомобиля, эксперимент слишком затянется. Положение можно подправить, варьируя интервал в зависимости от дорожной обстановки. Другой подход состоит в том, чтобы подправлять положение автомобилей только в моменты критических событий. При таком подходе заводится список всех событий, ожидаемых в недалеком будущем; например, запускается или исчезает автомобиль, одна машина догоняет другую, прошло две минуты с момента исчезновения первого автомобиля, пора вновь ускорять автомобиль-виновник. Головным элементом СПИСКА СОБЫТИЙ всегда должно быть ближайшее событие; список в целом не обязан быть упорядоченным - его можно представить и как ОЧЕРЕДЬ С ПРИОРИТЕТАМИ, и как КУЧУ. В основном цикле от списка отделяется головной элемент, описывающий очередное событие, все автомобили устанавливаются в позиции, соответствующие новому времени, запоминаются все события, которые следует планировать, эти события вставляются в список и список переупорядочивается, чтобы ближайшее событие оказалось в голове. Достоинство МОДЕЛИРОВАНИЯ МЕТОДОМ КРИТИЧЕСКИХ СОБЫТИЙ в том, что порой довольно долго, 4-5 секунд, ничего не происходит. Сэкономленное время можно употребить на более сложную обработку списка событий.
ИНСТРУМЕНТОВКА. Для решения этой задачи естественно воспользоваться языками моделирования, такими, как Симскрипт или Симула. Если они недоступны, подойдет любой процедурный язык. Независимо от метода моделирования существенным подспорьем будут хорошие структуры данных для представления информации об автомобилях и для реализации очереди событий.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели; еще неделя на изготовление фильма.
РАЗВИТИЕ ТЕМЫ. Строго говоря, в предложенной задаче не изучается ситуация, описанная в нескольких первых абзацах. Вместо выяснения того, что происходит с ударной волной при различных средних скоростях движения на автостраде, в эксперименте рассматривались удары различной силы. Проделайте все еще раз, взяв диапазон начальных скоростей от 40 до 50 или от 60 до 70 миль в час. Попробуйте для некоторых переменных нормальное распределение вместо равномерного. Поварьируйте законы торможения и ускорения. Иными словами, изучите влияние всех параметров, а не только одного, выбранного нами.
ЛИТЕРАТУРА
Герман, Гардел (Herman R., Gardels К.). Vehicular Traffic Flow. Scientific AmeAmerican, pp.35-43, December 1963.
Авторы описывают проведение нескольких физических экспериментов над движением транспорта и развитие математической теории. Конечно, использовавшийся ими Голландский туннель в Нью-Йорке для большинства из нас недоступен Если вам интересно проследить за работами по этой тематике после 1963г., научитесь пользоваться Science Citation Index или другими библиографическими средствами, помогающими довести старую информацию до наших дней.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
18
ЧИТАЕМ, ПИШЕМ, СЧИТАЕМ,
ИЛИ...
КОНСТРУИРОВАНИЕ ИНТЕРПРЕТАТОРА ФОРМАТОВ
Вам, вероятно, пришлось написать по крайней мере одну программу, которая исторгала из машины бумажный поток, несущий искусно оформленные данные. Строка за строкой сомкнутыми рядами выступали из печатающего устройства целые батальоны чисел под предводительством четких заголовков. Интересовали вас только лишь два или три числа, но не напечатать всего было как-то неловко - ведь это так просто! А ВДРУГ кому-то и в самом деле захочется узнать точную сумму налога для служащего 1793 на рабочем месте 907, выплаченную им в сентябре пять лет назад.
Выдать на печать такую уйму информации и не свалиться при этом от изнеможения вам удалось благодаря существованию таких вещей, как фортранные инструкции формата, которые помогли преобразовать эти неудобоваримые двоичные числа в радующие глаз цепочки из цифр, букв и знаков. По существу, то же самое происходит и при вводе. Вводные данные аккуратно пробиваются на перфокартах, и вы даже не задумываетесь о том, каким преобразованиям должны они подвергнуться для того, чтобы центральный процессор мог проделывать над ними свои несложные арифметические фокусы. А пожалуй, о вводе и выводе стоит поразмышлять чуть серьезнее. Программа, обрабатывающая большое количество данных, вполне может тратить от четверти до половины своего счетного времени на служебные подпрограммы ввода и вывода, а большая часть этого времени в свою очередь может уходить на интерпретирование форматов и преобразование данных. Вероятно, вы уже не будете так легкомысленно относиться к преобразованиям данных при вводе и выводе, если попытаетесь решить предлагаемую задачу, превратившись на время в системного программиста.
Для изучения были выбраны форматы языка Фортран, поскольку они просты, эффективны и были, в сущности, праотцами большинства других схем форматов. Всякий раз, когда в операции ввода/вывода участвует устройство, предназначенное для взаимодействия машины с человеком, связующим звеном между ними оказывается инструкция формата. Основные элементы, участвующие в ОПЕРАЦИИ ВВОДА/ВЫВОДА,- это СПИСОК ПЕРЕМЕННЫХ, ФОРМАТ и ФАЙЛ. ЭЛЕМЕНТЫ ДАННЫХ пересылаются из файла в переменные списка или в обратном направлении, в зависимости от того, какая операция - ввода или вывода - выполняется. При пересылке каждого элемента интерпретируется некоторая часть формата, достаточная для того, чтобы определить текстовое представление этого элемента в файле. Формат определяет лишь характер пересылки того или иного элемента данных, но объем перемещаемых данных от него не зависит.
ЧТО ТАКОЕ ФОРМАТ?
Формат - это цепочка литер, описывающая преобразования данных, которые нужно выполнить. Поскольку формат всякий раз при использовании интерпретируется, то его можно рассматривать как маленькую программу. Формат общего вида имеет структуру
(y f1 s1 f2 s2 ... fn sn z),
где n может быть нулем,
y и z - последовательности наклонных черточек, возможно пустые,
fi - либо одиночный код формата, либо формат общего вида, перед которым может стоять натуральное число [Напомним, что натуральное число - это неотрицательное целое число],
si - разделитель, т.е. последовательность из запятых и наклонных черточек, которая в некоторых случаях может быть пустой.
Пробелы в формате игнорируются везде, кроме одного случая, специально оговоренного ниже, а числа записываются в виде цепочек из десятичных цифр.
Предположим, произошло обращение к операции ввода/вывода. Указатель текущей позиции в файле устанавливается начало следующей записи [Файл ввода/вывода состоит из записей, которые могут быть разной длины. Каждое физическое устройство может накладывать свои ограничения на длину записи. Предполагается, что перед первой операцией ввода/вывода с данным файлом указатель текущей позиции в нем установлен на конец воображаемой нулевой записи. При выводе по мере надобности создаются новые записи]. Курсор в формате устанавливается начальную открывающую скобку и движется вправо либо до первого кода, которому должна соответствовать переменная в списке переменных, либо до правого края формата. Такой процесс позволяет при помощи инструкции вывода напечатать строку данных, не пересылая никаких данных из переменных. Интерпретатор форматов будет иметь некоторую внутреннюю память (организованную, как правило, в виде стека), которая будет освобождаться и на которую мы будем время от времени ссылаться, говоря, что интерпретатор что-либо "запомнил". Основной цикл просмотра формата прост. Интерпретатор получает очередную переменную из списка переменных. Курсор начинает двигаться вправо по формату в поисках такого кода, который соответствует передаче элемента данных из переменной в файл или обратно. При движении курсора вправо могут встречаться такие коды, которые влияют на содержимое файла или устанавливают новые значения параметров, управляющих работой интерпретатора. Действия, предписываемые этими кодами, выполняются непосредственно в процессе сканирования. Перед некоторыми кодами допускаются КОЭФФИЦИЕНТЫ ПОВТОРЕНИЯ - такой код используется соответствующее число раз. То есть один и тот же код может использоваться с несколькими переменными списка, значит, интерпретатор должен помнить убывающее от цикла к циклу значение счетчика повторений кода. Если курсор дошел до крайней правой закрывающей скобки, то он возвращается к последней открывающей скобке первого уровня без коэффициента повторения, а если таковая отсутствует, то к начальной открывающей скобке формата. Вот три типичные ошибки, которые могут встречаться при форматном вводе/выводе: при вводе встретился конец файла; интерпретатор дважды подряд вышел на правую закрывающую скобку формата, не переслав при этом ни одного элемента данных; нет соответствия между типом кода формата, типом переменной в списке ввода/вывода и типом элемента данных, фактически находящегося в файле (последнее относится только к вводу). При завершении операции вывода последняя частично сформированная запись пишется в файл.
Теперь о самих кодах формата. Пожалуй, единственная полезная классификация, которую здесь можно провести,- это различение кодов САМОЗАВЕРШАЮЩИХСЯ и НЕСАМОЗАВЕРШАЮЩИХСЯ, которые требуют после себя запятую, наклонную черту или скобку. Интерпретатор всегда помнит текущее значение масштабирующего множителя, которое вначале устанавливается равным нулю и может быть изменено при помощи спецификации масштабирующего множителя. Перечислим коды формата:
r( - Открывающая скобка, возможно с коэффициентом повторения, обозначает начало ГРУППОВОЙ СПЕЦИФИКАЦИИ ФОРМАТА, которая заканчивается соответствующей закрывающей скобкой (число открывающих и закрывающих скобок в формате должно быть одинаковым). Вся групповая спецификация будет повторена столько раз, сколько указывает коэффициент повторения. Если коэффициент отсутствует, то считается, что он равен единице.
, - Запятая служит признаком конца для таких кодов, которые должны обязательно отделяться от последующих кодов. Никаких других функций запятая не выполняет, допускаются избыточные запятые.
/ - Наклонная черта служит признаком конца для несамозавершающихся кодов, а также означает конец обработки текущей записи файла и переход к следующей записи. Если последним обработанным кодом формата была наклонная черта, то при завершении операции ввода/вывода перехода к следующей записи уже не происходит. Несколько подряд стоящих наклонных черточек приводят к пропуску нескольких записей при вводе и к созданию пустых записей при выводе.
nX - При вводе пропускается n литер файла, при выводе в файл записывается n пробелов. Код самозавершающийся, передачи данных не происходит.
nHh1...hn - При вводе очередные n литер файла помещаются на место литер h1...hn формата. При выводе n литер h1...hn записываются в файл. Любая из литер hi может быть пробелом, это единственный случай, когда пробел является значащей литерой в формате. Код самозавершающийся. Обмена данными между файлом и переменными не происходит.
rAw - Пусть g - число литер, помещающихся в переменной, которая участвует в данном цикле интерпретации формата. Если при вводе w>=g, то крайние правые g из очередных w литер файла передаются в переменную, иначе в переменную попадут очередные w литер файла, дополненные справа g-w пробелами. Если при выводе w>=g, то в файл выводятся w-g пробелов и затем g литер переменной, в противном случае в файл попадут w крайних левых литер переменной. Коэффициент повторения r необязателен, код несамозавершающийся.
rLw - При вводе очередное поле из w литер файла должно представлять собой последовательность пробелов, за которой следует одна из букв Т или F, а далее произвольная последовательность литер, что воспринимается соответственно как значение истина или ложь. При выводе в файл помещаются w-1 пробелов и одна из букв Т или F. Коэффициент повторения г может отсутствовать; код несамозавершающийся.
rIw - При вводе цепочка литер, состоящая из нескольких старших пробелов, знака, который может и отсутствовать, и последовательности цифр и пробелов, преобразуется в машинное представление целого числа. Поле ввода состоит из w литер; пробелы после знака воспринимаются как нули. При выводе формируется поле длины w литер, состоящее из нескольких пробелов, знака минус, если он нужен, и прижатой к правому краю цепочки цифр, представляющей данное целое число. Коэффициент повторения r может отсутствовать, код несамозавершающийся.
sPrFw.d - При вводе число с плавающей точкой читается из поля длины w литер. Если поле ввода состоит только из цифр и пробелов или если левее (w-d+1)-й литеры (начиная счет с 1) встретился только знак, то мы получим вводимое вещественное значение лишь после того, как будет вставлена десятичная точка между (w-d)-й и (w-d+1)-й позициями поля ввода. Если вводимая цепочка литер содержит точку, то подразумеваемая позиция точки игнорируется. Если вводимая цепочка литер имеет вид вещественного или целого числа, за которым следует либо еще одно целое число со знаком, либо буква "Е" и целое число со знаком или без него, то это второе число воспринимается как порядок и значение вещественного числа умножается на десять в степени, равной порядку числа. Если присутствует только порядок числа с буквой "E" вначале, то считается, что перед ним стоит вещественное число, равное единице Если показательная часть числа отсутствует, то прочитанное вещественное число, прежде чем оно будет присвоено переменной из списка ввода, умножается на степень десяти с показателем, равным текущему значению масштабирующего множителя. При выводе число с плавающей точкой записывается в виде x1...xn. y1...yd. Число округлено до d знаков после точки, и, если это необходимо, снабжается знаком минус. В поле вывода обязательно присутствует точка, так что при выводе по коду F всегда выполняется неравенство w>=d+1. И в этом случае тоже выводимое значение прижимается к правому краю поля вывода. Спецификация масштабирующего множителя sP, как и коэффициент повторения r, не обязательна. Новое значение s (s - любое целое число со знаком) действует до тех пор, пока не встретится еще одна спецификация масштабирующего множителя. Код F несамозавершающийся.
sPrEw.d - Ввод осуществляется так же, как для кола F. Основная форма поля вывода имеет вид 0.yi...ydEz1...zm, где перед первым нулем и после буквы Е может стоять знак минус, если он нужен, а значение m достаточно для размещения максимального порядка, даже если для данного числа это не нужно. Если текущее значение масштабирующего множителя равно q, то вещественная часть основной формы умножается на 10**q, а порядок уменьшаетcя на q единиц. При q>0 будет q цифр слева от точки и max(d-q+1,0) цифр справа от нее: при q<=0 слева от точки будет стоять нуль, а справа d+q цифр [-q нулей и d+q цифр по стандарту Фортрана и Фортрана-77.- Прим. перев.]). Так же как и код F, код Е - несамозавершающийся, а спецификация масштабирующего множителя sP и коэффициент повторения r могут отсутствовать.
sPrGw.d - Ввод, а также интерпретация спецификаций sP и r осуществляется так же, как для кода F. Для вывода по коду G в зависимости от величины выводимого числа выбирается один из кодов F и Е. Пусть М - выводимое значение, причем 10**(k-1)<=М<10**k, где 0<=k<=d, тогда вывод производится как для кода F(w-4).(d-k),4X; в противном случае используется код Ew.d. Отметим, что масштабирующий множитель игнорируется в случае, когда для вывода выбирается код F. Код G несамозавершающийся.
ТЕМА. Создайте пакет программ форматного ввода/вывода для вашей ЭВМ. В общем случае он будет иметь ряд входных точек, доступных для пользователя (в роли которого, как правило, выступает сгенерированная компилятором объектная программа), а также ряд внутренних подпрограмм, которые должны быть защищены от доступа со стороны пользователя. Среди пользовательских входов должны быть: вход для инициализации с параметрами, определяющими операцию ввода или вывода, канал ввода/вывода и формат; входы для каждого типа переменных (вещественной, целой, логической и еще любой из них, используемой для представления текстовых данных), а также вход для терминирования ввода/вывода. Внутреннее представление данных может иметь вид, принятый на вашей ЭВМ, или вид, описанный в гл.25 для ЭВМ УМ-1. Проведите основательное тестирование своих программ и убедитесь, что округление и обработка особых случаев выполняется правильно, а в случае ошибок выдаются соответствующие сообщения.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Наиболее трудная часть задачи - составить ясное представление о поведении вещественных чисел на вашей ЭВМ. Преобразование данных текстового, целого и логического типов выполняется легко, а для сканирования формата и поддержания буферов годятся весьма простые методы. Однако вы, вероятно, обнаружите, что для реализации ВПОЛНЕ правильного округления придется серьезно поразмыслить, а быть может, и немного поэкспериментировать. Обязательно включите в свои тесты значения чуть больше и чуть меньше степеней 10, чуть меньше 10**-d и т.д. Не поддавайтесь соблазну выделять все увеличивающееся количество частных случаев с целью исправить допущенные ранее в работе промахи, попытайтесь вместо этого найти какой-то другой подход. Одной из наших досаднейших программистских неудач был пакет форматного ввода/вывода, разросшийся наподобие Топси до свыше 3000 строк на языке ассемблера. Как непросто теперь заменить его более ясной и эффективной программой примерно в 1000 строк, написанной еще кем-нибудь! С какой радостью мы бы навсегда избавились от этого монстра!
ИНСТРУМЕНТОВКА. Это одна из тех задач, для которых можно порекомендовать язык ассемблера. Пакеты форматного ввода/вывода должны быть достаточно эффективными, и к тому же они принадлежат к числу программ, время выполнения которых не концентрируется в нескольких компактных циклах, а сильно размазано (для большинства программ на 10% текста приходится 90% времени выполнения). Кроме того, языки более высокого уровня скрывают от программиста тонкости специфической работы с данными, необходимые для реализации форматного ввода/вывода. Если в вашем распоряжении имеется такой язык, как BLISS или PL/360 (или, быть может, XPL), то это самые лучшие кандидаты, поскольку они допускают достаточно хороший контроль над машиной и свободны от недостатков языка ассемблера.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 5 недель.
РАЗВИТИЕ ТЕМЫ. Имеется масса возможностей расширить форматы. Можно добавлять новые коды. Например:
'х...х' - То же самое, что nHX...х. Апостроф представляется парой подряд стоящих кавычек.
Bw, Ow, Zw - Ввод и вывод соответственно в двоичном, восьмеричном и шестнадцатеричном коде. В этом случае внутреннее представление элемента данных воспринимается как цепочка битов, прижатая к правому краю.
Тn - Переместиться в n-ю позицию текущей записи. Такое передвижение может привести к повторному чтению или записи части вводного или выводного файла.
Можно также ослабить слишком строгие требования для ширины поля ввода/вывода. Так, формат E.d может означать при выводе, что система сама подберет ширину w поля, а одиночный код I при вводе может означать, что следующее целое число будет ограничено пробелом, запятой или концом записи, а не шириной поля. Почти в каждой системе ввода/вывода для Фортрана есть подобные расширения, которые вы также можете добавить.
ЛИТЕРАТУРА
USA Standart FORTRAN. United States ot America Standards Institute, New York, 1966.
Описанные нами коды формата несколько отличаются от тех, которые приняты в указанном стандарте. Нам кажется, что стандарт в этой области не вполне отражает потребности практического программирования, хотя, если вместо описанных здесь кодов будут реализованы спецификации, приведенные в стандарте, мы будем только рады (объем работы примерно одинаковый). Чтение стандарта уже само по себе есть некое испытание, которому надо подвергнуть каждого преданного пользователя Фортрана. Остается только удивляться: для какого же языка написаны существующие трансляторы, поскольку ясно, что они - не для стандартного Фортрана!?
* Катцан Г. Язык Фортран-77. Пер. с англ. - М.: Мир, 1982.
В книге описывается новый стандарт для языка Фортран. Основные расширения, касающиеся форматного ввода/вывода,- это ввод/вывод в свободном формате и ввод/вывод текстовых цепочек произвольной длины (в связи с введением текстового типа данных).
ЧИТАЕМ, ПИШЕМ, СЧИТАЕМ,
ИЛИ...
КОНСТРУИРОВАНИЕ ИНТЕРПРЕТАТОРА ФОРМАТОВ
Вам, вероятно, пришлось написать по крайней мере одну программу, которая исторгала из машины бумажный поток, несущий искусно оформленные данные. Строка за строкой сомкнутыми рядами выступали из печатающего устройства целые батальоны чисел под предводительством четких заголовков. Интересовали вас только лишь два или три числа, но не напечатать всего было как-то неловко - ведь это так просто! А ВДРУГ кому-то и в самом деле захочется узнать точную сумму налога для служащего 1793 на рабочем месте 907, выплаченную им в сентябре пять лет назад.
Выдать на печать такую уйму информации и не свалиться при этом от изнеможения вам удалось благодаря существованию таких вещей, как фортранные инструкции формата, которые помогли преобразовать эти неудобоваримые двоичные числа в радующие глаз цепочки из цифр, букв и знаков. По существу, то же самое происходит и при вводе. Вводные данные аккуратно пробиваются на перфокартах, и вы даже не задумываетесь о том, каким преобразованиям должны они подвергнуться для того, чтобы центральный процессор мог проделывать над ними свои несложные арифметические фокусы. А пожалуй, о вводе и выводе стоит поразмышлять чуть серьезнее. Программа, обрабатывающая большое количество данных, вполне может тратить от четверти до половины своего счетного времени на служебные подпрограммы ввода и вывода, а большая часть этого времени в свою очередь может уходить на интерпретирование форматов и преобразование данных. Вероятно, вы уже не будете так легкомысленно относиться к преобразованиям данных при вводе и выводе, если попытаетесь решить предлагаемую задачу, превратившись на время в системного программиста.
Для изучения были выбраны форматы языка Фортран, поскольку они просты, эффективны и были, в сущности, праотцами большинства других схем форматов. Всякий раз, когда в операции ввода/вывода участвует устройство, предназначенное для взаимодействия машины с человеком, связующим звеном между ними оказывается инструкция формата. Основные элементы, участвующие в ОПЕРАЦИИ ВВОДА/ВЫВОДА,- это СПИСОК ПЕРЕМЕННЫХ, ФОРМАТ и ФАЙЛ. ЭЛЕМЕНТЫ ДАННЫХ пересылаются из файла в переменные списка или в обратном направлении, в зависимости от того, какая операция - ввода или вывода - выполняется. При пересылке каждого элемента интерпретируется некоторая часть формата, достаточная для того, чтобы определить текстовое представление этого элемента в файле. Формат определяет лишь характер пересылки того или иного элемента данных, но объем перемещаемых данных от него не зависит.
ЧТО ТАКОЕ ФОРМАТ?
Формат - это цепочка литер, описывающая преобразования данных, которые нужно выполнить. Поскольку формат всякий раз при использовании интерпретируется, то его можно рассматривать как маленькую программу. Формат общего вида имеет структуру
(y f1 s1 f2 s2 ... fn sn z),
где n может быть нулем,
y и z - последовательности наклонных черточек, возможно пустые,
fi - либо одиночный код формата, либо формат общего вида, перед которым может стоять натуральное число [Напомним, что натуральное число - это неотрицательное целое число],
si - разделитель, т.е. последовательность из запятых и наклонных черточек, которая в некоторых случаях может быть пустой.
Пробелы в формате игнорируются везде, кроме одного случая, специально оговоренного ниже, а числа записываются в виде цепочек из десятичных цифр.
Предположим, произошло обращение к операции ввода/вывода. Указатель текущей позиции в файле устанавливается начало следующей записи [Файл ввода/вывода состоит из записей, которые могут быть разной длины. Каждое физическое устройство может накладывать свои ограничения на длину записи. Предполагается, что перед первой операцией ввода/вывода с данным файлом указатель текущей позиции в нем установлен на конец воображаемой нулевой записи. При выводе по мере надобности создаются новые записи]. Курсор в формате устанавливается начальную открывающую скобку и движется вправо либо до первого кода, которому должна соответствовать переменная в списке переменных, либо до правого края формата. Такой процесс позволяет при помощи инструкции вывода напечатать строку данных, не пересылая никаких данных из переменных. Интерпретатор форматов будет иметь некоторую внутреннюю память (организованную, как правило, в виде стека), которая будет освобождаться и на которую мы будем время от времени ссылаться, говоря, что интерпретатор что-либо "запомнил". Основной цикл просмотра формата прост. Интерпретатор получает очередную переменную из списка переменных. Курсор начинает двигаться вправо по формату в поисках такого кода, который соответствует передаче элемента данных из переменной в файл или обратно. При движении курсора вправо могут встречаться такие коды, которые влияют на содержимое файла или устанавливают новые значения параметров, управляющих работой интерпретатора. Действия, предписываемые этими кодами, выполняются непосредственно в процессе сканирования. Перед некоторыми кодами допускаются КОЭФФИЦИЕНТЫ ПОВТОРЕНИЯ - такой код используется соответствующее число раз. То есть один и тот же код может использоваться с несколькими переменными списка, значит, интерпретатор должен помнить убывающее от цикла к циклу значение счетчика повторений кода. Если курсор дошел до крайней правой закрывающей скобки, то он возвращается к последней открывающей скобке первого уровня без коэффициента повторения, а если таковая отсутствует, то к начальной открывающей скобке формата. Вот три типичные ошибки, которые могут встречаться при форматном вводе/выводе: при вводе встретился конец файла; интерпретатор дважды подряд вышел на правую закрывающую скобку формата, не переслав при этом ни одного элемента данных; нет соответствия между типом кода формата, типом переменной в списке ввода/вывода и типом элемента данных, фактически находящегося в файле (последнее относится только к вводу). При завершении операции вывода последняя частично сформированная запись пишется в файл.
Теперь о самих кодах формата. Пожалуй, единственная полезная классификация, которую здесь можно провести,- это различение кодов САМОЗАВЕРШАЮЩИХСЯ и НЕСАМОЗАВЕРШАЮЩИХСЯ, которые требуют после себя запятую, наклонную черту или скобку. Интерпретатор всегда помнит текущее значение масштабирующего множителя, которое вначале устанавливается равным нулю и может быть изменено при помощи спецификации масштабирующего множителя. Перечислим коды формата:
r( - Открывающая скобка, возможно с коэффициентом повторения, обозначает начало ГРУППОВОЙ СПЕЦИФИКАЦИИ ФОРМАТА, которая заканчивается соответствующей закрывающей скобкой (число открывающих и закрывающих скобок в формате должно быть одинаковым). Вся групповая спецификация будет повторена столько раз, сколько указывает коэффициент повторения. Если коэффициент отсутствует, то считается, что он равен единице.
, - Запятая служит признаком конца для таких кодов, которые должны обязательно отделяться от последующих кодов. Никаких других функций запятая не выполняет, допускаются избыточные запятые.
/ - Наклонная черта служит признаком конца для несамозавершающихся кодов, а также означает конец обработки текущей записи файла и переход к следующей записи. Если последним обработанным кодом формата была наклонная черта, то при завершении операции ввода/вывода перехода к следующей записи уже не происходит. Несколько подряд стоящих наклонных черточек приводят к пропуску нескольких записей при вводе и к созданию пустых записей при выводе.
nX - При вводе пропускается n литер файла, при выводе в файл записывается n пробелов. Код самозавершающийся, передачи данных не происходит.
nHh1...hn - При вводе очередные n литер файла помещаются на место литер h1...hn формата. При выводе n литер h1...hn записываются в файл. Любая из литер hi может быть пробелом, это единственный случай, когда пробел является значащей литерой в формате. Код самозавершающийся. Обмена данными между файлом и переменными не происходит.
rAw - Пусть g - число литер, помещающихся в переменной, которая участвует в данном цикле интерпретации формата. Если при вводе w>=g, то крайние правые g из очередных w литер файла передаются в переменную, иначе в переменную попадут очередные w литер файла, дополненные справа g-w пробелами. Если при выводе w>=g, то в файл выводятся w-g пробелов и затем g литер переменной, в противном случае в файл попадут w крайних левых литер переменной. Коэффициент повторения r необязателен, код несамозавершающийся.
rLw - При вводе очередное поле из w литер файла должно представлять собой последовательность пробелов, за которой следует одна из букв Т или F, а далее произвольная последовательность литер, что воспринимается соответственно как значение истина или ложь. При выводе в файл помещаются w-1 пробелов и одна из букв Т или F. Коэффициент повторения г может отсутствовать; код несамозавершающийся.
rIw - При вводе цепочка литер, состоящая из нескольких старших пробелов, знака, который может и отсутствовать, и последовательности цифр и пробелов, преобразуется в машинное представление целого числа. Поле ввода состоит из w литер; пробелы после знака воспринимаются как нули. При выводе формируется поле длины w литер, состоящее из нескольких пробелов, знака минус, если он нужен, и прижатой к правому краю цепочки цифр, представляющей данное целое число. Коэффициент повторения r может отсутствовать, код несамозавершающийся.
sPrFw.d - При вводе число с плавающей точкой читается из поля длины w литер. Если поле ввода состоит только из цифр и пробелов или если левее (w-d+1)-й литеры (начиная счет с 1) встретился только знак, то мы получим вводимое вещественное значение лишь после того, как будет вставлена десятичная точка между (w-d)-й и (w-d+1)-й позициями поля ввода. Если вводимая цепочка литер содержит точку, то подразумеваемая позиция точки игнорируется. Если вводимая цепочка литер имеет вид вещественного или целого числа, за которым следует либо еще одно целое число со знаком, либо буква "Е" и целое число со знаком или без него, то это второе число воспринимается как порядок и значение вещественного числа умножается на десять в степени, равной порядку числа. Если присутствует только порядок числа с буквой "E" вначале, то считается, что перед ним стоит вещественное число, равное единице Если показательная часть числа отсутствует, то прочитанное вещественное число, прежде чем оно будет присвоено переменной из списка ввода, умножается на степень десяти с показателем, равным текущему значению масштабирующего множителя. При выводе число с плавающей точкой записывается в виде x1...xn. y1...yd. Число округлено до d знаков после точки, и, если это необходимо, снабжается знаком минус. В поле вывода обязательно присутствует точка, так что при выводе по коду F всегда выполняется неравенство w>=d+1. И в этом случае тоже выводимое значение прижимается к правому краю поля вывода. Спецификация масштабирующего множителя sP, как и коэффициент повторения r, не обязательна. Новое значение s (s - любое целое число со знаком) действует до тех пор, пока не встретится еще одна спецификация масштабирующего множителя. Код F несамозавершающийся.
sPrEw.d - Ввод осуществляется так же, как для кола F. Основная форма поля вывода имеет вид 0.yi...ydEz1...zm, где перед первым нулем и после буквы Е может стоять знак минус, если он нужен, а значение m достаточно для размещения максимального порядка, даже если для данного числа это не нужно. Если текущее значение масштабирующего множителя равно q, то вещественная часть основной формы умножается на 10**q, а порядок уменьшаетcя на q единиц. При q>0 будет q цифр слева от точки и max(d-q+1,0) цифр справа от нее: при q<=0 слева от точки будет стоять нуль, а справа d+q цифр [-q нулей и d+q цифр по стандарту Фортрана и Фортрана-77.- Прим. перев.]). Так же как и код F, код Е - несамозавершающийся, а спецификация масштабирующего множителя sP и коэффициент повторения r могут отсутствовать.
sPrGw.d - Ввод, а также интерпретация спецификаций sP и r осуществляется так же, как для кода F. Для вывода по коду G в зависимости от величины выводимого числа выбирается один из кодов F и Е. Пусть М - выводимое значение, причем 10**(k-1)<=М<10**k, где 0<=k<=d, тогда вывод производится как для кода F(w-4).(d-k),4X; в противном случае используется код Ew.d. Отметим, что масштабирующий множитель игнорируется в случае, когда для вывода выбирается код F. Код G несамозавершающийся.
ТЕМА. Создайте пакет программ форматного ввода/вывода для вашей ЭВМ. В общем случае он будет иметь ряд входных точек, доступных для пользователя (в роли которого, как правило, выступает сгенерированная компилятором объектная программа), а также ряд внутренних подпрограмм, которые должны быть защищены от доступа со стороны пользователя. Среди пользовательских входов должны быть: вход для инициализации с параметрами, определяющими операцию ввода или вывода, канал ввода/вывода и формат; входы для каждого типа переменных (вещественной, целой, логической и еще любой из них, используемой для представления текстовых данных), а также вход для терминирования ввода/вывода. Внутреннее представление данных может иметь вид, принятый на вашей ЭВМ, или вид, описанный в гл.25 для ЭВМ УМ-1. Проведите основательное тестирование своих программ и убедитесь, что округление и обработка особых случаев выполняется правильно, а в случае ошибок выдаются соответствующие сообщения.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Наиболее трудная часть задачи - составить ясное представление о поведении вещественных чисел на вашей ЭВМ. Преобразование данных текстового, целого и логического типов выполняется легко, а для сканирования формата и поддержания буферов годятся весьма простые методы. Однако вы, вероятно, обнаружите, что для реализации ВПОЛНЕ правильного округления придется серьезно поразмыслить, а быть может, и немного поэкспериментировать. Обязательно включите в свои тесты значения чуть больше и чуть меньше степеней 10, чуть меньше 10**-d и т.д. Не поддавайтесь соблазну выделять все увеличивающееся количество частных случаев с целью исправить допущенные ранее в работе промахи, попытайтесь вместо этого найти какой-то другой подход. Одной из наших досаднейших программистских неудач был пакет форматного ввода/вывода, разросшийся наподобие Топси до свыше 3000 строк на языке ассемблера. Как непросто теперь заменить его более ясной и эффективной программой примерно в 1000 строк, написанной еще кем-нибудь! С какой радостью мы бы навсегда избавились от этого монстра!
ИНСТРУМЕНТОВКА. Это одна из тех задач, для которых можно порекомендовать язык ассемблера. Пакеты форматного ввода/вывода должны быть достаточно эффективными, и к тому же они принадлежат к числу программ, время выполнения которых не концентрируется в нескольких компактных циклах, а сильно размазано (для большинства программ на 10% текста приходится 90% времени выполнения). Кроме того, языки более высокого уровня скрывают от программиста тонкости специфической работы с данными, необходимые для реализации форматного ввода/вывода. Если в вашем распоряжении имеется такой язык, как BLISS или PL/360 (или, быть может, XPL), то это самые лучшие кандидаты, поскольку они допускают достаточно хороший контроль над машиной и свободны от недостатков языка ассемблера.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 5 недель.
РАЗВИТИЕ ТЕМЫ. Имеется масса возможностей расширить форматы. Можно добавлять новые коды. Например:
'х...х' - То же самое, что nHX...х. Апостроф представляется парой подряд стоящих кавычек.
Bw, Ow, Zw - Ввод и вывод соответственно в двоичном, восьмеричном и шестнадцатеричном коде. В этом случае внутреннее представление элемента данных воспринимается как цепочка битов, прижатая к правому краю.
Тn - Переместиться в n-ю позицию текущей записи. Такое передвижение может привести к повторному чтению или записи части вводного или выводного файла.
Можно также ослабить слишком строгие требования для ширины поля ввода/вывода. Так, формат E.d может означать при выводе, что система сама подберет ширину w поля, а одиночный код I при вводе может означать, что следующее целое число будет ограничено пробелом, запятой или концом записи, а не шириной поля. Почти в каждой системе ввода/вывода для Фортрана есть подобные расширения, которые вы также можете добавить.
ЛИТЕРАТУРА
USA Standart FORTRAN. United States ot America Standards Institute, New York, 1966.
Описанные нами коды формата несколько отличаются от тех, которые приняты в указанном стандарте. Нам кажется, что стандарт в этой области не вполне отражает потребности практического программирования, хотя, если вместо описанных здесь кодов будут реализованы спецификации, приведенные в стандарте, мы будем только рады (объем работы примерно одинаковый). Чтение стандарта уже само по себе есть некое испытание, которому надо подвергнуть каждого преданного пользователя Фортрана. Остается только удивляться: для какого же языка написаны существующие трансляторы, поскольку ясно, что они - не для стандартного Фортрана!?
* Катцан Г. Язык Фортран-77. Пер. с англ. - М.: Мир, 1982.
В книге описывается новый стандарт для языка Фортран. Основные расширения, касающиеся форматного ввода/вывода,- это ввод/вывод в свободном формате и ввод/вывод текстовых цепочек произвольной длины (в связи с введением текстового типа данных).
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
19
ПИКОВОЕ ПОЛОЖЕНИЕ,
ИЛИ...
СТАТИСТИКА ПАСЬЯНСОВ
У каждого программиста рано или поздно наступает момент, когда работа не идет. Без каких-либо видимых причин программа прямо-таки сопротивляется всем вашим усилиям написать ее. Каждая новая попытка тут же оборачивается грудой макулатуры, и корзина снова полна испорченными бланками. Выход один - забросить на время эту задачу. Если ваш начальник станет выражать свое неудовольствие, объясните ему, что для повышения продуктивности вам необходимо снять умственное напряжение. И пойдите в кино. Или гоняйте мяч до изнеможения. Пообсуждайте КРИТИКУ ЧИСТОГО РАЗУМА с какой-нибудь симпатичной вам особой противоположного пола. Просадите небольшую сумму на скачках. Или возьмите колоду карт и приготовьтесь убить часа три, раскладывая свой любимый ПАСЬЯНС. (В Англии бы сказали: приготовьтесь потерять ТЕРПЕНИЕ [Английское словосочетание to lose patience имеет два значения - "потерять терпение" и "проиграть пасьянс".- Прим. перев.]).
Есть две разновидности пасьянсов. В пасьянсах первого рода есть правила раскладки карт, а также правила перекладывания карт. Раскладывание такого пасьянса - это некий механический ритуал, где человек выступает в роли автомата. Такая игра, хоть она и лишена творческого элемента, поможет вам в полной мере вкусить и понять эмоциональное состояние компьютера, выполняющего одну из ваших программ. В пасьянсах второго рода игроку предоставляется некоторая свобода выбора. Человек уже не пассивный наблюдатель, он вступает в борьбу против слепого Случая, олицетворенного перетасованной колодой игральных карт. В таких играх обычно имеются некоторые искусственные условия выигрыша, однако почти ничего не известно о том, каких результатов можно достичь, играя наилучшим образом. Прибегнув к помощи компьютера, можно найти тот эталон, с которым игрок мог бы сравнивать свои результаты. Итак, не раскладывание пасьянса, а программирование игры поможет вам снять умственное напряжение.
ПРАВИЛА РАСКЛАДЫВАНИЯ ОДНОГО ПАСЬЯНСА
Возьмите обычную колоду карт и тщательно ее перетасуйте. Затем разложите карты так, как показано на рис.19.1. В середине выложите слева направо ряд из семи стопок, содержащих соответственно ноль, одну, две, ..., шесть карт рубашкой вверх и еще по одной карте сверху рубашкой вниз. На это уйдет 28 карт. Остальные 24 карты разложите в шесть столбиков из четырех перекрывающихся карт под шестью правыми стопками. Все карты в столбиках лежат рубашкой вниз, они перекрывают друга таким образом, что самая нижняя, последняя карта столбика лежит поверх предыдущей, которая в свою очередь лежит поверх предыдущей, и т.д. до карты, которая лежит поверх соответствующей стопки и служит начальной картой для этого столбика. Выкладывать карты следует так, чтобы старшинство и масть карты, лежащей рубашкой вниз, были хорошо видны. Наконец, в верхней части стола нужно предусмотреть место для четырех СЧЕТНЫХ СТОПОК, по одной для каждой масти. На рис.19.1 изображен общий вид первоначальной раскладки.
Рисунок 19.1. Сдача карт для пасьянса. Карты в стопках под первыми картами столбиков со второго по седьмой лежат рубашкой вверх, остальные карты лежат рубашкой вниз.
Один ход состоит в том, что выбирается произвольная карта, лежащая рубашкой вниз, вместе со всеми накрывающими ее картами, т.е. со всеми картами, лежащими ниже ее в том же столбике, и эта часть столбика пристраивается в низ какого-либо другого столбика. Перемещение возможно лишь в том случае, если выбранная карта имеет ту же масть и на единицу младше той карты, на которую она накладывается (в этой игре тузы имеют наименьшее старшинство, т.е. соответствуют единице, а наибольшее старшинство имеют короли). На рис.19.2 изображен пример возможного хода. Если в результате такого перемещения освобождается верхняя, лежащая рубашкой вверх карта стопки, то ход завершается переворачиванием этой карты. В результате хода может также полностью опустошиться один из столбиков; тогда на любом из последующих ходов на освободившееся место можно перенести любого лежащего рубашкой вниз короля вместе со всеми накрывающими его картами. Если какой-то из тузов оказывается последней картой в одном из столбиков, то он перекладывается в верхнюю часть стола и дает начало счетной стопке для своей масти. После того как начата счетная стопка для какой-либо масти, в нее можно добавлять другие карты той же масти по мере того, как они оказываются последними в каком-нибудь столбике, но так, чтобы карты в счетной стопке шли в строго возрастающем порядке по старшинству. Заметим, что если последнюю карту столбика можно положить в счетную стопку, то медлить с этим не стоит, поскольку рано или поздно ее все равно придется туда положить, а до тех пор эта карта может лишь блокировать дальнейшие ходы с участием своего столбика.
19.2. Пример возможного хода с перемещением карт из одного столбика в другой. Карты, начиная с тройки треф и ниже в том же порядке, накладываются поверх четверки треф. Остальные столбики не показаны.
Игра кончается, когда не остается ни одного допустимого хода и ни одну карту нельзя положить в счетную стопку. СЧЕТ ИГРЫ равен суммарному числу карт в счетных стопках. Как выяснилось, эта игра весьма популярна в Лас Вегасе (известном также под названием Город Просаженных Получек [Эта грустная шутка основана на созвучии Las Vegas (Лас Вегас) и lost wages (потерянные зарплаты).- Прим. перев.]). Колоду карт в казино можно получить по цене 1долл. за карту (плюс 3долл. за право начать игру), игрок же получает 5долл. за каждую карту, вошедшую в счет. Таким образом, при счете 11 карт (за что причитается 55долл.) игрок остается при своих, а каждая карта сверх того - его чистый выигрыш. Сомнительно, чтобы в казино действительно предлагались такие условия, но если это так, то мы вправе подозревать, что владельцы должны иметь чудовищные прибыли. Каково в действительности ожидаемое число карт в счетных стопках? Насколько нечестными были бы при данных условиях доходы владельцев казино?
АНАЛИЗ ПАСЬЯНСА
Каждой первоначальной раскладке соответствует в точности один оптимальный результат, хотя достичь его можно при различных последовательностях ходов. По-видимому, существует некоторая очень сложная вероятностная функция для вычисления ожидаемого значения оптимального результата. Но даже если бы удалось явно выписать эту функцию, она, несомненно, содержала бы столь большое количество членов, что вычислить ее было бы делом крайне затруднительным. Нельзя ли вместо этого попытаться сыграть достаточно много партий и извлечь интересующую статистику из полученных таким образом результатов? Эта идея применения моделирования для получения результата, который теоретически может быть непосредственно вычислен, уже встречалась в других главах книги именно потому, что, как и в данном случае, превращение компьютера в модель интересующего нас реального процесса оказывается весьма плодотворным. Какова необходимая последовательность действий при моделировании пасьянса?
Во-первых, нужны подпрограммы для получения первоначальной раскладки, для проверки существования возможных ходов в данной позиции, для перемещения карт, для переворачивания верхней карты стопки, для перекладывания карты в счетную стопку - словом, процедуры, реализующие явный процесс раскладывания пасьянса. При помощи этих процедур можно вычислить результат любой заданной последовательности ходов. Для того чтобы найти оптимальный результат, реализуем на базе этих процедур СТРАТЕГИЮ ПОИСКА. После сдачи карт получаем некоторую начальную позицию. Стратегия поиска состоит в выполнении для каждой позиции, получающейся в ходе игры, следующих действий:
- Подсчитать, сколько возможных ходов имеется для данной позиции. Их всегда не более семи.
- Если возможных ходов нет, то данная последовательность ходов закончена, и можно записать ее счет. Установить новую текущую позицию, взяв верхний элемент со СТЕКА ПОЗИЦИЙ, и возвратиться к началу цикла. Если стек позиций пуст, то закончить поиск.
- Если есть только один ход, то выполнить его и вернуться к началу цикла. Если ходов несколько, то упорядочить их (способ упорядочения ке играет роли), записать в стек позиций текущую позицию, упорядоченный список возможных ходов, а также тот факт, что первый ход уже сделан. Выполнить первый ход и возвратиться к началу цикла. Заметим, что в шаге один, если позиция была взята со стека, неявно предполагается, что при подсчете числа возможных ходов вначале всегда ищется частично завершенный список возможных ходов.
Эта стратегия осуществляет ПОИСК "СНАЧАЛА В ГЛУБИНУ" по всем возможным последовательностям ходов с запоминанием еще не исследованных позиций в стеке. Поскольку проверяются все возможные последовательности ходов, то данная стратегия гарантирует нахождение некоторой, быть может не единственной, оптимальной последовательности.
Одна из неприятных для игрока особенностей этого пасьянса состоит в том, что довольно часто сразу после первоначальной раскладки не оказывается вообще ни одного возможного хода. Раскладка карт - это лишь некоторый сложный способ тасования. Несмотря на значительную вероятность быстрого окончания игры, следует ожидать все же, что дерево позиций может вырасти до очень больших размеров. Но дерево это на деле является графом, поскольку к одной и той же позиции вполне можно прийти после различных последовательностей ходов. Если некоторая позиция уже была однажды исследована, нет нужды рассматривать ее снова. Оптимальный результат игры не зависит от порядка ходов или от конкретной последовательности ходов, ведущей к нему. Если все уже исследованные позиции запоминать, то каждую вновь возникшую позицию можно во избежание повторной обработки сравнивать с этими старыми позициями. Сохранять нужно только сами позиции, без списка возможных ходов. Естественно, при этом возникает проблема поиска в множестве старых позиций.
ТЕМА. Напишите программу для нахождения среднего значения и стандартного отклонения оптимального счета в данном пасьянсе. Покажите, что число рассмотренных игр обеспечивает достоверность полученных статистических результатов. Подсчитайте также, если сумеете, среднее число ходов и среднее число точек принятия решения на пути к оптимальному результату. Единственный входной параметр программы - число пасьянсов, которые нужно разложить. Вывод обязательно должен содержать требуемую статистику, но иногда оказываются полезными и другие данные. В частности, можно выдать информацию о распределении памяти для хранения старых позиций.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Организация карт в представлении позиции, а также способ хранения старых позиций решающим образом определяют уровень эффективности программы. Если позиция является текущей или находится в стеке, то для нее должно быть известно состояние всех стопок и соответствующих им столбиков, а также счетных стопок. Позиция в стеке должна содержать, кроме того, список еще не проверенных ходов. Для ускорения поиска возможных ходов нужно иметь вектор состояния для всех карт, в котором должны быть такие признаки карты: лежит ли она рубашкой вверх, находится ли уже в счете, лежит ли рубашкой вниз внутри столбика (какого именно?), лежит ли рубашкой вниз в низу столбика (какого именно?). Быть может, вы сумеете придумать другую структуру данных, обеспечивающую быстрое нахождение возможных ходов. В любом случае при запоминании старой позиции часть информации, как уже использованную, можно отбросить, экономя таким образом память.
Здесь потребуется два специальных алгоритма. Во-первых, как реализовать тасование карт в ЭВМ? Вот процедура, предложенная Кнутом. Пусть rand52 - функция, генерирующая случайные целые числа, равномерно распределенные в отрезке от 1 до 52. Поместите все карты в массив КАРТА длины 52; как в нем расположены карты вначале - не имеет значения. После этого для i от 1 до 52 поменяйте местами элементы КАРТА[i] и КАРТА[rand52], каждый раз заново обращаясь к функции rand52. Одного такого тасования будет достаточно.
Во-вторых, как находить старые позиции? Это классическая задача поиска в растущей базе данных. Очевидным решением тут представляется хеш-таблица, где ключом поиска служит вся позиция. Поскольку полное сравнение двух позиций на равенство, скорее всего, обойдется слишком дорого, то разумно, по-видимому, будет применить виртуальный хеш-код. Пространство, отведенное для хранения старых позиций, может переполняться, поэтому вы должны уметь время от времени освобождать его. Наилучший способ освобождения памяти состоит, пожалуй, в том, чтобы иметь при каждой позиции счетчик, показывающий, сколько раз к ней обращались, и отбрасывать каждый раз те позиции, которые участвовали реже всего. Другой способ, который можно использовать и в сочетании с первым,- хранить список всех старых позиций и всякий раз, когда ищется кая-либо позиция, перемещать ее в голову списка. Когда придет время отбросить часть позиций, то кандидатами на уничтожение будут позиции в хвосте списка, поскольку к ним дольше всего не было обращений. Принятый вами способ отбрасывания старых позиций окажет влияние на выбор стратегии поиска, и наоборот. Заметим, что, хотя алгоритм отбрасывания старых позиций и не влияет на правильность программы анализа пасьянсов, тем не менее он может существенно ее замедлить.
ИНСТРУМЕНТОВКА. Эта задача требует средств для удобной работы со структурами данных умеренной сложности. В интересах эффективности выделение и освобождение памяти не следует доверять системе, так что Снобол, видимо, не подойдет. Претендентами могут быть языки Алгол W, Паскаль, PL/I, Лисп и даже Кобол. Вы сможете оценить достоинства структур данных, определяемых программистом, если попытаетесь решить эту задачу сначала на одном из упомянутых выше языков, а потом еще раз на языке типа Фортран или XPL, в которых сложные структуры данных приходится представлять при помощи параллельных массивов.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. Наиболее очевидное расширение задачи - применить этот метод анализа к другим пасьянсам. Осуществление этой идеи не связано с какими-либо трудностями, если только во время игры не происходит тасования карт. На свете существуют сотни пасьянсов, и ни один из них, насколько нам известно, не подвергался мало-мальски серьезному анализу. На этой задаче можно также изучать зависимости общего числа исследуемых позиций от объема памяти и критерия отбрасывания старых позиций. Иначе говоря, чем исследовать пасьянс при помощи методов поиска, используем задачу о пасьянсе для изучения методов поиска.
ЛИТЕРАТУРА
Гибсон (Gibson W.В.). How to Play Winning Solitaire. Frederick Fell, New York, NY, 1964.
Это единственная из известных автору книг о данном пасьянсе.
Кнут (Knuth D.E.). The Art of Computer Programming, Volume 3/Sorting and Searching. Addison-Wesley, Reading, MA, 1973. [Имеется перевод: Кнут Д. Искусство программирования. Т.3. Сортировка и поиск.- М.: Мир, 1978]
Снова ссылка на книгу Кнута. На этот раз в гл.6 вы сможете прочитать все о методах поиска, в частности о поиске по хеш-таблице. Разумеется, если вы внимательно изучите всю главу, то, возможно, обнаружите и лучший метод поиска.
* "Наука и жизнь", #12, 1968; #2, 1978.
* Гарднер М. Математические новеллы.- М.: Мир, 1974, с.336.
В двух последних источниках приводится описание простых пасьянсов, которые также можно использовать для упражнения в программировании.
ПИКОВОЕ ПОЛОЖЕНИЕ,
ИЛИ...
СТАТИСТИКА ПАСЬЯНСОВ
У каждого программиста рано или поздно наступает момент, когда работа не идет. Без каких-либо видимых причин программа прямо-таки сопротивляется всем вашим усилиям написать ее. Каждая новая попытка тут же оборачивается грудой макулатуры, и корзина снова полна испорченными бланками. Выход один - забросить на время эту задачу. Если ваш начальник станет выражать свое неудовольствие, объясните ему, что для повышения продуктивности вам необходимо снять умственное напряжение. И пойдите в кино. Или гоняйте мяч до изнеможения. Пообсуждайте КРИТИКУ ЧИСТОГО РАЗУМА с какой-нибудь симпатичной вам особой противоположного пола. Просадите небольшую сумму на скачках. Или возьмите колоду карт и приготовьтесь убить часа три, раскладывая свой любимый ПАСЬЯНС. (В Англии бы сказали: приготовьтесь потерять ТЕРПЕНИЕ [Английское словосочетание to lose patience имеет два значения - "потерять терпение" и "проиграть пасьянс".- Прим. перев.]).
Есть две разновидности пасьянсов. В пасьянсах первого рода есть правила раскладки карт, а также правила перекладывания карт. Раскладывание такого пасьянса - это некий механический ритуал, где человек выступает в роли автомата. Такая игра, хоть она и лишена творческого элемента, поможет вам в полной мере вкусить и понять эмоциональное состояние компьютера, выполняющего одну из ваших программ. В пасьянсах второго рода игроку предоставляется некоторая свобода выбора. Человек уже не пассивный наблюдатель, он вступает в борьбу против слепого Случая, олицетворенного перетасованной колодой игральных карт. В таких играх обычно имеются некоторые искусственные условия выигрыша, однако почти ничего не известно о том, каких результатов можно достичь, играя наилучшим образом. Прибегнув к помощи компьютера, можно найти тот эталон, с которым игрок мог бы сравнивать свои результаты. Итак, не раскладывание пасьянса, а программирование игры поможет вам снять умственное напряжение.
ПРАВИЛА РАСКЛАДЫВАНИЯ ОДНОГО ПАСЬЯНСА
Возьмите обычную колоду карт и тщательно ее перетасуйте. Затем разложите карты так, как показано на рис.19.1. В середине выложите слева направо ряд из семи стопок, содержащих соответственно ноль, одну, две, ..., шесть карт рубашкой вверх и еще по одной карте сверху рубашкой вниз. На это уйдет 28 карт. Остальные 24 карты разложите в шесть столбиков из четырех перекрывающихся карт под шестью правыми стопками. Все карты в столбиках лежат рубашкой вниз, они перекрывают друга таким образом, что самая нижняя, последняя карта столбика лежит поверх предыдущей, которая в свою очередь лежит поверх предыдущей, и т.д. до карты, которая лежит поверх соответствующей стопки и служит начальной картой для этого столбика. Выкладывать карты следует так, чтобы старшинство и масть карты, лежащей рубашкой вниз, были хорошо видны. Наконец, в верхней части стола нужно предусмотреть место для четырех СЧЕТНЫХ СТОПОК, по одной для каждой масти. На рис.19.1 изображен общий вид первоначальной раскладки.
Рисунок 19.1. Сдача карт для пасьянса. Карты в стопках под первыми картами столбиков со второго по седьмой лежат рубашкой вверх, остальные карты лежат рубашкой вниз.
Один ход состоит в том, что выбирается произвольная карта, лежащая рубашкой вниз, вместе со всеми накрывающими ее картами, т.е. со всеми картами, лежащими ниже ее в том же столбике, и эта часть столбика пристраивается в низ какого-либо другого столбика. Перемещение возможно лишь в том случае, если выбранная карта имеет ту же масть и на единицу младше той карты, на которую она накладывается (в этой игре тузы имеют наименьшее старшинство, т.е. соответствуют единице, а наибольшее старшинство имеют короли). На рис.19.2 изображен пример возможного хода. Если в результате такого перемещения освобождается верхняя, лежащая рубашкой вверх карта стопки, то ход завершается переворачиванием этой карты. В результате хода может также полностью опустошиться один из столбиков; тогда на любом из последующих ходов на освободившееся место можно перенести любого лежащего рубашкой вниз короля вместе со всеми накрывающими его картами. Если какой-то из тузов оказывается последней картой в одном из столбиков, то он перекладывается в верхнюю часть стола и дает начало счетной стопке для своей масти. После того как начата счетная стопка для какой-либо масти, в нее можно добавлять другие карты той же масти по мере того, как они оказываются последними в каком-нибудь столбике, но так, чтобы карты в счетной стопке шли в строго возрастающем порядке по старшинству. Заметим, что если последнюю карту столбика можно положить в счетную стопку, то медлить с этим не стоит, поскольку рано или поздно ее все равно придется туда положить, а до тех пор эта карта может лишь блокировать дальнейшие ходы с участием своего столбика.
19.2. Пример возможного хода с перемещением карт из одного столбика в другой. Карты, начиная с тройки треф и ниже в том же порядке, накладываются поверх четверки треф. Остальные столбики не показаны.
Игра кончается, когда не остается ни одного допустимого хода и ни одну карту нельзя положить в счетную стопку. СЧЕТ ИГРЫ равен суммарному числу карт в счетных стопках. Как выяснилось, эта игра весьма популярна в Лас Вегасе (известном также под названием Город Просаженных Получек [Эта грустная шутка основана на созвучии Las Vegas (Лас Вегас) и lost wages (потерянные зарплаты).- Прим. перев.]). Колоду карт в казино можно получить по цене 1долл. за карту (плюс 3долл. за право начать игру), игрок же получает 5долл. за каждую карту, вошедшую в счет. Таким образом, при счете 11 карт (за что причитается 55долл.) игрок остается при своих, а каждая карта сверх того - его чистый выигрыш. Сомнительно, чтобы в казино действительно предлагались такие условия, но если это так, то мы вправе подозревать, что владельцы должны иметь чудовищные прибыли. Каково в действительности ожидаемое число карт в счетных стопках? Насколько нечестными были бы при данных условиях доходы владельцев казино?
АНАЛИЗ ПАСЬЯНСА
Каждой первоначальной раскладке соответствует в точности один оптимальный результат, хотя достичь его можно при различных последовательностях ходов. По-видимому, существует некоторая очень сложная вероятностная функция для вычисления ожидаемого значения оптимального результата. Но даже если бы удалось явно выписать эту функцию, она, несомненно, содержала бы столь большое количество членов, что вычислить ее было бы делом крайне затруднительным. Нельзя ли вместо этого попытаться сыграть достаточно много партий и извлечь интересующую статистику из полученных таким образом результатов? Эта идея применения моделирования для получения результата, который теоретически может быть непосредственно вычислен, уже встречалась в других главах книги именно потому, что, как и в данном случае, превращение компьютера в модель интересующего нас реального процесса оказывается весьма плодотворным. Какова необходимая последовательность действий при моделировании пасьянса?
Во-первых, нужны подпрограммы для получения первоначальной раскладки, для проверки существования возможных ходов в данной позиции, для перемещения карт, для переворачивания верхней карты стопки, для перекладывания карты в счетную стопку - словом, процедуры, реализующие явный процесс раскладывания пасьянса. При помощи этих процедур можно вычислить результат любой заданной последовательности ходов. Для того чтобы найти оптимальный результат, реализуем на базе этих процедур СТРАТЕГИЮ ПОИСКА. После сдачи карт получаем некоторую начальную позицию. Стратегия поиска состоит в выполнении для каждой позиции, получающейся в ходе игры, следующих действий:
- Подсчитать, сколько возможных ходов имеется для данной позиции. Их всегда не более семи.
- Если возможных ходов нет, то данная последовательность ходов закончена, и можно записать ее счет. Установить новую текущую позицию, взяв верхний элемент со СТЕКА ПОЗИЦИЙ, и возвратиться к началу цикла. Если стек позиций пуст, то закончить поиск.
- Если есть только один ход, то выполнить его и вернуться к началу цикла. Если ходов несколько, то упорядочить их (способ упорядочения ке играет роли), записать в стек позиций текущую позицию, упорядоченный список возможных ходов, а также тот факт, что первый ход уже сделан. Выполнить первый ход и возвратиться к началу цикла. Заметим, что в шаге один, если позиция была взята со стека, неявно предполагается, что при подсчете числа возможных ходов вначале всегда ищется частично завершенный список возможных ходов.
Эта стратегия осуществляет ПОИСК "СНАЧАЛА В ГЛУБИНУ" по всем возможным последовательностям ходов с запоминанием еще не исследованных позиций в стеке. Поскольку проверяются все возможные последовательности ходов, то данная стратегия гарантирует нахождение некоторой, быть может не единственной, оптимальной последовательности.
Одна из неприятных для игрока особенностей этого пасьянса состоит в том, что довольно часто сразу после первоначальной раскладки не оказывается вообще ни одного возможного хода. Раскладка карт - это лишь некоторый сложный способ тасования. Несмотря на значительную вероятность быстрого окончания игры, следует ожидать все же, что дерево позиций может вырасти до очень больших размеров. Но дерево это на деле является графом, поскольку к одной и той же позиции вполне можно прийти после различных последовательностей ходов. Если некоторая позиция уже была однажды исследована, нет нужды рассматривать ее снова. Оптимальный результат игры не зависит от порядка ходов или от конкретной последовательности ходов, ведущей к нему. Если все уже исследованные позиции запоминать, то каждую вновь возникшую позицию можно во избежание повторной обработки сравнивать с этими старыми позициями. Сохранять нужно только сами позиции, без списка возможных ходов. Естественно, при этом возникает проблема поиска в множестве старых позиций.
ТЕМА. Напишите программу для нахождения среднего значения и стандартного отклонения оптимального счета в данном пасьянсе. Покажите, что число рассмотренных игр обеспечивает достоверность полученных статистических результатов. Подсчитайте также, если сумеете, среднее число ходов и среднее число точек принятия решения на пути к оптимальному результату. Единственный входной параметр программы - число пасьянсов, которые нужно разложить. Вывод обязательно должен содержать требуемую статистику, но иногда оказываются полезными и другие данные. В частности, можно выдать информацию о распределении памяти для хранения старых позиций.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Организация карт в представлении позиции, а также способ хранения старых позиций решающим образом определяют уровень эффективности программы. Если позиция является текущей или находится в стеке, то для нее должно быть известно состояние всех стопок и соответствующих им столбиков, а также счетных стопок. Позиция в стеке должна содержать, кроме того, список еще не проверенных ходов. Для ускорения поиска возможных ходов нужно иметь вектор состояния для всех карт, в котором должны быть такие признаки карты: лежит ли она рубашкой вверх, находится ли уже в счете, лежит ли рубашкой вниз внутри столбика (какого именно?), лежит ли рубашкой вниз в низу столбика (какого именно?). Быть может, вы сумеете придумать другую структуру данных, обеспечивающую быстрое нахождение возможных ходов. В любом случае при запоминании старой позиции часть информации, как уже использованную, можно отбросить, экономя таким образом память.
Здесь потребуется два специальных алгоритма. Во-первых, как реализовать тасование карт в ЭВМ? Вот процедура, предложенная Кнутом. Пусть rand52 - функция, генерирующая случайные целые числа, равномерно распределенные в отрезке от 1 до 52. Поместите все карты в массив КАРТА длины 52; как в нем расположены карты вначале - не имеет значения. После этого для i от 1 до 52 поменяйте местами элементы КАРТА[i] и КАРТА[rand52], каждый раз заново обращаясь к функции rand52. Одного такого тасования будет достаточно.
Во-вторых, как находить старые позиции? Это классическая задача поиска в растущей базе данных. Очевидным решением тут представляется хеш-таблица, где ключом поиска служит вся позиция. Поскольку полное сравнение двух позиций на равенство, скорее всего, обойдется слишком дорого, то разумно, по-видимому, будет применить виртуальный хеш-код. Пространство, отведенное для хранения старых позиций, может переполняться, поэтому вы должны уметь время от времени освобождать его. Наилучший способ освобождения памяти состоит, пожалуй, в том, чтобы иметь при каждой позиции счетчик, показывающий, сколько раз к ней обращались, и отбрасывать каждый раз те позиции, которые участвовали реже всего. Другой способ, который можно использовать и в сочетании с первым,- хранить список всех старых позиций и всякий раз, когда ищется кая-либо позиция, перемещать ее в голову списка. Когда придет время отбросить часть позиций, то кандидатами на уничтожение будут позиции в хвосте списка, поскольку к ним дольше всего не было обращений. Принятый вами способ отбрасывания старых позиций окажет влияние на выбор стратегии поиска, и наоборот. Заметим, что, хотя алгоритм отбрасывания старых позиций и не влияет на правильность программы анализа пасьянсов, тем не менее он может существенно ее замедлить.
ИНСТРУМЕНТОВКА. Эта задача требует средств для удобной работы со структурами данных умеренной сложности. В интересах эффективности выделение и освобождение памяти не следует доверять системе, так что Снобол, видимо, не подойдет. Претендентами могут быть языки Алгол W, Паскаль, PL/I, Лисп и даже Кобол. Вы сможете оценить достоинства структур данных, определяемых программистом, если попытаетесь решить эту задачу сначала на одном из упомянутых выше языков, а потом еще раз на языке типа Фортран или XPL, в которых сложные структуры данных приходится представлять при помощи параллельных массивов.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. Наиболее очевидное расширение задачи - применить этот метод анализа к другим пасьянсам. Осуществление этой идеи не связано с какими-либо трудностями, если только во время игры не происходит тасования карт. На свете существуют сотни пасьянсов, и ни один из них, насколько нам известно, не подвергался мало-мальски серьезному анализу. На этой задаче можно также изучать зависимости общего числа исследуемых позиций от объема памяти и критерия отбрасывания старых позиций. Иначе говоря, чем исследовать пасьянс при помощи методов поиска, используем задачу о пасьянсе для изучения методов поиска.
ЛИТЕРАТУРА
Гибсон (Gibson W.В.). How to Play Winning Solitaire. Frederick Fell, New York, NY, 1964.
Это единственная из известных автору книг о данном пасьянсе.
Кнут (Knuth D.E.). The Art of Computer Programming, Volume 3/Sorting and Searching. Addison-Wesley, Reading, MA, 1973. [Имеется перевод: Кнут Д. Искусство программирования. Т.3. Сортировка и поиск.- М.: Мир, 1978]
Снова ссылка на книгу Кнута. На этот раз в гл.6 вы сможете прочитать все о методах поиска, в частности о поиске по хеш-таблице. Разумеется, если вы внимательно изучите всю главу, то, возможно, обнаружите и лучший метод поиска.
* "Наука и жизнь", #12, 1968; #2, 1978.
* Гарднер М. Математические новеллы.- М.: Мир, 1974, с.336.
В двух последних источниках приводится описание простых пасьянсов, которые также можно использовать для упражнения в программировании.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
20 КВАДРАТНЫЙ ТРЕХЧЛЕН,
ИЛИ...
ПАКЕТ ДЛЯ АЛГЕБРАИЧЕСКИХ ВЫЧИСЛЕНИЙ
Основная трудность, с которой сталкивается программист в большинстве языков программирования,- необходимость при записи вычислений разбивать свои уравнения на мелкие части. Так, если требуется производная, то программист должен записать исходную функцию, снять с полки учебник по математическому анализу, применить изложенные там правила и затем записать получившуюся производную. Однако многие операции можно выполнить на символьном уровне, по крайней мере в случае многочленов, если представлять их подходящим образом. Некоторые программы оказались бы совсем ненужными, если бы ЭВМ могла оперировать с многочленами.
Объекты, с которыми мы будем работать,- это РАЦИОНАЛЬНЫЕ ФУНКЦИИ. Их можно определить рекурсивно.
- Пусть c - любая вещественная КОНСТАНТА. Тогда c - рациональная функция.
- Пусть x - любая ПЕРЕМЕННАЯ. Тогда x - рациональная функция.
- Пусть p и q - любые рациональные функции. Тогда p+q, p-q, -p, pq, p/q и (р) все ceть рациональные функции. При делении рациональных функций производится упрощение, так чтобы остался только один знак деления. Правила этого упрощения хорошо знакомы школьникам, изучающим алгебру.
- Пусть p - любая рациональная функция, а c - целочисленная константа. Тогда p**c - рациональная функция. Если c отрицательна, образуйте рациональную функцию 1/p**|с| и упростите деление как выше.
- Рациональными функциями являются только те объекты, которые получаются путем применения конечного числа приведенных выше правил.
Кроме определения рациональных функций мы должны описать, как будет выглядеть их запись в качестве исходных данных и на выходе и как вызывать операции.
Рациональные функции в качестве исходных данных будут похожи на выражения в стандартном языке программирования. Константы могут изображаться любой последовательностью десятичных цифр с десятичной точкой; если десятичная точка отсутствует, то константа автоматически будет целочисленной. В силу правил образования рациональных функций константы не имеют знака, за исключением констант в показателе степени. Переменная выглядит как идентификатор и может быть любой цепочкой из больших и малых литер алфавита. Из-за ограничений на выбор литер в ЭВМ умножение будет изображаться знаком *, а возведение в степень - знаком ^. Так, рациональную функцию
можно записать как
2*X*Y+(X^2+Y^2)^3
Некоторые другие имена, в частности имена функций, также будут идентификаторами.
Для манипуляций с рациональными функциями нам нужны некоторые команды, чтобы пользователь мог получать ответы на вопросы, на которые не удается ответить с помощью традиционных языков программирования. Для этого нам понадобится обозначать рациональные функции идентификаторами. Самое фундаментальное действие такое:
Установить f равным p; Эта команда приводит к тому, что имя рациональной функции f (мы будем писать сокращенно - имя функции) получает в качестве значения рациональную функцию p. Эта операция - символьная; она не вызывает вычисления p. Если некоторый идентификатор f использован как имя функции, то его нельзя употреблять в последующих командах в качестве переменной; надо иметь в виду, что во время интерпретации потребуется таблица имен, значений и использований. Вместо рациональной функции p может стоять имя функции; в этом случае f получает значение, которое в данный момент имеет p. Все команды заканчиваются точкой с запятой. Примеры описываемой команды:
Установить P равным z*x^2+3.5;
Установить fpt равным Р;
Большая часть остальных команд выполняет некоторую операцию над своими операндами и помещает результат в качестве значения некоторого имени функции.
Установить f равным сумме p и q; Образовать алгебраическую сумму p и q и записать полученное значение под именем f. Во всех командах исходные данные записываются в свободном формате - границы строк (или перфокарт) несущественны; единственным разделителем команд служит точка с запятой. Операндами могут быть имена функций; в таком случае в операциях используются значения, приписанные этим именам.
Установить f равным разности p минус q; Образовать алгебраическую разность p и q и записать полученное значение под именем f.
Установить f равным произведению p и q; Образовать алгебраическое произведение p и q и записать результат под именем f.
Установить f равным частному при делении p на q; Образовать алгебраическое частное p и q и записать результат под именем f. Для выполнения этой операции не нужно привлекать алгоритм деления многочленов, так как рациональная функция может включать один знак деления. Последующие знаки деления могут быть устранены при помощи школьной алгебры.
Установить f равным p в степени c; Рациональная функция p возводится в степень c, и результат записывается под именем f. Показатель степени с должен быть целым числом или именем функции с постоянным значением; если c отрицательно, результатом будет 1/p**|c|.
Установить f равным p с заменой x на q; Заменить каждое вхождение переменной x в p на q и записать полученное значение под именем f. Отметим, что в результате подстановки переменная x может снова возникнуть в f, но ее не следует вновь заменять на q.
Установить f равным производной p по x; Вычислить производную dp/dx и записать полученное значение в f. Конечно, идентификатор х должен быть переменной или именем функции, состоящей из одной переменной.
Напечатать p; Напечатать рациональную функцию p в удобном для чтения виде.
Конец; Завершение последовательности команд.
При реализации команды печати мы сталкиваемся с трудностью, присущей всем программам алгебраических преобразований. При вычислениях функции, как правило, становятся очень сложными. Вместе с тем человек хотел бы получить результаты в достаточно простом виде. Рациональные функции записывают обычно в виде дроби, числитель и знаменатель которой представляют собой сумму членов, включающих только операции умножения и возведения в степень. В каждом таком одночлене все константы перемножены и образуют числовой коэффициент (первый сомножитель), переменные упорядочены (часто по алфавиту) и все степени одной переменной объединены так, чтобы каждая переменная встречалась лишь один раз. Если числовой коэффициент оказывается отрицательным, то такой одночлен должен вычитаться из предыдущих, а не прибавляться к ним. Если коэффициент окажется равным нулю или единице, то весь одночлен или коэффициент должен быть опущен. Если показатель степени отрицателен, то одночлен фактически есть дробь; в этом случае нужно освободиться от знаменателя с помощью стандартных алгебраических правил суммирования дробей. И наконец, следует приводить подобные члены, т.е. объединять одночлены, имеющие одинаковые наборы переменных и степеней, с соответствующим изменением коэффициентов.
Все эти преобразования можно выполнять путем приведения функции к некоторому каноническому внутреннему представлению. В нашем случае можно выбрать такое представление, чтобы рациональные функции были почти готовы для печати; результат каждой операции должен преобразовываться к стандартному виду. Можно и по-другому выбрать внутреннее представление, так, чтобы операция печати преобразовывала представление функции, когда это необходимо. Однако требуемый для такого преобразования объем работы может быть сколь угодно большим. Независимо от выбранного метода для целей упрощения нужно различать целые и вещественные константы, с тем чтобы погрешность машинной арифметики не помешала распознаванию нулевых и единичных значений. Заметьте также, что возведение в первую степень обычно опускают. На рис.20.1 показаны простая программа и ее результат.
Рисунок 20.1. Пример программы и ее результат.
ТЕМА. Напишите программу для работы с рациональными функциями, реализующую описанные выше возможности. Исходными данными должен быть список команд в свободном формате, а результатом - рациональные функции в формате, удобном для чтения. Переменные, константы и слова, входящие в запись команды, не должны переходить с одной строки на другую, но для самих команд и рациональных функций это вполне допустимо. Определение "удобного" формата печати довольно туманно, зато здесь вы можете продемонстрировать свое искусство в удовлетворении тех потребностей пользователей, которые они сами не могут сформулировать. Не забывайте про доказательство правильности результатов, выдаваемых программами. Одна из важных черт программ работы с рациональными функциями - это способность точно выполнять арифметические действия над целыми числами; позаботьтесь об этом в вашей программе.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Чтение программой команд и рациональных функций требует привлечения некоторых простых методов компиляции, в частности лексического анализа для распознавания символов и синтаксического анализа для построения внутреннего представления. Необходимые сведения содержатся в литературе, указанной в других главах. В процессе выполнения программы вам придется поддерживать расширяющуюся таблицу имен и значений; для этого также имеется простой метод. Самая трудная часть реализации - это выбор внутреннего представления для рациональных функций. Они, несомненно, должны представляться с помощью некоторого варианта списочной или древовидной структуры, но какого именно?
Одним из возможных представлений является стандартное арифметическое дерево, содержащее переменные и константы в листьях, а операции - во внутренних узлах. Такая форма представления особенно подходит для подстановки и алгебраических операций, но для печати она слишком беспорядочна. Другая возможность - дерево, содержащее на верхнем уровне числитель и знаменатель, на следующем уровне - одночлены и на еще более низком уровне - сомножители. Такое дерево будет легко напечатать, но с ним трудно работать. Что бы вы ни выбрали, не забывайте копировать структуры данных при выполнении подстановки, иначе более позднее изменение в подставляемой функции повлияет также и на функцию, в которую она подставлялась.
ИНСТРУМЕНТОВКА. Это еще одна задача, требующая списков или деревьев и рекурсивных процедур для их обработки. Для таких задач был создан Лисп, но наравне с ним подойдут и многие другие языки для работы со списками. Снобол несколько слабее по части внутренней обработки данных, но чрезвычайно мощные возможности по анализу вводимой и подготовке выводимой информации делают Снобол конкурентоспособным кандидатом. На самом деле здесь подойдет любой язык типа Паскаля или PL/I, так или иначе приспособленный для работы с текстами, имеющий определяемые структуры данных и рекурсивные процедуры.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. В настоящее время широко используются многие системы алгебраических преобразований. Как правило, в их основе лежат функции, подобные описанным выше. Дальнейшее развитие происходит по трем направлениям: введение новых типов данных, новых операций и эвристических процедур, предназначенных для выполнения действий с нечетко определенным результатом. Новые типы данных взаимосвязаны с новыми операциями. Можно, например, добавить к рациональным функциям тригонометрические, показательные функции и логарифмы. В таком случае надо будет изменить операцию возведения в степень, чтобы она допускала любой операнд в качестве показателя степени, кроме того, понадобится операция логарифмирования, в которой будет указываться основание логарифмов и логарифмируемая функция. Отметим, что при введении новых типов данных и операций следует убедиться в замкнутости пространства функций, которые могут быть порождены произвольной последовательностью операций. Замкнутость означает, что всякую функцию, которую можно породить, можно также в принципе записать в команде Установить.
Для многих важных математических операций не существует методов, которые позволяли бы всегда вычислять результат в символьном виде. Важное место среди них занимает интегрирование. Хотя любая рациональная функция имеет НЕОПРЕДЕЛЕННЫЙ ИНТЕГРАЛ, простой пример функции 1/x (неопределенный интеграл от нее - ln x) показывает, что нам не надо далеко ходить за функциями, нарушающими границы замкнутого пространства рациональных функций. Расширение пространства функций путем добавления показательных функций и логарифмов, как предложено выше, лишь обостряет проблему. Не решает проблемы даже использование ОПРЕДЕЛЕННОГО ИНТЕГРАЛА, поскольку результат определенного интегрирования может и не быть константой, если подинтегральное выражение содержит переменные, отличные от переменной интегрирования, или если пределы интегрирования не константы. Символьные интеграторы были одними из первых программ, написанных для демонстрации "интеллектуального" поведения ЭВМ. Если вы будете работать над предлагаемой задачей в два или три раза дольше, то сможете создать примитивный интегратор.
Введение новых функций создает еще одну проблему. Для более сложных функций, которые теперь можно построить, не существует стандартного формата вывода. Кроме того, выбор применяемых законов упрощения становится нелегким делом. Поскольку теперь применимо гораздо больше алгебраических законов - тригонометрические тождества, законы, связывающие показательные и логарифмические функции, законы о константах,- может случиться, что программа будет тратить большую часть времени на упрощение внутреннего представления выражений. Упрощение с целью облегчить человеку понимание результатов - очень важная и сложная тема; от программиста требуется немалое искусство, чтобы успешно реализовать упрощение.
Литература
Мозес (Moses J.). Algebraic Simplification: A Guide for the Perplexed, CACM, 14, 8, pp.527-537, 1971.
Мозес (Moses J.). Symbolic Integration: The Stormy Decade, CACM, 14, 8, pp.548-560, 1971.
Этот выпуск САСМ целиком посвящен символьной алгебре и ее приложениям. Две статьи Мозеса - хорошие обзоры, но остальные статьи тоже интересны. Библиография в этих статьях должна помочь в исследовании любой темы во всей этой области.
ИЛИ...
ПАКЕТ ДЛЯ АЛГЕБРАИЧЕСКИХ ВЫЧИСЛЕНИЙ
Основная трудность, с которой сталкивается программист в большинстве языков программирования,- необходимость при записи вычислений разбивать свои уравнения на мелкие части. Так, если требуется производная, то программист должен записать исходную функцию, снять с полки учебник по математическому анализу, применить изложенные там правила и затем записать получившуюся производную. Однако многие операции можно выполнить на символьном уровне, по крайней мере в случае многочленов, если представлять их подходящим образом. Некоторые программы оказались бы совсем ненужными, если бы ЭВМ могла оперировать с многочленами.
Объекты, с которыми мы будем работать,- это РАЦИОНАЛЬНЫЕ ФУНКЦИИ. Их можно определить рекурсивно.
- Пусть c - любая вещественная КОНСТАНТА. Тогда c - рациональная функция.
- Пусть x - любая ПЕРЕМЕННАЯ. Тогда x - рациональная функция.
- Пусть p и q - любые рациональные функции. Тогда p+q, p-q, -p, pq, p/q и (р) все ceть рациональные функции. При делении рациональных функций производится упрощение, так чтобы остался только один знак деления. Правила этого упрощения хорошо знакомы школьникам, изучающим алгебру.
- Пусть p - любая рациональная функция, а c - целочисленная константа. Тогда p**c - рациональная функция. Если c отрицательна, образуйте рациональную функцию 1/p**|с| и упростите деление как выше.
- Рациональными функциями являются только те объекты, которые получаются путем применения конечного числа приведенных выше правил.
Кроме определения рациональных функций мы должны описать, как будет выглядеть их запись в качестве исходных данных и на выходе и как вызывать операции.
Рациональные функции в качестве исходных данных будут похожи на выражения в стандартном языке программирования. Константы могут изображаться любой последовательностью десятичных цифр с десятичной точкой; если десятичная точка отсутствует, то константа автоматически будет целочисленной. В силу правил образования рациональных функций константы не имеют знака, за исключением констант в показателе степени. Переменная выглядит как идентификатор и может быть любой цепочкой из больших и малых литер алфавита. Из-за ограничений на выбор литер в ЭВМ умножение будет изображаться знаком *, а возведение в степень - знаком ^. Так, рациональную функцию
можно записать как
2*X*Y+(X^2+Y^2)^3
Некоторые другие имена, в частности имена функций, также будут идентификаторами.
Для манипуляций с рациональными функциями нам нужны некоторые команды, чтобы пользователь мог получать ответы на вопросы, на которые не удается ответить с помощью традиционных языков программирования. Для этого нам понадобится обозначать рациональные функции идентификаторами. Самое фундаментальное действие такое:
Установить f равным p; Эта команда приводит к тому, что имя рациональной функции f (мы будем писать сокращенно - имя функции) получает в качестве значения рациональную функцию p. Эта операция - символьная; она не вызывает вычисления p. Если некоторый идентификатор f использован как имя функции, то его нельзя употреблять в последующих командах в качестве переменной; надо иметь в виду, что во время интерпретации потребуется таблица имен, значений и использований. Вместо рациональной функции p может стоять имя функции; в этом случае f получает значение, которое в данный момент имеет p. Все команды заканчиваются точкой с запятой. Примеры описываемой команды:
Установить P равным z*x^2+3.5;
Установить fpt равным Р;
Большая часть остальных команд выполняет некоторую операцию над своими операндами и помещает результат в качестве значения некоторого имени функции.
Установить f равным сумме p и q; Образовать алгебраическую сумму p и q и записать полученное значение под именем f. Во всех командах исходные данные записываются в свободном формате - границы строк (или перфокарт) несущественны; единственным разделителем команд служит точка с запятой. Операндами могут быть имена функций; в таком случае в операциях используются значения, приписанные этим именам.
Установить f равным разности p минус q; Образовать алгебраическую разность p и q и записать полученное значение под именем f.
Установить f равным произведению p и q; Образовать алгебраическое произведение p и q и записать результат под именем f.
Установить f равным частному при делении p на q; Образовать алгебраическое частное p и q и записать результат под именем f. Для выполнения этой операции не нужно привлекать алгоритм деления многочленов, так как рациональная функция может включать один знак деления. Последующие знаки деления могут быть устранены при помощи школьной алгебры.
Установить f равным p в степени c; Рациональная функция p возводится в степень c, и результат записывается под именем f. Показатель степени с должен быть целым числом или именем функции с постоянным значением; если c отрицательно, результатом будет 1/p**|c|.
Установить f равным p с заменой x на q; Заменить каждое вхождение переменной x в p на q и записать полученное значение под именем f. Отметим, что в результате подстановки переменная x может снова возникнуть в f, но ее не следует вновь заменять на q.
Установить f равным производной p по x; Вычислить производную dp/dx и записать полученное значение в f. Конечно, идентификатор х должен быть переменной или именем функции, состоящей из одной переменной.
Напечатать p; Напечатать рациональную функцию p в удобном для чтения виде.
Конец; Завершение последовательности команд.
При реализации команды печати мы сталкиваемся с трудностью, присущей всем программам алгебраических преобразований. При вычислениях функции, как правило, становятся очень сложными. Вместе с тем человек хотел бы получить результаты в достаточно простом виде. Рациональные функции записывают обычно в виде дроби, числитель и знаменатель которой представляют собой сумму членов, включающих только операции умножения и возведения в степень. В каждом таком одночлене все константы перемножены и образуют числовой коэффициент (первый сомножитель), переменные упорядочены (часто по алфавиту) и все степени одной переменной объединены так, чтобы каждая переменная встречалась лишь один раз. Если числовой коэффициент оказывается отрицательным, то такой одночлен должен вычитаться из предыдущих, а не прибавляться к ним. Если коэффициент окажется равным нулю или единице, то весь одночлен или коэффициент должен быть опущен. Если показатель степени отрицателен, то одночлен фактически есть дробь; в этом случае нужно освободиться от знаменателя с помощью стандартных алгебраических правил суммирования дробей. И наконец, следует приводить подобные члены, т.е. объединять одночлены, имеющие одинаковые наборы переменных и степеней, с соответствующим изменением коэффициентов.
Все эти преобразования можно выполнять путем приведения функции к некоторому каноническому внутреннему представлению. В нашем случае можно выбрать такое представление, чтобы рациональные функции были почти готовы для печати; результат каждой операции должен преобразовываться к стандартному виду. Можно и по-другому выбрать внутреннее представление, так, чтобы операция печати преобразовывала представление функции, когда это необходимо. Однако требуемый для такого преобразования объем работы может быть сколь угодно большим. Независимо от выбранного метода для целей упрощения нужно различать целые и вещественные константы, с тем чтобы погрешность машинной арифметики не помешала распознаванию нулевых и единичных значений. Заметьте также, что возведение в первую степень обычно опускают. На рис.20.1 показаны простая программа и ее результат.
Рисунок 20.1. Пример программы и ее результат.
ТЕМА. Напишите программу для работы с рациональными функциями, реализующую описанные выше возможности. Исходными данными должен быть список команд в свободном формате, а результатом - рациональные функции в формате, удобном для чтения. Переменные, константы и слова, входящие в запись команды, не должны переходить с одной строки на другую, но для самих команд и рациональных функций это вполне допустимо. Определение "удобного" формата печати довольно туманно, зато здесь вы можете продемонстрировать свое искусство в удовлетворении тех потребностей пользователей, которые они сами не могут сформулировать. Не забывайте про доказательство правильности результатов, выдаваемых программами. Одна из важных черт программ работы с рациональными функциями - это способность точно выполнять арифметические действия над целыми числами; позаботьтесь об этом в вашей программе.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Чтение программой команд и рациональных функций требует привлечения некоторых простых методов компиляции, в частности лексического анализа для распознавания символов и синтаксического анализа для построения внутреннего представления. Необходимые сведения содержатся в литературе, указанной в других главах. В процессе выполнения программы вам придется поддерживать расширяющуюся таблицу имен и значений; для этого также имеется простой метод. Самая трудная часть реализации - это выбор внутреннего представления для рациональных функций. Они, несомненно, должны представляться с помощью некоторого варианта списочной или древовидной структуры, но какого именно?
Одним из возможных представлений является стандартное арифметическое дерево, содержащее переменные и константы в листьях, а операции - во внутренних узлах. Такая форма представления особенно подходит для подстановки и алгебраических операций, но для печати она слишком беспорядочна. Другая возможность - дерево, содержащее на верхнем уровне числитель и знаменатель, на следующем уровне - одночлены и на еще более низком уровне - сомножители. Такое дерево будет легко напечатать, но с ним трудно работать. Что бы вы ни выбрали, не забывайте копировать структуры данных при выполнении подстановки, иначе более позднее изменение в подставляемой функции повлияет также и на функцию, в которую она подставлялась.
ИНСТРУМЕНТОВКА. Это еще одна задача, требующая списков или деревьев и рекурсивных процедур для их обработки. Для таких задач был создан Лисп, но наравне с ним подойдут и многие другие языки для работы со списками. Снобол несколько слабее по части внутренней обработки данных, но чрезвычайно мощные возможности по анализу вводимой и подготовке выводимой информации делают Снобол конкурентоспособным кандидатом. На самом деле здесь подойдет любой язык типа Паскаля или PL/I, так или иначе приспособленный для работы с текстами, имеющий определяемые структуры данных и рекурсивные процедуры.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 3 недели.
РАЗВИТИЕ ТЕМЫ. В настоящее время широко используются многие системы алгебраических преобразований. Как правило, в их основе лежат функции, подобные описанным выше. Дальнейшее развитие происходит по трем направлениям: введение новых типов данных, новых операций и эвристических процедур, предназначенных для выполнения действий с нечетко определенным результатом. Новые типы данных взаимосвязаны с новыми операциями. Можно, например, добавить к рациональным функциям тригонометрические, показательные функции и логарифмы. В таком случае надо будет изменить операцию возведения в степень, чтобы она допускала любой операнд в качестве показателя степени, кроме того, понадобится операция логарифмирования, в которой будет указываться основание логарифмов и логарифмируемая функция. Отметим, что при введении новых типов данных и операций следует убедиться в замкнутости пространства функций, которые могут быть порождены произвольной последовательностью операций. Замкнутость означает, что всякую функцию, которую можно породить, можно также в принципе записать в команде Установить.
Для многих важных математических операций не существует методов, которые позволяли бы всегда вычислять результат в символьном виде. Важное место среди них занимает интегрирование. Хотя любая рациональная функция имеет НЕОПРЕДЕЛЕННЫЙ ИНТЕГРАЛ, простой пример функции 1/x (неопределенный интеграл от нее - ln x) показывает, что нам не надо далеко ходить за функциями, нарушающими границы замкнутого пространства рациональных функций. Расширение пространства функций путем добавления показательных функций и логарифмов, как предложено выше, лишь обостряет проблему. Не решает проблемы даже использование ОПРЕДЕЛЕННОГО ИНТЕГРАЛА, поскольку результат определенного интегрирования может и не быть константой, если подинтегральное выражение содержит переменные, отличные от переменной интегрирования, или если пределы интегрирования не константы. Символьные интеграторы были одними из первых программ, написанных для демонстрации "интеллектуального" поведения ЭВМ. Если вы будете работать над предлагаемой задачей в два или три раза дольше, то сможете создать примитивный интегратор.
Введение новых функций создает еще одну проблему. Для более сложных функций, которые теперь можно построить, не существует стандартного формата вывода. Кроме того, выбор применяемых законов упрощения становится нелегким делом. Поскольку теперь применимо гораздо больше алгебраических законов - тригонометрические тождества, законы, связывающие показательные и логарифмические функции, законы о константах,- может случиться, что программа будет тратить большую часть времени на упрощение внутреннего представления выражений. Упрощение с целью облегчить человеку понимание результатов - очень важная и сложная тема; от программиста требуется немалое искусство, чтобы успешно реализовать упрощение.
Литература
Мозес (Moses J.). Algebraic Simplification: A Guide for the Perplexed, CACM, 14, 8, pp.527-537, 1971.
Мозес (Moses J.). Symbolic Integration: The Stormy Decade, CACM, 14, 8, pp.548-560, 1971.
Этот выпуск САСМ целиком посвящен символьной алгебре и ее приложениям. Две статьи Мозеса - хорошие обзоры, но остальные статьи тоже интересны. Библиография в этих статьях должна помочь в исследовании любой темы во всей этой области.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
21
ПРЕВРАТНОЕ ОБРАТНОЕ,
ИЛИ...
ОШИБКИ ПРИ РАБОТЕ С ПЛАВАЮЩЕЙ ТОЧКОЙ
Многие из методов, которые сейчас изучаются в средней школе, создавались величайшими математиками в течение столетий. Среди них - методы решения системы линейных уравнений, которые неявно включают методы обращения квадратных матриц. Начинающий алгебраист, изучая эти алгоритмы, может усомниться в том, что они всегда будут работать; но, испробовав метод на двух-трех примерах, наш скептик отбросит всякие сомнения. Он даже себе не представляет, какой его ждет удар: программа, написанная им в соответствии с простым и обоснованным алгоритмом, дает совершенно неверные результаты. Разве можно заподозрить, чтобы метод обращения матриц, придуманный королем математиков Гауссом, оказался несостоятельным? Прежде всего освежим в памяти основные положения. Матрица - это квадратный массив вещественных чисел, в котором по горизонтали и вертикали располагается по n>=1 элементов. Произведение C матрицы A справа на матрицу B записывается в виде C = AB и задается формулой
Cij = Сумма(k от 1 до n) Aik*Bkj, 1<=i<=n, 1<=j<=n.
Здесь подразумевается, что A, B и C - матрицы размера n*n. Умножение некоммутативно; можно найти такие матрицы A и B, что AB != BA. ОБРАТНОЙ МАТРИЦЕЙ к матрице А будет такая матрица A**-1, что
AA**-1 = A**-1*A = I,
где I - единичная матрица, определяемая формулами Iii=1 и Iij=0 для i!=j. Большинство матриц имеет обратные, но не все. К сожалению, простейший способ обнаружить такие ВЫРОЖДЕННЫЕ матрицы состоит в том, чтобы попытаться вычислить обратную матрицу и потерпеть неудачу.
Как вычислить обратную матрицу? Следующий алгоритм принадлежит Гауссу.
- Во-первых, положите матрицу X равной матрице I. В процессе вычислений матрица A будет в конце концов преобразована в I, матрица X, которая изначально была единичной матрицей, станет обратной к матрице A.
- Для каждого столбца A, начиная со столбца 1 слева и кончая столбцом n справа, выполните следующее: Обозначим столбец, который будет обрабатываться на каждом этапе, символом j.
- Пусть M = max|Aji| (j<=i<=n) есть наибольший по абсолютной величине элемент в столбце j ниже строки j-1. Если M равно нулю, то А - вырожденная матрица и продолжать обращение не имеет смысла. В противном случае поменяйте местами в обеих матрицах A и X строку j и строку, в которой находится M. И наконец, разделите каждый элемент в строке j матриц A и X на новое значение Ajj.
- Теперь для всех строк i, i!=j, выполните все вычитания:
Aik = Aik - AijAjk, j<=k<=n,
Xik = Xik - AijXjk, 1<=k<=n.
- Результатом всех этих поэлементных вычитаний будет вычитание из строки i строки j с коэффициентом Aij в обеих матрицах А и X. После выполнения этого шага для всех j все элементы сверху и снизу от Ajj станут нулевыми, а сам элемент Aij будет равен единице. В матрице A не нужно выполнять вычитания слева от столбца j, поскольку все элементы строки j слева от Ajj равны нулю.
Для любого алгебраиста будет одно удовольствие доказать, что этот алгоритм всегда работает правильно и после его остановки X=А**-1, если матрица А невырождена. Вы едва ли найдете алгоритм, более приспособленный для структурной реализации. Почему бы нам, исключительно ради забавы, не провести небольшую проверку? МАТРИЦА ГИЛЬБЕРТА H**n ПОРЯДКА n определяется формулой
(H**n)ij = 1(i+j-1), 1<=i<=n, 1<=j<=n.
Вычислите обратную к H**n матрицу для n = 1, 2, ..., 20, 25, 30, 35, 40, 45, 50. Вы, несомненно, понимаете, что результат получится не вполне точным из-за небольших погрешностей машинной арифметики, но он должен быть очень близок к точной обратной матрице. Мерой погрешности служит ЛЕВАЯ ОСТАТОЧНАЯ МАТРИЦА L = (H**n)**-1*H**n - I и ПРАВАЯ ОСТАТОЧНАЯ МАТРИЦА R = H**n*(H**n)**-1 - I; обе эти матрицы должны быть нулевыми, но, вероятно, не будут.
Конечно, если бы все элементы матриц L и R были порядка, скажем, 1e-20, то мы бы не имели забот. Для всех практических целей 1e-20 есть нуль, если элементы исходной матрицы равны в среднем 1/50 или больше. Существует, однако, точный способ оценки величины остаточных матриц L и R. Определим норму по строкам матрицы А как
|A|r = max(1<=i<=n) от Суммы(j от 1 до n) |Aij|.
Добавьте к своей программе, которая вычисляет обратную к матрице Гильберта, подпрограмму, печатающую таблицу |L|r и |R|r для каждой обратной матрицы. Проверьте вашу программу на отсутствие ошибок. Не сможете ли вы теперь объяснить, почему остаточные матрицы столь велики. УВЕРЕНЫ ли вы в правильности программы?
Ваша программа правильна; причина неполадок - погрешность машинной арифметики. Матрицы Гильберта внешне выглядят вполне безобидно, однако они специально предназначены для демонстрации накопления ошибок в длинном ряду взаимосвязанных вычислений. Вы, быть может, считаете источником бед то, что ваш компьютер хранит недостаточное число цифр вещественных чисел. На многих ЭВМ имеется арифметика ДВОЙНОЙ ТОЧНОСТИ. Предусмотрев в своем алгоритме двойную точность, вы сможете улучшить ситуацию, но заведомо не сможете полностью решить проблему. Весь этот этюд посвящен изучению влияния арифметики ограниченной точности на алгоритмы, которые являются абсолютно точными для "действительных" чисел (как их понимают математики). Прикладные математики и специалисты по численным методам в программистских лабораториях тратят большую часть времени на изменение теоретических алгоритмов, чтобы они могли работать на реальных ЭВМ [Фактически поиск максимального в столбце элемента M на шаге 3 алгоритма обращения есть одно из таких изменений. M называется ведущим элементом, а сама операция - выбором ведущего элемента; на самом деле необходимо лишь, чтобы M был ненулевым. Максимальный элемент используется, чтобы уменьшить арифметическую погрешность ЭВМ. При обращении матрицы Гильберта ведущим элементом всегда должен оказываться (H**n)jj; если же алгоритм выбирает в качестве ведущего элемент, лежащий ниже, то это означает, что погрешность уже очень велика]).
ТЕМА. Запрограммируйте алгоритм обращения матриц и проверьте его на матрицах Гильберта указанных выше порядков. Напечатайте таблицу или начертите график зависимости |L|r и |R|r от порядка n матрицы Н**n. Если используемый вами язык допускает выбор точности чисел, то повторите вычисление обратных матриц с большей точностью, чтобы увидеть, улучшится ли в результате таблица или график ошибок. (Мудрый программист так составит программу, чтобы изменение точности достигалось путем замены небольшого числа деклараций). Следите также за числом фактических перестановок строк при выборе ведущего элемента; оно будет показывать, насколько плохо алгоритм согласуется с теорией.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. В этом этюде требуется прямая реализация алгоритма. Единственная трудность - это проверка соответствия программы теоретическим определениям и алгоритму. Не делайте над алгоритмом никаких оптимизирующих преобразований; вы изучаете, до чего можно дойти, если слепо следовать советам математиков, забыв о важнейшем положении - о точности вычислений.
ИНСТРУМЕНТОВКА. Подойдет любой алгебраический язык. Фортран был создан для решения матричных задач. Сравните его с каким-нибудь более современным языком, запрограммировав этот этюд на обоих языках.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
РАЗВИТИЕ ТЕМЫ. Если в достаточной степени расширить задачу, то она послужит основой семестрового курса методов вычислений. Тем не менее вы можете получить дополнительную информацию о поведении ошибок, если вычислите |L| и |R| с использованием других норм, отличных от нормы по строкам, например НОРМЫ ПО СТОЛБЦАМ:
|A|c = max(1<=j<=n) от Суммы(i от 1 до n) |Aij|.
Ниже определены нормы Li, L2 и Lбеск.:
|A|1 = Сумма(по i и j) |Aij|,
|A|2 = Корень из Суммы(по i и j) |Aij|**2,
|A|беск. = max(по i и j) |Aij|.
Дополните значениями этих норм вашу таблицу анализа ошибок. Наблюдаются ли какие-либо существенные отличия одной нормы от остальных по форме или приблизительному положению кривой ошибок?
ЛИТЕРАТУРА
Конт, де Боор (Conte S.D., de Boor С). Elementary Numerical Analysis, 2nd ed. McGraw-Hill, New York, NY, 1972.
Стьюарт (Stewart G.W.). Introduction to Matrix Computations. Academic Press, New York, NY, 1973.
Конт и де Боор написали превосходный учебник по основам методов вычислений, используемый во многих учебных заведениях. Он содержит куда больше информации по методам вычислений, чем могло бы понадобиться любому нормальному человеку. Если вы все же хотите узнать еще больше о задаче с матрицами, обратитесь к книге Стьюарта. Там описаны теория и практика линейной алгебры.
* Кнут Д Искусство программирования для ЭВМ. Т.1. Основные алгоритмы. Пер. с англ. -М.: Мир, 1976, упр.1.2.3.45.
В этом упражнении точно вычисляются матрицы, обратные к матрицам Гильберта, и обсуждается, как их использовать для проверки точности алгоритма обращения.
ПРЕВРАТНОЕ ОБРАТНОЕ,
ИЛИ...
ОШИБКИ ПРИ РАБОТЕ С ПЛАВАЮЩЕЙ ТОЧКОЙ
Многие из методов, которые сейчас изучаются в средней школе, создавались величайшими математиками в течение столетий. Среди них - методы решения системы линейных уравнений, которые неявно включают методы обращения квадратных матриц. Начинающий алгебраист, изучая эти алгоритмы, может усомниться в том, что они всегда будут работать; но, испробовав метод на двух-трех примерах, наш скептик отбросит всякие сомнения. Он даже себе не представляет, какой его ждет удар: программа, написанная им в соответствии с простым и обоснованным алгоритмом, дает совершенно неверные результаты. Разве можно заподозрить, чтобы метод обращения матриц, придуманный королем математиков Гауссом, оказался несостоятельным? Прежде всего освежим в памяти основные положения. Матрица - это квадратный массив вещественных чисел, в котором по горизонтали и вертикали располагается по n>=1 элементов. Произведение C матрицы A справа на матрицу B записывается в виде C = AB и задается формулой
Cij = Сумма(k от 1 до n) Aik*Bkj, 1<=i<=n, 1<=j<=n.
Здесь подразумевается, что A, B и C - матрицы размера n*n. Умножение некоммутативно; можно найти такие матрицы A и B, что AB != BA. ОБРАТНОЙ МАТРИЦЕЙ к матрице А будет такая матрица A**-1, что
AA**-1 = A**-1*A = I,
где I - единичная матрица, определяемая формулами Iii=1 и Iij=0 для i!=j. Большинство матриц имеет обратные, но не все. К сожалению, простейший способ обнаружить такие ВЫРОЖДЕННЫЕ матрицы состоит в том, чтобы попытаться вычислить обратную матрицу и потерпеть неудачу.
Как вычислить обратную матрицу? Следующий алгоритм принадлежит Гауссу.
- Во-первых, положите матрицу X равной матрице I. В процессе вычислений матрица A будет в конце концов преобразована в I, матрица X, которая изначально была единичной матрицей, станет обратной к матрице A.
- Для каждого столбца A, начиная со столбца 1 слева и кончая столбцом n справа, выполните следующее: Обозначим столбец, который будет обрабатываться на каждом этапе, символом j.
- Пусть M = max|Aji| (j<=i<=n) есть наибольший по абсолютной величине элемент в столбце j ниже строки j-1. Если M равно нулю, то А - вырожденная матрица и продолжать обращение не имеет смысла. В противном случае поменяйте местами в обеих матрицах A и X строку j и строку, в которой находится M. И наконец, разделите каждый элемент в строке j матриц A и X на новое значение Ajj.
- Теперь для всех строк i, i!=j, выполните все вычитания:
Aik = Aik - AijAjk, j<=k<=n,
Xik = Xik - AijXjk, 1<=k<=n.
- Результатом всех этих поэлементных вычитаний будет вычитание из строки i строки j с коэффициентом Aij в обеих матрицах А и X. После выполнения этого шага для всех j все элементы сверху и снизу от Ajj станут нулевыми, а сам элемент Aij будет равен единице. В матрице A не нужно выполнять вычитания слева от столбца j, поскольку все элементы строки j слева от Ajj равны нулю.
Для любого алгебраиста будет одно удовольствие доказать, что этот алгоритм всегда работает правильно и после его остановки X=А**-1, если матрица А невырождена. Вы едва ли найдете алгоритм, более приспособленный для структурной реализации. Почему бы нам, исключительно ради забавы, не провести небольшую проверку? МАТРИЦА ГИЛЬБЕРТА H**n ПОРЯДКА n определяется формулой
(H**n)ij = 1(i+j-1), 1<=i<=n, 1<=j<=n.
Вычислите обратную к H**n матрицу для n = 1, 2, ..., 20, 25, 30, 35, 40, 45, 50. Вы, несомненно, понимаете, что результат получится не вполне точным из-за небольших погрешностей машинной арифметики, но он должен быть очень близок к точной обратной матрице. Мерой погрешности служит ЛЕВАЯ ОСТАТОЧНАЯ МАТРИЦА L = (H**n)**-1*H**n - I и ПРАВАЯ ОСТАТОЧНАЯ МАТРИЦА R = H**n*(H**n)**-1 - I; обе эти матрицы должны быть нулевыми, но, вероятно, не будут.
Конечно, если бы все элементы матриц L и R были порядка, скажем, 1e-20, то мы бы не имели забот. Для всех практических целей 1e-20 есть нуль, если элементы исходной матрицы равны в среднем 1/50 или больше. Существует, однако, точный способ оценки величины остаточных матриц L и R. Определим норму по строкам матрицы А как
|A|r = max(1<=i<=n) от Суммы(j от 1 до n) |Aij|.
Добавьте к своей программе, которая вычисляет обратную к матрице Гильберта, подпрограмму, печатающую таблицу |L|r и |R|r для каждой обратной матрицы. Проверьте вашу программу на отсутствие ошибок. Не сможете ли вы теперь объяснить, почему остаточные матрицы столь велики. УВЕРЕНЫ ли вы в правильности программы?
Ваша программа правильна; причина неполадок - погрешность машинной арифметики. Матрицы Гильберта внешне выглядят вполне безобидно, однако они специально предназначены для демонстрации накопления ошибок в длинном ряду взаимосвязанных вычислений. Вы, быть может, считаете источником бед то, что ваш компьютер хранит недостаточное число цифр вещественных чисел. На многих ЭВМ имеется арифметика ДВОЙНОЙ ТОЧНОСТИ. Предусмотрев в своем алгоритме двойную точность, вы сможете улучшить ситуацию, но заведомо не сможете полностью решить проблему. Весь этот этюд посвящен изучению влияния арифметики ограниченной точности на алгоритмы, которые являются абсолютно точными для "действительных" чисел (как их понимают математики). Прикладные математики и специалисты по численным методам в программистских лабораториях тратят большую часть времени на изменение теоретических алгоритмов, чтобы они могли работать на реальных ЭВМ [Фактически поиск максимального в столбце элемента M на шаге 3 алгоритма обращения есть одно из таких изменений. M называется ведущим элементом, а сама операция - выбором ведущего элемента; на самом деле необходимо лишь, чтобы M был ненулевым. Максимальный элемент используется, чтобы уменьшить арифметическую погрешность ЭВМ. При обращении матрицы Гильберта ведущим элементом всегда должен оказываться (H**n)jj; если же алгоритм выбирает в качестве ведущего элемент, лежащий ниже, то это означает, что погрешность уже очень велика]).
ТЕМА. Запрограммируйте алгоритм обращения матриц и проверьте его на матрицах Гильберта указанных выше порядков. Напечатайте таблицу или начертите график зависимости |L|r и |R|r от порядка n матрицы Н**n. Если используемый вами язык допускает выбор точности чисел, то повторите вычисление обратных матриц с большей точностью, чтобы увидеть, улучшится ли в результате таблица или график ошибок. (Мудрый программист так составит программу, чтобы изменение точности достигалось путем замены небольшого числа деклараций). Следите также за числом фактических перестановок строк при выборе ведущего элемента; оно будет показывать, насколько плохо алгоритм согласуется с теорией.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. В этом этюде требуется прямая реализация алгоритма. Единственная трудность - это проверка соответствия программы теоретическим определениям и алгоритму. Не делайте над алгоритмом никаких оптимизирующих преобразований; вы изучаете, до чего можно дойти, если слепо следовать советам математиков, забыв о важнейшем положении - о точности вычислений.
ИНСТРУМЕНТОВКА. Подойдет любой алгебраический язык. Фортран был создан для решения матричных задач. Сравните его с каким-нибудь более современным языком, запрограммировав этот этюд на обоих языках.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 1 неделю.
РАЗВИТИЕ ТЕМЫ. Если в достаточной степени расширить задачу, то она послужит основой семестрового курса методов вычислений. Тем не менее вы можете получить дополнительную информацию о поведении ошибок, если вычислите |L| и |R| с использованием других норм, отличных от нормы по строкам, например НОРМЫ ПО СТОЛБЦАМ:
|A|c = max(1<=j<=n) от Суммы(i от 1 до n) |Aij|.
Ниже определены нормы Li, L2 и Lбеск.:
|A|1 = Сумма(по i и j) |Aij|,
|A|2 = Корень из Суммы(по i и j) |Aij|**2,
|A|беск. = max(по i и j) |Aij|.
Дополните значениями этих норм вашу таблицу анализа ошибок. Наблюдаются ли какие-либо существенные отличия одной нормы от остальных по форме или приблизительному положению кривой ошибок?
ЛИТЕРАТУРА
Конт, де Боор (Conte S.D., de Boor С). Elementary Numerical Analysis, 2nd ed. McGraw-Hill, New York, NY, 1972.
Стьюарт (Stewart G.W.). Introduction to Matrix Computations. Academic Press, New York, NY, 1973.
Конт и де Боор написали превосходный учебник по основам методов вычислений, используемый во многих учебных заведениях. Он содержит куда больше информации по методам вычислений, чем могло бы понадобиться любому нормальному человеку. Если вы все же хотите узнать еще больше о задаче с матрицами, обратитесь к книге Стьюарта. Там описаны теория и практика линейной алгебры.
* Кнут Д Искусство программирования для ЭВМ. Т.1. Основные алгоритмы. Пер. с англ. -М.: Мир, 1976, упр.1.2.3.45.
В этом упражнении точно вычисляются матрицы, обратные к матрицам Гильберта, и обсуждается, как их использовать для проверки точности алгоритма обращения.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
22
ПИ-ЭР КВАДРАТ,
ИЛИ...
АРИФМЕТИЧЕСКИЕ ВЫЧИСЛЕНИЯ С ВЫСОКОЙ ТОЧНОСТЬЮ
Математику часто считают сухой наукой, однако и математику творили люди. Одной из самых печальных была судьба Уильямса Шенкса, жившего в девятнадцатом веке и посвятившего себя вычислению числа пи с высокой точностью. Закончив многолетний труд, Шенкс в 1837г. опубликовал значение пи до 707-го десятичного знака, впоследствии исправив некоторые знаки. Может быть, надо счесть за благо, что Шенкс умер в 1882г., поскольку в 1946г. было показано, что его вычисления ошибочны начиная с 528-го десятичного знака. Фактически Шенкс не продвинулся дальше своих предшественников.
Полученное Шенксом значение было проверено, вероятно, с помощью механических устройств, а компьютер был впервые использован для вычисления я только в 1949г.; это была машина ENIAC. Даже тогда проект был монументальным. Джорж У.Рейтуиснер писал: "Поскольку получить машину в рабочее время было практически невозможно, мы воспользовались разрешением выполнить эту работу за 4 выходных дня в период летних отпусков, когда ENIAC стоял без дела". Собственно вычисления (не программирование!) заняли 70 часов: было получено несколько больше 2000 цифр. Все это время приходилось постоянно обслуживать компьютер, поскольку из-за ограниченности его возможностей требовались постоянная перфорация и ввод промежуточных результатов. Те первые программисты так же далеки от нынешних, как Шенкс далек от них.
Как бы мы стали вычислять пи? Во-первых, необходимо выражение, которое можно вычислять. Ряд
пи/4 = 1 - 1/3 + 1/5 - 1/7 + 1/9 - ...
довольно прост для понимания, но он ужасно медленно сходится. Гораздо лучше ряд для арктангенса
arctg x = x - x**3/3 + x**5/5 - x**7/7 +..., |x|<=i.
Объединим его с формулой сложения для тангенса
tg(a + b) = (tg a + tg b)/(l - tg a * tg b)
и выберем a и b так, чтобы tg(a+b) = 1 = tg пи/4. (Учитывая, что tg(arctg x)=х для -пи/2< х< пи/2, можно взять, например, а = arctg(1/2), b = arctg(1/3)).
Тогда
arctg(tg(a+b)) = a+b = arctg 1 = пи/4,
и теперь можно использовать приведенный выше ряд для нахождения a и b. На практике чаще всего используются следующие суммы:
пи/4 = 4*arctg(1/5) - arctg(1/239),
пи/4 = 8*arctg(1/10) - 4*arctg(1/515) - arctg(1/239),
пи/4 = 3*arctg(1/4) + arctg(1/20) + arctg(1/1985).
Теперь мы собираемся просуммировать эти ряды на ЭВМ. Как известно, все, что нужно для суммирования, - это простой итерационный цикл, но тут возникает одна проблема. Точность вычислений на
ЭВМ ограничена, а весь смысл этого упражнения в том, чтобы найти много-много цифр числа пи, значительно превзойдя обычную точность. Первое, что приходит в голову,- промоделировать ручные методы выполнения арифметических действий. Будем представлять числа очень большими целочисленными массивами (по одной десятичной цифре в каждом элементе), тогда ясно, как составить программы сложения, вычитания и умножения. Запрограммировать ручной метод деления несколько сложнее, но все же возможно. Неприемлемым, однако, оказывается время выполнения алгоритмов. Хотя на это редко обращают внимание, но при ручных методах для умножения или деления n-значных чисел требуется время, пропорциональное n**2. Если речь идет об операциях над числами из тысяч цифр, то такие расходы будут нам не по карману. К счастью, имеются лучшие алгоритмы.
КАК МОЖНО БЫСТРО УМНОЖАТЬ?
Алгоритм быстрого умножения Тоома-Кука, описываемый Кнутом, зиждется на четырех основных идеях [Как здесь не отметить, что самую плодотворную идею по части быстрого умножения вы можете позаимствовать у кроликов. Их многочисленное потомство - тому порука]. Вот первая из них. Пусть нам известен способ выполнения некоторой операции над исходными данными размера n за время T(n). Если эту операцию удастся разбить на r частей, выполнение каждой из которых займет менее чем T(n)/r шагов, то такое разбиение позволит улучшить общее время, если, конечно, считать, что вспомогательные организационные расходы не сведут экономию на нет. Пусть, далее, каждая из r частей есть применение того же алгоритма к исходным данным длины n/r и каждая часть может быть разбита аналогичным образом. Тогда можно продолжать это разбиение, пока мы не получим столь короткие исходные данные, что вычисления для них станут тривиальными и займут лишь небольшой фиксированный отрезок времени. Этот принцип РАЗДЕЛЯЙ И ВЛАСТВУЙ обычно дает выигрыш во времени работы алгоритма по крайней мере в log n раз; так, классический метод умножения требует времени n*2, и его можно свести к n**(l+7/Корень(4*log2 n), что существенно лучше при больших n (не забывайте, что у обеих функций стоимости имеются постоянные множители).
Остальные три идеи касаются чисел и действий над многочленами. Во-первых, заметим, что, если число U имеет длину n битов и записывается в двоичном виде как
u[n-1]u[n-2]...u[2]u[1]u[0],
причем n делится на r+1, то U можно также записать в виде
U[r]*2**(r*n/(r+1)) + U[r-1]*2**(r-1)*n/(r+1)) + ... + U[1]*2**(n/(r+1)) + U[0],
где каждое Ui есть блок из n/(r+1) битов исходного представления U. Фактически U = U#{2**(n/(r+1))), где многочлен U#(x) есть
U[r]*x**r + U[r-1]*x**(r-1) + ... + U[1]*x + U0.
Во-вторых, мы видим, что если U и V - два n-разрядных числа, записанных в виде такого многочлена, то их произведение W дается формулой
W = UV = U#(2**(n/((r+1)))) * V#(2**(n/((r+1)))) = W#(2**(n/((r+1)))),
и если бы мы смогли найти хотя бы коэффициенты W#(x), то вычислить W по W# было бы сравнительно просто; для этого понадобились бы только сдвиги, сложения и умножения чисел из n/r битов. В-третьих, к счастью, W#(х)-многочлен степени 2r и его можно найти с помощью интерполяции его значений в точках 0,1,2, ..., 2r-1, 2r. Эти значения равны просто U#(0)*V#(0), U#(1)*V#(1), ... U#(2r)*V#(2r). Более того, для вычисления всех этих многочленов и интерполяции требуется умножать числа только из n/r битов. Представляется, что эти действия подпадают под принцип "разделяй и властвуй".
АЛГОРИТМ ТООМА-КУКА весьма сложен, поэтому мы не будем подробно объяснять его; за этим можно обратиться к книге Кнута. Все же необходимо сообщить основные идеи и обозначения. Длинные числа должны быть как-то представлены; будем писать [p, u] для обозначения числа u из p битов. Вероятно, внутреннее представление [p, u] будет некоторой разновидностью списка или цепочки. Кроме основного алгоритма нам понадобятся подпрограммы для сложения и вычитания длинных чисел (используйте стандартный ручной метод сложения слева направо), умножения длинного числа на короткое (небольшое) число, деления длинного числа на короткое, сдвига длинного числа путем приписывания нулей справа и для разбиения длинного числа [р, u] на более короткие длинные числа [p/(r+1), ur], [p/(r+1), ur(r-1)], ..., [p/(r+1), u0], как описано выше. Кроме подпрограмм, работающих непосредственно с числами, алгоритм использует четыре стека для хранения промежуточных частичных результатов и несколько временных переменных, поэтому требуются подпрограммы для выполнения некоторых действий над стеком, а также подпрограммы для выделения и освобождения памяти под длинные числа. При написании всяческих вспомогательных подпрограмм черновой работы может оказаться предостаточно.
АЛГОРИТМ БЫСТРОГО УМНОЖЕНИЯ ТООМА-КУКА
Исходными данными служат два положительных длинных числа [n, u] и [n, v]; результатом - их произведение [2n, uv]. Используются четыре стека U, V, W и С, в которых при выполнении алгоритма будут храниться длинные числа, и пятый стек, содержащий коды временно приостановленных операций (имеется всего три кода, и для их представления можно воспользоваться малыми целыми числами). Массивы q и r целых чисел имеют индексы от 0 до 10; необходимо выделить память для этих двух массивов и для еще нескольких временных переменных, упомянутых в алгоритме.
1. (Начальная установка). Сделать все стеки пустыми. Присвоить K значение 1, q0 и q1 - значение 16, r0 и r1 - значение 4, Q - значение 4 и R - значение 2.
2. (Построение таблицы размеров). Пока К<10 и q[K-1]+q[K]>=n, выполнять следующие вычисления. Изменить K на K+1, Q - на Q+R; если (R+1)**2<=Q, то изменить R на R+1; установить q[K] равным 2**Q и r[K] равным 2**R. Если цикл оканчивается из-за К = 10, то остановиться, выдав сообщение об ошибке - число битов n слишком велико, массивы q и r переполнились. В противном случае присвоить k значение K. Поместить [q[K]+q[K-1], v] и за ним [q[K]+q[K-1], u] в стек C (вероятно, потребуется добавить к [n, u] и [n, v] слева нули). Поместить в управляющий стек код СТОП.
3. (Главный внешний цикл). Пока управляющий стек не пуст, выполнять шаги с 4-го по 18-й. Если на этом шаге управляющий стек окажется пустым, то остановиться с сообщением об ошибке; в управляющем стеке должен быть по крайней мере один элемент.
4. (Внутренний цикл разбиения u и v). Пока k>1, выполнять шаги с 5-го по 8-й.
5. (Установка параметров разбиения). Установить k равным k-1, s равным q[k], t равным r[k] и p равным q[k-i]+q[k].
6. (Разбиение верхнего элемента стека C). Длинное число [q[k]+q[k+1], u] на вершине C следует рассматривать как t+1 чисел длиной s битов каждое. Разбить [q[k]+q[k+i], u] на длинные числа [s, U[t]], [s, U[t-i]], ..., [s, U[1]], [s, U[0]]. Эти t+1 чисел являются коэффициентами многочлена степени t, который следует вычислить в точках 0, 1, ..., 2t-l, 2t no правилу Горнера. Для i = 0, 1, ..., 2t-1, 2t вычислить [p, X[i]] по формуле
(... ([s, U[t]]i + [s, U[t-i]])i + ... + [s, U[1]])i + [s, U[0]]
и сразу поместить [p, X[i]] в стек U. Для выполнения умножений можно использовать подпрограмму умножения длинных чисел на короткие; никакой промежуточный или окончательный результат не потребует более p битов. Удалить [q[k]+q[k-1], u] из стека C.
7. (Продолжение разбиения). Выполнить над числом [m, v], находящимся сейчас на вершине стека С, ту же последовательность действий, что на шаге 6; полученные числа [p, Y[0]], ..., [p, Y[2t]] поместить в стек V в порядке получения. Не забудьте удалить вершину стека C.
8. (Заполнение заново стека С). Попеременно удалять 2t раз) вершины стеков V и U и помещать эти значения в стек C. В результате значения, вычисленные на шагах 6 и 7, будут помещены, чередуясь, в стек С в обратном порядке. После выполнения этого перемешивания верхняя часть стека C, рассматриваемая СНИЗУ ВВЕРХ, будет иметь вид
[p, Y[2t]], [p, X[2t]], ..., [p, Y[0]], [p, X[0]],
на вершине будет [p, X[0]]. Поместить в управляющий стек один код операции ИНТЕРПОЛИРОВАТЬ и 2t кодов операции СОХРАНИТЬ и вернуться к шагу 4.
9. (Подготовка к интерполяции). Присвоить k значение 0. Выбрать два верхних элемента стека C и поместить их в обычные переменные u и v. Оба числа u и v будут состоять из 32 битов. Используя некоторую другую подпрограмму умножения, вычислить [64, w] = [64, uv]. Это умножение можно выполнить аппаратно или с помощью подпрограммы, как вы найдете нужным.
10. (Интерполяция при необходимости). Выбрать вершину управляющего стека в переменную A. Если значение A есть ИНТЕРПОЛИРОВАТЬ, то выполнить шаги с 11-го по 16-й, в противном случае перейти к шагу 17.
11. (Организация интерполяции). Поместить [m, w] в стек W (это может быть значение, полученное на шаге 9 или 16). Присвоить s значение q[k], t - значение r[k], p - значение q[k-i]+q[k]. Обозначим верхнюю часть стека W, рассматриваемую СНИЗУ ВВЕРХ, как
[2p, Z[0]], [2p, Z[1]], ..., [2p, Z[2ta-1]l, [2p, Z[2t]],
последнее из этих значений - на вершине стека.
12. (Внешний цикл деления Z). Выполнять шаг 13 для i = 1, 2, ..., 2t.
13. (Внутренний цикл деления Z). Присвоить [2p, Z[j]] значение ([2p, Z[j]] - i[2p, Z[j-1])/i для j = 2t, 2t-1, ..., i+1, i. Все разности будут положительными, а все деления выполняются нацело, т.е. без остатка.
14. (Внешний цикл умножения Z). Выполнять шаг 15 для i = 2t-1, 2t-2, ..., 2, 1.
15. (Внутренний цикл умножения Z). Заменить [2p, Z[j]] на [2p, Zj] - i[2p, Z[j+i]] для j = i, i+1, ..., 2t-2, 2t-1. Все разности будут положительными, и все результаты поместятся в 2p битов.
16. (Образование нового w и начало нового цикла). Присвоить значение многочлена
(... ([2p, Z[2t]]2**s + [2p, Z[2t-1]])2**s + ... + [2p, Z[1]]2**s + [2p, Z[0]]
переменной [2(q[k]+q[k+1]), w]. Этот шаг можно выполнять, используя только сдвиги и сложения длинных чисел. Заметьте, что используется та же переменная [m, w], что и на шаге 9. Удалить [2p, Z[2t]], ..., [2p, Z[0]] из стека W. Присвоить k значение k+1 и вернуться к шагу 10.
17. (Проверка окончания). Если A имеет значение СТОП, то в переменной [m, w], уже вычисленной на шаге 9 или 16, находится результат алгоритма. В этом случае окончить работу.
18. (Сохранение значения). Значением A должен быть код СОХРАНИТЬ (если это не так, завершить алгоритм по ошибке). Присвоить k значение k+1 и поместить [q[k]+q[k-1], w] в стек W. Это значение w, только что вычисленное на шаге 9 или 16. Теперь вернуться к шагу 3.
КОММЕНТАРИИ К АЛГОРИТМУ ТООМА-КУКА
Мы почти не обосновывали и не объясняли алгоритм; вам придется кое в чем поверить на слово. Причина отсутствия объясненений кроется в том, что они крайне длинны и математичны, и у нас просто не хватило бы места. Изложение алгоритма в большой степени опирается на монографию Кнута; если вы хотите ознакомиться с алгоритмом подробнее, обратитесь к этой книге. Мы все же дадим некоторые комментарии, возможно способствующие лучшему пониманию.
1. (Структура алгоритма). Наша версия алгоритма отличается от описанной у Кнута в основном структурой циклов. На рис.22.1 представлена общая схема верхнего уровня алгоритма Тоома-Кука [Дадим небольшое пояснение к рисунку: long - длинный, stack - стек, control - управляющий, pop ... into - удалить вершину ... и поместить в, abort - аварийное окончание. Остальные ключевые слова имеют тот же смысл, что в языке Паскаль.- Прим. перев.])
Рисунок 22.1. Управляющая схема алгоритма Тоома-Кука.
2. (Таблицы размеров). Значения массивов, вычисленные на шаге 2, показаны в табл. 22.1; число в колонке n[k] равно наибольшему числу битов, которое может быть обработано алгоритмом при K=k. Очевидно, что предельное значение 10 для K не является очень серьезным ограничением. При желании этот предел можно повысить.
Таблица 22.1. Значения q, r и n
3. (Глубина стеков в первом цикле). Максимальная глубина стеков U и V на шагах с 5-го по 8-й равна 2(r[K-i]+1). Глубина стека C может возрастать до Суммы(i от 1 до K-1) (r[i]+1).
4. (Глубина стеков во втором цикле). Общая глубина стека W может достигать Суммы(i от 1 до K-1) 2r[i]. Управляющий стек может достигать глубины (Сумма(i от 1 до K-1) 2r[i]) + l. На шагах 14, 15 и 16 верхняя часть стека W используется как массив. Этот массив может содержать максимум 2r[k-1]+2 элементов.
5. (Размер исходных данных). Для любого числа битов n в диапазоне n[i-1]+1 <= n <= n[i] алгоритм Тоома-Кука требует одинакового времени вычислений. Таким образом, сложность вычислений весьма негладко зависит от размера исходных данных. Поэтому при выполнении длинных вычислений имеет смысл подбирать число битов вблизи верхнего конца одного из диапазонов для n. Учитывайте, что для представления одной десятичной цифры требуется примерно 3 1/3 бита.
6. (Как умножить два 32-разрядных числа?) На шаге 9 требуется умножить два 32-разрядных числа, получив 64-разрядное произведение, причем оба сомножителя обязательно положительны. На многих ЭВМ имеется аппаратная возможность такого умножения, но результат нельзя получить, пользуясь языками высокого уровня. Ну и, конечно, некоторые ЭВМ не имеют подобной аппаратуры. Поэтому для выполнения этого умножения нужно написать подпрограмму, причем она должна быть эффективной, поскольку время работы алгоритма определяется главным образом временем умножения 32-разрядных чисел. Вероятно, достаточно хорошим методом будет разбиение чисел на части и моделирование ручного способа умножения. Тем не менее, если нужно получить произведение uv и число u записано в виде u[1]*2**16 + u[0], a v - в виде v[1]*2**16 + v[0], то произведением будет
(2**32+2**16)u[1]v[1] + 2**16(u[1]-u[0])(v[0]-v[1]) + (2**16+1)u[0]v[0].
Вычисление по этой формуле выполняется при помощи только 16-битовых вычитаний и умножений, а также некоторых сдвигов и сложений. Обратите внимание, что одно умножение сэкономлено.
ЧТО МОЖНО СКАЗАТЬ ОТНОСИТЕЛЬНО ДЕЛЕНИЯ?
При вычислении предложенных рядов наряду с умножением используется деление чисел высокой точности. К счастью, при помощи алгоритма умножения удается выполнять деление почти так же быстро, как умножение. Для нахождения частного нужно приблизительно угадать число, обратное к делителю, скорректировать его, чтобы обратное стало точным, и затем умножить на делимое. Уточнение обратного осуществляется по методу Ньютона.
Даны два числа [m, u] и [n, v]; мы считаем, что u>=v (хотя это предположение несущественно) и что n-й бит v равен 1 (т.е. у v нет старших нулей). Чем больше разница размеров u и v, тем более точным будет частное; разницу можно увеличить, умножая u на степень двойки. Отметим, что алгоритм деления будет неоднократно вызывать алгоритм умножения. Для нескольких первых из этих умножений можно воспользоваться обычной операцией умножения коротких чисел. Кроме того, все умножения и деления на степень двойки суть фактически сдвиги влево и вправо.
1. (Выбор размера обратного). Найти наименьшее j, такое, что 2**j>= max(m, 2n). Присвоить k значение 2**(j-1).
2. (Нормализация v). Присвоить [k, v] значение 2**(k-n) [n, v]. На этом шаге мы сдвигаем v влево, чтобы оно заняло k битов, причем левый бит был бы равен 1. Присвоить [2, a] значение [2, 2].
3. (Вычисление последовательных приближений к 1/v). Выполнить шаг 4 для i = 1, 2, ..., j-1.
4. (Вычисление приближения из 2**i битов). Присвоить [2**(i+1), d] значение
2**(3*2**i) [2**(i-1)+1, a] - [2**(i-1), a]**2 2([k, v]/2**(k-2**i)).
Деление в скобках (фактически сдвиг вправо) должно выполняться до умножения; идея состоит в том, чтобы ускорить умножение, отбросив лишние биты v, ненужные в данном приближения. Хотя кажется, что результат d может содержать больше 2**(i+1) битов, этого никогда не произойдет. Затем присвоить [2**i + 1, а] значение [2**(i+1), d]/2**(i-1).
5. (Улучшение окончательной оценки). Присвоить [3k, d] значение
2**(2k)[k+1, а] - [k+1, а]**2*[k, v].
Затем присвоить [k+1, а] значение
([3k, d] + 2**(2k-2))/2**(2k-1).
6. (Окончательное деление). Выдать в качестве результата
([k+1, a]*[m, u]+2**(k+n-2))/2**(k+n-1)
[В алгоритм, вероятно, необходимо внести следующие изменения:
a) на шаге 1 заменить max(m, 2n) на max(2m-2n, 2n);
b) на шаге 4 заменить 2**(3*2**i) на 2**(3*2**(i-1)).
Прежде чем приступать к программированию алгоритма Тоома-Кука или алгоритма деления, рекомендуем тщательно разобраться в них, ознакомившись с теорией, например по книге Кнута, неоднократно цитируемой здесь.- Прим. перев.].
КАК ИСПОЛЬЗОВАТЬ АЛГОРИТМЫ?
Для нахождения пи надо будет провести вычисления по одной из формул, выписанных ранее в этом пункте, с использованием ряда для арктангенса. Фактически для страховки следует использовать две формулы и затем сравнить результаты бит за битом. Значением пи будет общая начальная часть этих двух результатов. Все еще остается открытым вопрос, как с помощью алгоритмов, работающих только с целыми числами, получить очевидно дробные значения членов ряда. Пусть мы хотим вычислить пи, скажем, с точностью 1000 битов. Вычислим тогда 2**1000пи, умножив все числители на 2**1000. Эта процедура делает также все делимые много больше делителей (как предполагалось выше) и позволяет прекратить вычисления, когда частные станут нулевыми.
Выберем теперь (не обязательно наилучший) ряд для вычислений, скажем
пи = 16arctg(l/5) - 4arctg(l/239).
Мы фактически будем вычислять 2**1000пи, поэтому хотелось бы вычислить 2**1000*16arctg(1/5). Первым членом соответствующего ряда будет 2**1000*16/5; назовем его a[1] (отметим, что a[1] складывается с суммой). Теперь, чтобы получить следующий член a[i+1] из a[i], поделим a[1] на 5*5*(2i-1) [На самом деле a[i+1] = (a[i]/5**2) * ((2i-1)/(2i+1)). Чтобы не выполнять умножение, можно хранить кроме a[i] еще одно число b[1], равное (2**1000*16)/5**(2i-1). Тогда переход к следующему члену осуществляется по формулам: b[i+1] = b[i]/5**2, a[i+1] = b[i+1]/(2i+1).- Прим. перев.]. Если a[i] добавлялся к сумме, то вычтем a[i+1] из суммы, если a[i] вычитался, прибавим a[i+1]. Поделим a[i] на 5*5*(2i-1) [то же]. Если a[i] добавлялся к сумме, то вычисления заканчиваются, когда члены обоих рядов станут нулевыми. В результате получим примерно тысячу битов числа n. Результат, конечно, надо будет перевести в десятичную систему.
ТЕМА. Составьте программы, реализующие описанные выше алгоритмы умножения и деления, и все необходимые им служебные подпрограммы. Используйте их для вычисления пи с высокой точностью при помощи одного из выписанных рядов. Проследите, чтобы ваши программы не оказались слишком тесно привязаны к вычислению пи; библиотека программ для вычислений с высокой точностью может быть полезна и для других задач. Должна быть предусмотрена возможность увеличения точности счета без изменения программ, а лишь путем расширения памяти для результатов. Выходные данные должны включать статистику по использованию каждой программы, по числу выполнений каждого шага двух центральных алгоритмов и по использованию памяти. Сбор такой информации обойдется очень дешево в сравнении со всей работой.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Этот этюд длинный и трудный. Не последнюю роль здесь играет то, что два центральных алгоритма нужно в какой-то степени принимать на веру. Однако, как это часто бывает в реальных задачах, главной проблемой является не кодирование программы, а выбор структур данных. Как представлять длинные числа? Обозначение [m, u] наводит на мысль, что всякое длинное число представляется парой аргументов ДЛИНА и ЗНАЧЕНИЕ. Часть ДЛИНА легко реализуется, но ЗНАЧЕНИЕ имеет, очевидно, переменную длину, и его трудно будет непосредственно хранить в памяти. Поэтому мы сделаем значение указателем на очень длинный вектор битов; тогда каждая пара будет иметь фиксированный размер. Однако имеющийся в нашем распоряжении вектор не настолько длинен, чтобы мы могли позволить себе использовать каждую его часть только по одному разу. Таким образом, нужна программа для СБОРА НЕНУЖНОЙ ПАМЯТИ. Сейчас мы фактически описали традиционную схему РАЗМЕЩЕНИЯ ЦЕПОЧЕК.
Итак, в конечном итоге нам нужны кроме алгоритма умножения и деления следующие вспомогательные подпрограммы:
ВЫДЕЛЕНИЕ ПАМЯТИ. Получая величину ДЛИНА в качестве аргумента, эта подпрограмма возвращает указатель в вектор битов, который может использоваться как ЗНАЧЕНИЕ. Начиная с бита, на который указывает ЗНАЧЕНИЕ, расположено ДЛИНА битов, которые не будут использоваться ни для каких других целей.
ВОЗВРАТ ПАМЯТИ. Исходными данными для этой подпрограммы служит пара ДЛИНА и ЗНАЧЕНИЕ. Связанная с ними память освобождается для повторного использования. Эту подпрограмму необходимо вызывать всякий раз, когда длина какой-либо переменной меняется.
УПЛОТНЕНИЕ ПАМЯТИ. Эта подпрограмма должна просмотреть всю используемую память и попытаться объединить неиспользуемые отрезки вектора битов в более длинные отрезки. Обычно подпрограмма уплотнения вызывается в тех случаях, когда подпрограмма выделения памяти не смогла найти достаточно длинную цепочку последовательных битов. Поскольку такая возможность может не потребоваться при решении коротких задач, эту подпрограмму можно запрограммировать позднее. Существует много способов хранения информации о неиспользуемой памяти.
СДВИГ. Исходными данными для подпрограммы служат длинное число и величина сдвига; результатом должно быть длинное число, сдвинутое вправо или влево на соответствующую величину. Эта операция отвечает умножению или делению на степень двойки.
СЛОЖЕНИЕ. Исходными данными подпрограммы служат два длинных числа, а результатом должна быть их сумма в виде числа на один бит длиннее более длинного из операндов. Такое сложение можно выполнять так же, как вручную, двигаясь справа налево.
ВЫЧИТАНИЕ. Эта подпрограмма аналогична подпрограмме сложения и выдает разность двух длинных чисел.
ПОДАВЛЕНИЕ НУЛЕЙ. Исходными данными этой подпрограммы служит длинное число, а результатом должно быть более короткое длинное число, имеющее то же значение, но без старших нулей. Если окажется, что исходное число равно нулю, то результатом должно быть [1, 0].
КОРОТКОЕ УМНОЖЕНИЕ. Исходными данными служат два длинных числа длиной точно 32 бита; результатом должно быть их 64-разрядное произведение. Эту операцию можно выполнять справа налево, как в ручном методе.
УМНОЖЕНИЕ ДЛИННОГО НА КОРОТКОЕ. Исходными данными служат длинное число и обычое число, по величине равное 64 или меньше; результатом должно быть их произведение в виде длинного числа. Эту операцию можно выполнять справа налево, как вручную.
ДЕЛЕНИЕ ДЛИННОГО НА КОРОТКОЕ. Исходными данными служат длинное число и обычное число, не превосходящее 64, а результатом должно быть длинное частное от деления длинного числа на короткое. Эту операцию можно выполнять слева направо, как это делается вручную.
ПЕРЕВОД. Исходными данными для этой подпрограммы является длинное число, а результатом должно быть то же число, записанное в десятичной системе на некотором устройстве вывода. При появлении потребности в более сложном выводе можно разработать более детальные спецификации подпрограммы перевода.
ИНСТРУМЕНТОВКА. В качестве языка реализации сразу же приходит на ум Паскаль: в этом языке хорошие структуры данных и управляющие структуры. Однако Паскаль не позволяет легко переводить внутреннее битовое представление в битовые цепочки, доступные программисту, и обратно. Языки более низкого уровня - BLISS и XPL - обеспечивают более прямой доступ к ЭВМ за счет некоторой потери выразительности и надежности. Хорошая защищенность языков высокого уровня и доступ к машинному представлению сочетаются в PL/I, но обычно за это приходится расплачиваться временем выполнения. Для данного этюда важно также время, которое вы потеряете, пытаясь постичь некоторые весьма изощренные возможности PL/I. Интересной представляется реализация на Траке, поскольку в этом случае автоматически решается задача распределения памяти для цепочек.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 5 недель или двум на 3 недели.
РАЗВИТИЕ ТЕМЫ. Как только у нас появляется арифметика высокой точности, сразу же возникает много интересных задач. Одна из них - точное вычисление числа е. Ряд для е особенно прост;
e = Сумма(i от 0 до бесконечности) 1/i!,
где 0!=1. Любой студент, изучающий математический анализ, может придумать еще очень много рядов и констант.
* ПАРТИЯ ПЕРЕВОДЧИКА. Можно существенно сократить как время работы программ, так и время их написания, если, не послушавшись автора, создать набор специализированных программ для вычисления пи. Анализируя ряд для пи, мы видим, что его вычисление требует всего двух программ высокой точности. Это программа сложения-вычитания длинных чисел (сложение и вычитание настолько похожи, что их можко рассматривать как одно действие) и программа деления длинного числа на короткое, т.е. на представимое в виде обычного целого числа. Эти действия, выполняемые классическими ручными методами, занимают лишь линейное по n время. Кроме того, имеет смысл хранить длинные числа не в двоичной системе счисления, а в десятичной (конечно, не по одной цифре в элементе массива, а по столько цифр, сколько помещается в обычном целом числе). При этом отпадает необходимость в программе перевода. Теперь арифметические программы могут работать несколько медленнее (но вовсе не обязательно; далеко не все компиляторы используют команды сдвига для умножения и деления на степени двойки), тем не менее в целом можно получить выигрыш в скорости, поскольку время работы алгоритма перевода длинных чисел из двоичной системы в десятичную (описанного у Кнута) пропорционально n**2, т.е. того же порядка, что и время всех остальных вычислений.
С помощью лишь этих программ сложения и деления можно вычислить многие математические константы: пи, e, корень из 2, кубический корень из 2, ln 2 и т.д. Реализация такого усеченного варианта потребует, вероятно, не более одной человеко-недели. Сложные динамические структуры данных уже не потребуются; у нас будет всего два-три длинных числа известного размера, для представления которых вполне подойдут массивы Фортрана.
ЛИТЕРАТУРА
Ахо, Хопкрофт, Ульман (Aho А.V., Hopcroft J.E., Ullman J.D.). The Design and Analysis of Computer Algorithms. Addison-Wesley, Reading, MA, 1974. Section 8.2, pp.279-286. [Имеется перевод: Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. - М.: Мир, 1979, #8.2, с.313-320]
Мы почерпнули алгоритм умножения у Кнута, а алгоритм деления - у Ахо, Хопкрофта и Ульмана; оба алгоритма переработаны для наших целей. Эти книги содержат подробную информацию по основам и детальный анализ алгоритмов, включая оценки сложности. Описываются также альтернативные алгоритмы умножения, основанные на БЫСТРОМ ПРЕОБРАЗОВАНИИ ФУРЬЕ [Эти алгоритмы для очень длинных чисел работают еще быстрее алгоритма Тоома-Кука, затрачивая на умножение n-разрядных чисел время, пропорциональное n log n log log n - Прим. перев.]).
Брент (Brent R.P.). A FORTRAN Multiple-Precision Arithmetic Package, Department of Computer Science, Carnegie-Mellon University, May 1976.
Брент описывает пакет подпрограмм для арифметических действий с высокой точностью, написанных на переносимом, машинно-независимом Фортране. Благодаря включенной в книгу библиографии, вы сможете найти другие работы в этой области. В пакете, предложенном Брентом, не используется алгоритм Тоома-Кука, и автор объясняет почему.
Брент (Brent R.P.). Fast Multiple-precision Evaluation of Elementary Functions, Stanford University, Technical Report STAN-CS-75-515, August 1975.
Томас (Thomas G.В., Jr.). Calculus and Analytic Geometry, 3rd ed. Addison Wesley, Reading, MA, 1960. Section 16.3-3, pp.809-812.
Томас приводит сведения по математическому анализу, необходимые для рассмотренных нами вычислений и подобных им; изложение в его книге простое и классическое. Рейтуиснер, а также Шенкс и Ренч - два примера из ряда работ по вычислению пи. В обеих работах дается некоторый исторический обзор, обе они используют подход, предлагаемый Томасом. Брент развивает совершенно новые методы вычисления функций sin, cos, log, arctg и т.д., основанные на эллиптических интегралах. Его алгоритмы работают значительно быстрее описанных нами рядов. Работа Брента пока существует в виде технического доклада.
Кнут (Knuih D.E.). The Art of Computer Programming/Seminumerical Algorithms, Addison-Wesley, Reading, MA, 1969. Section 4.3.3, pp.258-286. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т.2. Получисленные алгоритмы.- М.: Мир, 1977, п.4.3.3., стр.314-340) [В #4.4 этой книги приведены алгоритмы перевода чисел в десятичную систему.- Прим. перев.]]
Рейтуиснер (Reitwiesner G.W.). An ENIAC Determination of пи and e to More than 2000 Decimal Places, Mathematical Tables and Aids to Computation, 4, pp.11-15, 1950.
Шенкс, Ренч (Shanks D., Wrench J.W.). Calculation of пи to 100000 Decimals, Mathematics of Computation, 16, pp.76-99, 1962.
* Кудрявцев Л.Д. Математический анализ.- М.: Высшая школа, 1973.
ПИ-ЭР КВАДРАТ,
ИЛИ...
АРИФМЕТИЧЕСКИЕ ВЫЧИСЛЕНИЯ С ВЫСОКОЙ ТОЧНОСТЬЮ
Математику часто считают сухой наукой, однако и математику творили люди. Одной из самых печальных была судьба Уильямса Шенкса, жившего в девятнадцатом веке и посвятившего себя вычислению числа пи с высокой точностью. Закончив многолетний труд, Шенкс в 1837г. опубликовал значение пи до 707-го десятичного знака, впоследствии исправив некоторые знаки. Может быть, надо счесть за благо, что Шенкс умер в 1882г., поскольку в 1946г. было показано, что его вычисления ошибочны начиная с 528-го десятичного знака. Фактически Шенкс не продвинулся дальше своих предшественников.
Полученное Шенксом значение было проверено, вероятно, с помощью механических устройств, а компьютер был впервые использован для вычисления я только в 1949г.; это была машина ENIAC. Даже тогда проект был монументальным. Джорж У.Рейтуиснер писал: "Поскольку получить машину в рабочее время было практически невозможно, мы воспользовались разрешением выполнить эту работу за 4 выходных дня в период летних отпусков, когда ENIAC стоял без дела". Собственно вычисления (не программирование!) заняли 70 часов: было получено несколько больше 2000 цифр. Все это время приходилось постоянно обслуживать компьютер, поскольку из-за ограниченности его возможностей требовались постоянная перфорация и ввод промежуточных результатов. Те первые программисты так же далеки от нынешних, как Шенкс далек от них.
Как бы мы стали вычислять пи? Во-первых, необходимо выражение, которое можно вычислять. Ряд
пи/4 = 1 - 1/3 + 1/5 - 1/7 + 1/9 - ...
довольно прост для понимания, но он ужасно медленно сходится. Гораздо лучше ряд для арктангенса
arctg x = x - x**3/3 + x**5/5 - x**7/7 +..., |x|<=i.
Объединим его с формулой сложения для тангенса
tg(a + b) = (tg a + tg b)/(l - tg a * tg b)
и выберем a и b так, чтобы tg(a+b) = 1 = tg пи/4. (Учитывая, что tg(arctg x)=х для -пи/2< х< пи/2, можно взять, например, а = arctg(1/2), b = arctg(1/3)).
Тогда
arctg(tg(a+b)) = a+b = arctg 1 = пи/4,
и теперь можно использовать приведенный выше ряд для нахождения a и b. На практике чаще всего используются следующие суммы:
пи/4 = 4*arctg(1/5) - arctg(1/239),
пи/4 = 8*arctg(1/10) - 4*arctg(1/515) - arctg(1/239),
пи/4 = 3*arctg(1/4) + arctg(1/20) + arctg(1/1985).
Теперь мы собираемся просуммировать эти ряды на ЭВМ. Как известно, все, что нужно для суммирования, - это простой итерационный цикл, но тут возникает одна проблема. Точность вычислений на
ЭВМ ограничена, а весь смысл этого упражнения в том, чтобы найти много-много цифр числа пи, значительно превзойдя обычную точность. Первое, что приходит в голову,- промоделировать ручные методы выполнения арифметических действий. Будем представлять числа очень большими целочисленными массивами (по одной десятичной цифре в каждом элементе), тогда ясно, как составить программы сложения, вычитания и умножения. Запрограммировать ручной метод деления несколько сложнее, но все же возможно. Неприемлемым, однако, оказывается время выполнения алгоритмов. Хотя на это редко обращают внимание, но при ручных методах для умножения или деления n-значных чисел требуется время, пропорциональное n**2. Если речь идет об операциях над числами из тысяч цифр, то такие расходы будут нам не по карману. К счастью, имеются лучшие алгоритмы.
КАК МОЖНО БЫСТРО УМНОЖАТЬ?
Алгоритм быстрого умножения Тоома-Кука, описываемый Кнутом, зиждется на четырех основных идеях [Как здесь не отметить, что самую плодотворную идею по части быстрого умножения вы можете позаимствовать у кроликов. Их многочисленное потомство - тому порука]. Вот первая из них. Пусть нам известен способ выполнения некоторой операции над исходными данными размера n за время T(n). Если эту операцию удастся разбить на r частей, выполнение каждой из которых займет менее чем T(n)/r шагов, то такое разбиение позволит улучшить общее время, если, конечно, считать, что вспомогательные организационные расходы не сведут экономию на нет. Пусть, далее, каждая из r частей есть применение того же алгоритма к исходным данным длины n/r и каждая часть может быть разбита аналогичным образом. Тогда можно продолжать это разбиение, пока мы не получим столь короткие исходные данные, что вычисления для них станут тривиальными и займут лишь небольшой фиксированный отрезок времени. Этот принцип РАЗДЕЛЯЙ И ВЛАСТВУЙ обычно дает выигрыш во времени работы алгоритма по крайней мере в log n раз; так, классический метод умножения требует времени n*2, и его можно свести к n**(l+7/Корень(4*log2 n), что существенно лучше при больших n (не забывайте, что у обеих функций стоимости имеются постоянные множители).
Остальные три идеи касаются чисел и действий над многочленами. Во-первых, заметим, что, если число U имеет длину n битов и записывается в двоичном виде как
u[n-1]u[n-2]...u[2]u[1]u[0],
причем n делится на r+1, то U можно также записать в виде
U[r]*2**(r*n/(r+1)) + U[r-1]*2**(r-1)*n/(r+1)) + ... + U[1]*2**(n/(r+1)) + U[0],
где каждое Ui есть блок из n/(r+1) битов исходного представления U. Фактически U = U#{2**(n/(r+1))), где многочлен U#(x) есть
U[r]*x**r + U[r-1]*x**(r-1) + ... + U[1]*x + U0.
Во-вторых, мы видим, что если U и V - два n-разрядных числа, записанных в виде такого многочлена, то их произведение W дается формулой
W = UV = U#(2**(n/((r+1)))) * V#(2**(n/((r+1)))) = W#(2**(n/((r+1)))),
и если бы мы смогли найти хотя бы коэффициенты W#(x), то вычислить W по W# было бы сравнительно просто; для этого понадобились бы только сдвиги, сложения и умножения чисел из n/r битов. В-третьих, к счастью, W#(х)-многочлен степени 2r и его можно найти с помощью интерполяции его значений в точках 0,1,2, ..., 2r-1, 2r. Эти значения равны просто U#(0)*V#(0), U#(1)*V#(1), ... U#(2r)*V#(2r). Более того, для вычисления всех этих многочленов и интерполяции требуется умножать числа только из n/r битов. Представляется, что эти действия подпадают под принцип "разделяй и властвуй".
АЛГОРИТМ ТООМА-КУКА весьма сложен, поэтому мы не будем подробно объяснять его; за этим можно обратиться к книге Кнута. Все же необходимо сообщить основные идеи и обозначения. Длинные числа должны быть как-то представлены; будем писать [p, u] для обозначения числа u из p битов. Вероятно, внутреннее представление [p, u] будет некоторой разновидностью списка или цепочки. Кроме основного алгоритма нам понадобятся подпрограммы для сложения и вычитания длинных чисел (используйте стандартный ручной метод сложения слева направо), умножения длинного числа на короткое (небольшое) число, деления длинного числа на короткое, сдвига длинного числа путем приписывания нулей справа и для разбиения длинного числа [р, u] на более короткие длинные числа [p/(r+1), ur], [p/(r+1), ur(r-1)], ..., [p/(r+1), u0], как описано выше. Кроме подпрограмм, работающих непосредственно с числами, алгоритм использует четыре стека для хранения промежуточных частичных результатов и несколько временных переменных, поэтому требуются подпрограммы для выполнения некоторых действий над стеком, а также подпрограммы для выделения и освобождения памяти под длинные числа. При написании всяческих вспомогательных подпрограмм черновой работы может оказаться предостаточно.
АЛГОРИТМ БЫСТРОГО УМНОЖЕНИЯ ТООМА-КУКА
Исходными данными служат два положительных длинных числа [n, u] и [n, v]; результатом - их произведение [2n, uv]. Используются четыре стека U, V, W и С, в которых при выполнении алгоритма будут храниться длинные числа, и пятый стек, содержащий коды временно приостановленных операций (имеется всего три кода, и для их представления можно воспользоваться малыми целыми числами). Массивы q и r целых чисел имеют индексы от 0 до 10; необходимо выделить память для этих двух массивов и для еще нескольких временных переменных, упомянутых в алгоритме.
1. (Начальная установка). Сделать все стеки пустыми. Присвоить K значение 1, q0 и q1 - значение 16, r0 и r1 - значение 4, Q - значение 4 и R - значение 2.
2. (Построение таблицы размеров). Пока К<10 и q[K-1]+q[K]>=n, выполнять следующие вычисления. Изменить K на K+1, Q - на Q+R; если (R+1)**2<=Q, то изменить R на R+1; установить q[K] равным 2**Q и r[K] равным 2**R. Если цикл оканчивается из-за К = 10, то остановиться, выдав сообщение об ошибке - число битов n слишком велико, массивы q и r переполнились. В противном случае присвоить k значение K. Поместить [q[K]+q[K-1], v] и за ним [q[K]+q[K-1], u] в стек C (вероятно, потребуется добавить к [n, u] и [n, v] слева нули). Поместить в управляющий стек код СТОП.
3. (Главный внешний цикл). Пока управляющий стек не пуст, выполнять шаги с 4-го по 18-й. Если на этом шаге управляющий стек окажется пустым, то остановиться с сообщением об ошибке; в управляющем стеке должен быть по крайней мере один элемент.
4. (Внутренний цикл разбиения u и v). Пока k>1, выполнять шаги с 5-го по 8-й.
5. (Установка параметров разбиения). Установить k равным k-1, s равным q[k], t равным r[k] и p равным q[k-i]+q[k].
6. (Разбиение верхнего элемента стека C). Длинное число [q[k]+q[k+1], u] на вершине C следует рассматривать как t+1 чисел длиной s битов каждое. Разбить [q[k]+q[k+i], u] на длинные числа [s, U[t]], [s, U[t-i]], ..., [s, U[1]], [s, U[0]]. Эти t+1 чисел являются коэффициентами многочлена степени t, который следует вычислить в точках 0, 1, ..., 2t-l, 2t no правилу Горнера. Для i = 0, 1, ..., 2t-1, 2t вычислить [p, X[i]] по формуле
(... ([s, U[t]]i + [s, U[t-i]])i + ... + [s, U[1]])i + [s, U[0]]
и сразу поместить [p, X[i]] в стек U. Для выполнения умножений можно использовать подпрограмму умножения длинных чисел на короткие; никакой промежуточный или окончательный результат не потребует более p битов. Удалить [q[k]+q[k-1], u] из стека C.
7. (Продолжение разбиения). Выполнить над числом [m, v], находящимся сейчас на вершине стека С, ту же последовательность действий, что на шаге 6; полученные числа [p, Y[0]], ..., [p, Y[2t]] поместить в стек V в порядке получения. Не забудьте удалить вершину стека C.
8. (Заполнение заново стека С). Попеременно удалять 2t раз) вершины стеков V и U и помещать эти значения в стек C. В результате значения, вычисленные на шагах 6 и 7, будут помещены, чередуясь, в стек С в обратном порядке. После выполнения этого перемешивания верхняя часть стека C, рассматриваемая СНИЗУ ВВЕРХ, будет иметь вид
[p, Y[2t]], [p, X[2t]], ..., [p, Y[0]], [p, X[0]],
на вершине будет [p, X[0]]. Поместить в управляющий стек один код операции ИНТЕРПОЛИРОВАТЬ и 2t кодов операции СОХРАНИТЬ и вернуться к шагу 4.
9. (Подготовка к интерполяции). Присвоить k значение 0. Выбрать два верхних элемента стека C и поместить их в обычные переменные u и v. Оба числа u и v будут состоять из 32 битов. Используя некоторую другую подпрограмму умножения, вычислить [64, w] = [64, uv]. Это умножение можно выполнить аппаратно или с помощью подпрограммы, как вы найдете нужным.
10. (Интерполяция при необходимости). Выбрать вершину управляющего стека в переменную A. Если значение A есть ИНТЕРПОЛИРОВАТЬ, то выполнить шаги с 11-го по 16-й, в противном случае перейти к шагу 17.
11. (Организация интерполяции). Поместить [m, w] в стек W (это может быть значение, полученное на шаге 9 или 16). Присвоить s значение q[k], t - значение r[k], p - значение q[k-i]+q[k]. Обозначим верхнюю часть стека W, рассматриваемую СНИЗУ ВВЕРХ, как
[2p, Z[0]], [2p, Z[1]], ..., [2p, Z[2ta-1]l, [2p, Z[2t]],
последнее из этих значений - на вершине стека.
12. (Внешний цикл деления Z). Выполнять шаг 13 для i = 1, 2, ..., 2t.
13. (Внутренний цикл деления Z). Присвоить [2p, Z[j]] значение ([2p, Z[j]] - i[2p, Z[j-1])/i для j = 2t, 2t-1, ..., i+1, i. Все разности будут положительными, а все деления выполняются нацело, т.е. без остатка.
14. (Внешний цикл умножения Z). Выполнять шаг 15 для i = 2t-1, 2t-2, ..., 2, 1.
15. (Внутренний цикл умножения Z). Заменить [2p, Z[j]] на [2p, Zj] - i[2p, Z[j+i]] для j = i, i+1, ..., 2t-2, 2t-1. Все разности будут положительными, и все результаты поместятся в 2p битов.
16. (Образование нового w и начало нового цикла). Присвоить значение многочлена
(... ([2p, Z[2t]]2**s + [2p, Z[2t-1]])2**s + ... + [2p, Z[1]]2**s + [2p, Z[0]]
переменной [2(q[k]+q[k+1]), w]. Этот шаг можно выполнять, используя только сдвиги и сложения длинных чисел. Заметьте, что используется та же переменная [m, w], что и на шаге 9. Удалить [2p, Z[2t]], ..., [2p, Z[0]] из стека W. Присвоить k значение k+1 и вернуться к шагу 10.
17. (Проверка окончания). Если A имеет значение СТОП, то в переменной [m, w], уже вычисленной на шаге 9 или 16, находится результат алгоритма. В этом случае окончить работу.
18. (Сохранение значения). Значением A должен быть код СОХРАНИТЬ (если это не так, завершить алгоритм по ошибке). Присвоить k значение k+1 и поместить [q[k]+q[k-1], w] в стек W. Это значение w, только что вычисленное на шаге 9 или 16. Теперь вернуться к шагу 3.
КОММЕНТАРИИ К АЛГОРИТМУ ТООМА-КУКА
Мы почти не обосновывали и не объясняли алгоритм; вам придется кое в чем поверить на слово. Причина отсутствия объясненений кроется в том, что они крайне длинны и математичны, и у нас просто не хватило бы места. Изложение алгоритма в большой степени опирается на монографию Кнута; если вы хотите ознакомиться с алгоритмом подробнее, обратитесь к этой книге. Мы все же дадим некоторые комментарии, возможно способствующие лучшему пониманию.
1. (Структура алгоритма). Наша версия алгоритма отличается от описанной у Кнута в основном структурой циклов. На рис.22.1 представлена общая схема верхнего уровня алгоритма Тоома-Кука [Дадим небольшое пояснение к рисунку: long - длинный, stack - стек, control - управляющий, pop ... into - удалить вершину ... и поместить в, abort - аварийное окончание. Остальные ключевые слова имеют тот же смысл, что в языке Паскаль.- Прим. перев.])
Рисунок 22.1. Управляющая схема алгоритма Тоома-Кука.
2. (Таблицы размеров). Значения массивов, вычисленные на шаге 2, показаны в табл. 22.1; число в колонке n[k] равно наибольшему числу битов, которое может быть обработано алгоритмом при K=k. Очевидно, что предельное значение 10 для K не является очень серьезным ограничением. При желании этот предел можно повысить.
Таблица 22.1. Значения q, r и n
3. (Глубина стеков в первом цикле). Максимальная глубина стеков U и V на шагах с 5-го по 8-й равна 2(r[K-i]+1). Глубина стека C может возрастать до Суммы(i от 1 до K-1) (r[i]+1).
4. (Глубина стеков во втором цикле). Общая глубина стека W может достигать Суммы(i от 1 до K-1) 2r[i]. Управляющий стек может достигать глубины (Сумма(i от 1 до K-1) 2r[i]) + l. На шагах 14, 15 и 16 верхняя часть стека W используется как массив. Этот массив может содержать максимум 2r[k-1]+2 элементов.
5. (Размер исходных данных). Для любого числа битов n в диапазоне n[i-1]+1 <= n <= n[i] алгоритм Тоома-Кука требует одинакового времени вычислений. Таким образом, сложность вычислений весьма негладко зависит от размера исходных данных. Поэтому при выполнении длинных вычислений имеет смысл подбирать число битов вблизи верхнего конца одного из диапазонов для n. Учитывайте, что для представления одной десятичной цифры требуется примерно 3 1/3 бита.
6. (Как умножить два 32-разрядных числа?) На шаге 9 требуется умножить два 32-разрядных числа, получив 64-разрядное произведение, причем оба сомножителя обязательно положительны. На многих ЭВМ имеется аппаратная возможность такого умножения, но результат нельзя получить, пользуясь языками высокого уровня. Ну и, конечно, некоторые ЭВМ не имеют подобной аппаратуры. Поэтому для выполнения этого умножения нужно написать подпрограмму, причем она должна быть эффективной, поскольку время работы алгоритма определяется главным образом временем умножения 32-разрядных чисел. Вероятно, достаточно хорошим методом будет разбиение чисел на части и моделирование ручного способа умножения. Тем не менее, если нужно получить произведение uv и число u записано в виде u[1]*2**16 + u[0], a v - в виде v[1]*2**16 + v[0], то произведением будет
(2**32+2**16)u[1]v[1] + 2**16(u[1]-u[0])(v[0]-v[1]) + (2**16+1)u[0]v[0].
Вычисление по этой формуле выполняется при помощи только 16-битовых вычитаний и умножений, а также некоторых сдвигов и сложений. Обратите внимание, что одно умножение сэкономлено.
ЧТО МОЖНО СКАЗАТЬ ОТНОСИТЕЛЬНО ДЕЛЕНИЯ?
При вычислении предложенных рядов наряду с умножением используется деление чисел высокой точности. К счастью, при помощи алгоритма умножения удается выполнять деление почти так же быстро, как умножение. Для нахождения частного нужно приблизительно угадать число, обратное к делителю, скорректировать его, чтобы обратное стало точным, и затем умножить на делимое. Уточнение обратного осуществляется по методу Ньютона.
Даны два числа [m, u] и [n, v]; мы считаем, что u>=v (хотя это предположение несущественно) и что n-й бит v равен 1 (т.е. у v нет старших нулей). Чем больше разница размеров u и v, тем более точным будет частное; разницу можно увеличить, умножая u на степень двойки. Отметим, что алгоритм деления будет неоднократно вызывать алгоритм умножения. Для нескольких первых из этих умножений можно воспользоваться обычной операцией умножения коротких чисел. Кроме того, все умножения и деления на степень двойки суть фактически сдвиги влево и вправо.
1. (Выбор размера обратного). Найти наименьшее j, такое, что 2**j>= max(m, 2n). Присвоить k значение 2**(j-1).
2. (Нормализация v). Присвоить [k, v] значение 2**(k-n) [n, v]. На этом шаге мы сдвигаем v влево, чтобы оно заняло k битов, причем левый бит был бы равен 1. Присвоить [2, a] значение [2, 2].
3. (Вычисление последовательных приближений к 1/v). Выполнить шаг 4 для i = 1, 2, ..., j-1.
4. (Вычисление приближения из 2**i битов). Присвоить [2**(i+1), d] значение
2**(3*2**i) [2**(i-1)+1, a] - [2**(i-1), a]**2 2([k, v]/2**(k-2**i)).
Деление в скобках (фактически сдвиг вправо) должно выполняться до умножения; идея состоит в том, чтобы ускорить умножение, отбросив лишние биты v, ненужные в данном приближения. Хотя кажется, что результат d может содержать больше 2**(i+1) битов, этого никогда не произойдет. Затем присвоить [2**i + 1, а] значение [2**(i+1), d]/2**(i-1).
5. (Улучшение окончательной оценки). Присвоить [3k, d] значение
2**(2k)[k+1, а] - [k+1, а]**2*[k, v].
Затем присвоить [k+1, а] значение
([3k, d] + 2**(2k-2))/2**(2k-1).
6. (Окончательное деление). Выдать в качестве результата
([k+1, a]*[m, u]+2**(k+n-2))/2**(k+n-1)
[В алгоритм, вероятно, необходимо внести следующие изменения:
a) на шаге 1 заменить max(m, 2n) на max(2m-2n, 2n);
b) на шаге 4 заменить 2**(3*2**i) на 2**(3*2**(i-1)).
Прежде чем приступать к программированию алгоритма Тоома-Кука или алгоритма деления, рекомендуем тщательно разобраться в них, ознакомившись с теорией, например по книге Кнута, неоднократно цитируемой здесь.- Прим. перев.].
КАК ИСПОЛЬЗОВАТЬ АЛГОРИТМЫ?
Для нахождения пи надо будет провести вычисления по одной из формул, выписанных ранее в этом пункте, с использованием ряда для арктангенса. Фактически для страховки следует использовать две формулы и затем сравнить результаты бит за битом. Значением пи будет общая начальная часть этих двух результатов. Все еще остается открытым вопрос, как с помощью алгоритмов, работающих только с целыми числами, получить очевидно дробные значения членов ряда. Пусть мы хотим вычислить пи, скажем, с точностью 1000 битов. Вычислим тогда 2**1000пи, умножив все числители на 2**1000. Эта процедура делает также все делимые много больше делителей (как предполагалось выше) и позволяет прекратить вычисления, когда частные станут нулевыми.
Выберем теперь (не обязательно наилучший) ряд для вычислений, скажем
пи = 16arctg(l/5) - 4arctg(l/239).
Мы фактически будем вычислять 2**1000пи, поэтому хотелось бы вычислить 2**1000*16arctg(1/5). Первым членом соответствующего ряда будет 2**1000*16/5; назовем его a[1] (отметим, что a[1] складывается с суммой). Теперь, чтобы получить следующий член a[i+1] из a[i], поделим a[1] на 5*5*(2i-1) [На самом деле a[i+1] = (a[i]/5**2) * ((2i-1)/(2i+1)). Чтобы не выполнять умножение, можно хранить кроме a[i] еще одно число b[1], равное (2**1000*16)/5**(2i-1). Тогда переход к следующему члену осуществляется по формулам: b[i+1] = b[i]/5**2, a[i+1] = b[i+1]/(2i+1).- Прим. перев.]. Если a[i] добавлялся к сумме, то вычтем a[i+1] из суммы, если a[i] вычитался, прибавим a[i+1]. Поделим a[i] на 5*5*(2i-1) [то же]. Если a[i] добавлялся к сумме, то вычисления заканчиваются, когда члены обоих рядов станут нулевыми. В результате получим примерно тысячу битов числа n. Результат, конечно, надо будет перевести в десятичную систему.
ТЕМА. Составьте программы, реализующие описанные выше алгоритмы умножения и деления, и все необходимые им служебные подпрограммы. Используйте их для вычисления пи с высокой точностью при помощи одного из выписанных рядов. Проследите, чтобы ваши программы не оказались слишком тесно привязаны к вычислению пи; библиотека программ для вычислений с высокой точностью может быть полезна и для других задач. Должна быть предусмотрена возможность увеличения точности счета без изменения программ, а лишь путем расширения памяти для результатов. Выходные данные должны включать статистику по использованию каждой программы, по числу выполнений каждого шага двух центральных алгоритмов и по использованию памяти. Сбор такой информации обойдется очень дешево в сравнении со всей работой.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Этот этюд длинный и трудный. Не последнюю роль здесь играет то, что два центральных алгоритма нужно в какой-то степени принимать на веру. Однако, как это часто бывает в реальных задачах, главной проблемой является не кодирование программы, а выбор структур данных. Как представлять длинные числа? Обозначение [m, u] наводит на мысль, что всякое длинное число представляется парой аргументов ДЛИНА и ЗНАЧЕНИЕ. Часть ДЛИНА легко реализуется, но ЗНАЧЕНИЕ имеет, очевидно, переменную длину, и его трудно будет непосредственно хранить в памяти. Поэтому мы сделаем значение указателем на очень длинный вектор битов; тогда каждая пара будет иметь фиксированный размер. Однако имеющийся в нашем распоряжении вектор не настолько длинен, чтобы мы могли позволить себе использовать каждую его часть только по одному разу. Таким образом, нужна программа для СБОРА НЕНУЖНОЙ ПАМЯТИ. Сейчас мы фактически описали традиционную схему РАЗМЕЩЕНИЯ ЦЕПОЧЕК.
Итак, в конечном итоге нам нужны кроме алгоритма умножения и деления следующие вспомогательные подпрограммы:
ВЫДЕЛЕНИЕ ПАМЯТИ. Получая величину ДЛИНА в качестве аргумента, эта подпрограмма возвращает указатель в вектор битов, который может использоваться как ЗНАЧЕНИЕ. Начиная с бита, на который указывает ЗНАЧЕНИЕ, расположено ДЛИНА битов, которые не будут использоваться ни для каких других целей.
ВОЗВРАТ ПАМЯТИ. Исходными данными для этой подпрограммы служит пара ДЛИНА и ЗНАЧЕНИЕ. Связанная с ними память освобождается для повторного использования. Эту подпрограмму необходимо вызывать всякий раз, когда длина какой-либо переменной меняется.
УПЛОТНЕНИЕ ПАМЯТИ. Эта подпрограмма должна просмотреть всю используемую память и попытаться объединить неиспользуемые отрезки вектора битов в более длинные отрезки. Обычно подпрограмма уплотнения вызывается в тех случаях, когда подпрограмма выделения памяти не смогла найти достаточно длинную цепочку последовательных битов. Поскольку такая возможность может не потребоваться при решении коротких задач, эту подпрограмму можно запрограммировать позднее. Существует много способов хранения информации о неиспользуемой памяти.
СДВИГ. Исходными данными для подпрограммы служат длинное число и величина сдвига; результатом должно быть длинное число, сдвинутое вправо или влево на соответствующую величину. Эта операция отвечает умножению или делению на степень двойки.
СЛОЖЕНИЕ. Исходными данными подпрограммы служат два длинных числа, а результатом должна быть их сумма в виде числа на один бит длиннее более длинного из операндов. Такое сложение можно выполнять так же, как вручную, двигаясь справа налево.
ВЫЧИТАНИЕ. Эта подпрограмма аналогична подпрограмме сложения и выдает разность двух длинных чисел.
ПОДАВЛЕНИЕ НУЛЕЙ. Исходными данными этой подпрограммы служит длинное число, а результатом должно быть более короткое длинное число, имеющее то же значение, но без старших нулей. Если окажется, что исходное число равно нулю, то результатом должно быть [1, 0].
КОРОТКОЕ УМНОЖЕНИЕ. Исходными данными служат два длинных числа длиной точно 32 бита; результатом должно быть их 64-разрядное произведение. Эту операцию можно выполнять справа налево, как в ручном методе.
УМНОЖЕНИЕ ДЛИННОГО НА КОРОТКОЕ. Исходными данными служат длинное число и обычое число, по величине равное 64 или меньше; результатом должно быть их произведение в виде длинного числа. Эту операцию можно выполнять справа налево, как вручную.
ДЕЛЕНИЕ ДЛИННОГО НА КОРОТКОЕ. Исходными данными служат длинное число и обычное число, не превосходящее 64, а результатом должно быть длинное частное от деления длинного числа на короткое. Эту операцию можно выполнять слева направо, как это делается вручную.
ПЕРЕВОД. Исходными данными для этой подпрограммы является длинное число, а результатом должно быть то же число, записанное в десятичной системе на некотором устройстве вывода. При появлении потребности в более сложном выводе можно разработать более детальные спецификации подпрограммы перевода.
ИНСТРУМЕНТОВКА. В качестве языка реализации сразу же приходит на ум Паскаль: в этом языке хорошие структуры данных и управляющие структуры. Однако Паскаль не позволяет легко переводить внутреннее битовое представление в битовые цепочки, доступные программисту, и обратно. Языки более низкого уровня - BLISS и XPL - обеспечивают более прямой доступ к ЭВМ за счет некоторой потери выразительности и надежности. Хорошая защищенность языков высокого уровня и доступ к машинному представлению сочетаются в PL/I, но обычно за это приходится расплачиваться временем выполнения. Для данного этюда важно также время, которое вы потеряете, пытаясь постичь некоторые весьма изощренные возможности PL/I. Интересной представляется реализация на Траке, поскольку в этом случае автоматически решается задача распределения памяти для цепочек.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 5 недель или двум на 3 недели.
РАЗВИТИЕ ТЕМЫ. Как только у нас появляется арифметика высокой точности, сразу же возникает много интересных задач. Одна из них - точное вычисление числа е. Ряд для е особенно прост;
e = Сумма(i от 0 до бесконечности) 1/i!,
где 0!=1. Любой студент, изучающий математический анализ, может придумать еще очень много рядов и констант.
* ПАРТИЯ ПЕРЕВОДЧИКА. Можно существенно сократить как время работы программ, так и время их написания, если, не послушавшись автора, создать набор специализированных программ для вычисления пи. Анализируя ряд для пи, мы видим, что его вычисление требует всего двух программ высокой точности. Это программа сложения-вычитания длинных чисел (сложение и вычитание настолько похожи, что их можко рассматривать как одно действие) и программа деления длинного числа на короткое, т.е. на представимое в виде обычного целого числа. Эти действия, выполняемые классическими ручными методами, занимают лишь линейное по n время. Кроме того, имеет смысл хранить длинные числа не в двоичной системе счисления, а в десятичной (конечно, не по одной цифре в элементе массива, а по столько цифр, сколько помещается в обычном целом числе). При этом отпадает необходимость в программе перевода. Теперь арифметические программы могут работать несколько медленнее (но вовсе не обязательно; далеко не все компиляторы используют команды сдвига для умножения и деления на степени двойки), тем не менее в целом можно получить выигрыш в скорости, поскольку время работы алгоритма перевода длинных чисел из двоичной системы в десятичную (описанного у Кнута) пропорционально n**2, т.е. того же порядка, что и время всех остальных вычислений.
С помощью лишь этих программ сложения и деления можно вычислить многие математические константы: пи, e, корень из 2, кубический корень из 2, ln 2 и т.д. Реализация такого усеченного варианта потребует, вероятно, не более одной человеко-недели. Сложные динамические структуры данных уже не потребуются; у нас будет всего два-три длинных числа известного размера, для представления которых вполне подойдут массивы Фортрана.
ЛИТЕРАТУРА
Ахо, Хопкрофт, Ульман (Aho А.V., Hopcroft J.E., Ullman J.D.). The Design and Analysis of Computer Algorithms. Addison-Wesley, Reading, MA, 1974. Section 8.2, pp.279-286. [Имеется перевод: Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. - М.: Мир, 1979, #8.2, с.313-320]
Мы почерпнули алгоритм умножения у Кнута, а алгоритм деления - у Ахо, Хопкрофта и Ульмана; оба алгоритма переработаны для наших целей. Эти книги содержат подробную информацию по основам и детальный анализ алгоритмов, включая оценки сложности. Описываются также альтернативные алгоритмы умножения, основанные на БЫСТРОМ ПРЕОБРАЗОВАНИИ ФУРЬЕ [Эти алгоритмы для очень длинных чисел работают еще быстрее алгоритма Тоома-Кука, затрачивая на умножение n-разрядных чисел время, пропорциональное n log n log log n - Прим. перев.]).
Брент (Brent R.P.). A FORTRAN Multiple-Precision Arithmetic Package, Department of Computer Science, Carnegie-Mellon University, May 1976.
Брент описывает пакет подпрограмм для арифметических действий с высокой точностью, написанных на переносимом, машинно-независимом Фортране. Благодаря включенной в книгу библиографии, вы сможете найти другие работы в этой области. В пакете, предложенном Брентом, не используется алгоритм Тоома-Кука, и автор объясняет почему.
Брент (Brent R.P.). Fast Multiple-precision Evaluation of Elementary Functions, Stanford University, Technical Report STAN-CS-75-515, August 1975.
Томас (Thomas G.В., Jr.). Calculus and Analytic Geometry, 3rd ed. Addison Wesley, Reading, MA, 1960. Section 16.3-3, pp.809-812.
Томас приводит сведения по математическому анализу, необходимые для рассмотренных нами вычислений и подобных им; изложение в его книге простое и классическое. Рейтуиснер, а также Шенкс и Ренч - два примера из ряда работ по вычислению пи. В обеих работах дается некоторый исторический обзор, обе они используют подход, предлагаемый Томасом. Брент развивает совершенно новые методы вычисления функций sin, cos, log, arctg и т.д., основанные на эллиптических интегралах. Его алгоритмы работают значительно быстрее описанных нами рядов. Работа Брента пока существует в виде технического доклада.
Кнут (Knuih D.E.). The Art of Computer Programming/Seminumerical Algorithms, Addison-Wesley, Reading, MA, 1969. Section 4.3.3, pp.258-286. [Имеется перевод: Кнут Д. Искусство программирования для ЭВМ. Т.2. Получисленные алгоритмы.- М.: Мир, 1977, п.4.3.3., стр.314-340) [В #4.4 этой книги приведены алгоритмы перевода чисел в десятичную систему.- Прим. перев.]]
Рейтуиснер (Reitwiesner G.W.). An ENIAC Determination of пи and e to More than 2000 Decimal Places, Mathematical Tables and Aids to Computation, 4, pp.11-15, 1950.
Шенкс, Ренч (Shanks D., Wrench J.W.). Calculation of пи to 100000 Decimals, Mathematics of Computation, 16, pp.76-99, 1962.
* Кудрявцев Л.Д. Математический анализ.- М.: Высшая школа, 1973.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
23 ВЕЛИКИЙ КОМБИНАТОР,
ИЛИ...
ОПТИМАЛЬНЫЕ СТРАТЕГИИ ДЛЯ ИГРЫ С УГАДЫВАНИЕМ
В игре, как и в музыкальном произведении, можно выделить тему и мотивы. Причина успеха самых удачных игр часто состоит в том, что они мастерски соединяют по-новому некоторые из давно известных принципов построения игр. Как и в музыке, старая идея, возрожденная в новом обличье, может выглядеть привлекательней, чем мешанина свежеиспеченных новых веяний. В середине 70-х годов широкую популярность в Англии получила игра ВЕЛИКИЙ КОМБИНАТОР (Mastermind) [В журнале "Наука и жизнь" #2, 1978, с.150-151; #8, 1978, с.142-143, опубликован вариант этой игры под названием "Быки и коровы".- Прим. перев.], и она, похоже, станет классикой. Вы и ваш компьютер получите большое удовольствие, сыграв в нее.
Правила ВЕЛИКОГО КОМБИНАТОРА крайне просты. Один из игроков, ЗАГАДЫВАЮЩИЙ, записывает секретную комбинацию из любых четырех цифр от 1 до 6 (повторения допускаются), называемую КОДОМ. Второй игрок, ОТГАДЫВАЮЩИЙ, пытается раскрыть код, высказывая разумные предположения, называемые ПРОБАМИ. Каждая проба, как и код, представляет собой произвольную комбинацию из четырех цифр в диапазоне от 1 до 6. Отгадывающий игрок сообщает пробу загадывающему, и тот должен ответить, сколько цифр в пробе совпадает с цифрами кода как по положению, так и по величине и сколько из остальных цифр пробы входят в код, но стоят на другом месте. Так, на пробу 1123 при коде 4221 будет получен ответ: "Одна цифра совпадает и стоит на том же месте, и еще одна совпадает, но стоит на другом месте". Тур игры продолжается до тех пор, пока отгадывающий не назовет пробу, в точности совпадающую с кодом, т.е. пока не отгадает код. После этого игроки меняются ролями и проводят еще один тур. Победителем считается тот из игроков, кто определит код противника за меньшее число проб. Хотя здесь не последнюю роль играет везение, тем не менее игрок, систематически делающий правильные умозаключения из получаемой информации, должен иметь лучшие результаты по итогам нескольких партий. Практически вы должны пытаться выводить из ответов на ваши пробы отрицательные следствия относительно того, какие коды невозможны; психологические тесты показывают, что для многих людей это оказывается совсем не просто. В табл.23.1 приведен один полный тур.
Таблица 23.1. Великий комбинатор. Пример партии
Написать программу, имитирующую роль загадывающего, не составляет труда. Отгадывание головоломок, заданных машиной,- тоже развлечение, позволяющее отточить ум. Однако гораздо интереснее, если компьютер сможет выступать также и в роли отгадывающего, чтобы можно было сыграть несколько партий и определить победителя. Боб Кули из Lawrence Livermore Laboratory и Д.Кнут разработали довольно близкие стратегии, позволяющие ЭВМ достигнуть высокого класса игры. Центральное место в обеих стратегиях занимает идея пространства решений. Начальное пространство решений P0 состоит из всех возможных кодов (и имеет, следовательно, 6**4 элементов); после i-й пробы Gi пространство Pi состоит из всех тех членов пространства P[i-1], которые не опровергаются ответом Ri. Иными словами, пространство Pi - это множество всех комбинаций, которые все еще могут быть кодом; задача отгадывающего - свести пространство к одному элементу.
Первая стратегия, предложенная Кули, несколько проще. Пробой Gi пусть будет любая случайно выбранная комбинация с одной повторяющейся цифрой, например 4311, 6552 или 1335. Выполните эту пробу и постройте пространство Pi на основе ответа Ri. Новая проба G[i+i] ищется по пространству Pi, i>=1, путем поочередного сравнения всех комбинаций С из Pi с пробой Gi. В качестве следующей пробы выбирается НАИМЕНЕЕ похожая на Gi комбинация C. Мерой сходства служит число точных совпадений, а в случае равенства - число цифр, совпадающих по значению, но расположенных по-другому. Так, среди трех комбинаций 2641, 2356 и 1345 наиболее похожей на 2345 будет 1345, а 2641 - наименее похожей. Если имеется несколько наименее похожих комбинаций, то можно выбрать любую кандидатуру случайным образом. Тур прекращается, когда будет получен ответ "четыре точных попадания", и, разумеется, в случае пространства из одного элемента в качестве следующей пробы всегда надо брать этот элемент. Как показывают эксперименты, размеры пространства решений сокращаются после каждой пробы примерно в 4 раза и никогда не требуется более шести проб.
Вторая стратегия предложена Дональдом Кнутом. Он утверждает, что она минимизирует наибольшее число проб, необходимых для нахождения кода; никакой код не требует более пяти проб. В основе алгоритма лежит наблюдение, что нам хотелось бы сделать пространство Pi как можно меньше. Следовательно, мы выбираем пробу Gi, минимизирующую |Pi| по всем возможным ответам Ri. Кандидатом в G1 будет любая комбинация C. Попробуйте применить все возможные комбинации C в качестве проб к пространству P[i-1]; пусть Sc, <0, 0> обозначает число членов P[i-1], дающих в ответе нулевое число точных совпадений и нулевое число совпадений только по цвету [Здесь автор имеет в виду вариант той же игры, в котором вместо цифр используются фишки, окрашенные в шесть цветов.- Прим. перев.] Sc, <0, 1> - число членов, дающих соответственно нуль и одно совпадение и т.д. до Sc, <4, 0> для наиболее удачной комбинации с четырьмя точными совпадениями. Введем обозначение
Sc = max(по i и j) Sc, <i, j>.
Теперь в качестве пробы Gi выберите комбинацию С, минимизирующую Sc (при наличии нескольких таких С выберите комбинацию из P[i-1], если это возможно; если же нет - делайте случайный выбор). Вы, вероятно, уже заметили, что этот алгоритм можно использовать для предварительного анализа ВЕЛИКОГО КОМБИНАТОРА, так чтобы в процессе игры не был нужен никакой анализ комбинаций. Проделав такой анализ, Кнут показал, что оптимальной первой пробой при использовании его стратегии будет xxyy, где x!=y. Для проверки своей программы посмотрите, начинает ли она с пробы xxyy.
ТЕМА. Напишите программу, которая будет разыгрывать партии ВЕЛИКОГО КОМБИНАТОРА. Реализуйте стратегию отгадывания, так чтобы машина могла загадывать коды и отгадывать их. Кроме собственно игры ваша программа может накапливать сведения о мастерстве разных игроков. Ваш местный великий комбинатор, возможно, пожелает приехать в Англию на очередной чемпионат. С вашей программой, как и другими игровыми программами, вероятно, будет иметь дело не слишком искушенный пользователь. Поэтому следует позаботиться о том, чтобы ввод данных был простым и естественным, а вывод понятным и красиво оформленным.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Единственная серьезная проблема в этом этюде связана с эффективностью при программировании алгоритма анализа - эффективностью как по памяти, так и по времени. Особенно длинный внутренний цикл требуется для второй стратегии. Заметьте, что комбинации суть не что иное, как числа, записанные по основанию 6 (но вместо цифр от 0 до 5 используются цифры от 1 до 6). Избранный вами язык, вероятно, повлияет на выбор представления, но старайтесь все же построить эффективный внутренний цикл для алгоритма угадывания кода. Инструментовка. Для этой задачи пригоден почти любой процедурный язык с достаточно развитыми структурами данных. Эта программа в значительной мере - упражнение по структурному программированию.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Наиболее очевидное расширение - это изменение множества цифр, из которых составляется код, или количество цифр в коде. Более развитая версия великого комбинатора допускает коды из пяти цифр от 1 до 8. Слишком большое значение любого из двух параметров может привести к непомерному росту времени работы, однако ни один из алгоритмов не зависит сколько-нибудь существенно от чисел 6 и 4. Программа без всякого труда могла бы читать объем словаря (число различных цифр) и длину кода в качестве исходных данных и соответствующим образом изменять свои алгоритмы анализа.
ЛИТЕРАТУРА Алеф0 (Aleph0). Computer Recreations, Software - Practice and Experience, 1, pp.201-204, 1971.
Mastermind. Invicta Plastics, Ltd. Oadby, Leicester, England. Описывается исходная игра. Она сильно похожа на некоторые традиционные игры; вся Англия увлечена этой игрой из-за ее простоты.
Кнут (Knuth D. E.). The Computer as Master Mind. He опубликовано, 1976.
Кнут утверждает, что путем исчерпывающего анализа различных случаев можно показать оптимальность его стратегии в указанном выше смысле. Однако останется ли она оптимальной при изменении объема словаря и длины кода? И какая стратегия будет оптимальной, если мы стремимся свести к минимуму ожидаемое число проб, а не максимальное?
Таненбаум (Tanenbaum A.S.). Computer Recreations: A Heuristic for Playing Jotto, Software - Practice and Experience, 3, pp.397-399. 1973. В обеих статьях из журнала Software - Practice and Experience рассматриваются игры, аналогичные великому комбинатору; описываются реальные программы и предлагаются некоторые стратегии машинной игры. Было бы, наверное, очень интересно организовать турнир между различными эвристиками.
Уэллс (Wells D.). Mastermind. Games and Puzzles, 23, pp.10-11, March/April 1974.
Games and Puzzles - широко известный английский журнал, посвященный играм, головоломкам и всевозможным интеллектуальным развлечениям. По стилю он далек от математического издания: в нем вы скорее найдете исторический, тематический, эстетический и стратегический разбор абсолютно любого приятного времяпрепровождения (ну, почти любого), не требующего ничего, кроме обыкновенного стола. Постоянно публикуются новые и старые игры. А из головоломок вы почерпнете немало глубоких алгоритмических проблем. Короче говоря, это весьма ценное приобретение для любителей убить время.
ИЛИ...
ОПТИМАЛЬНЫЕ СТРАТЕГИИ ДЛЯ ИГРЫ С УГАДЫВАНИЕМ
В игре, как и в музыкальном произведении, можно выделить тему и мотивы. Причина успеха самых удачных игр часто состоит в том, что они мастерски соединяют по-новому некоторые из давно известных принципов построения игр. Как и в музыке, старая идея, возрожденная в новом обличье, может выглядеть привлекательней, чем мешанина свежеиспеченных новых веяний. В середине 70-х годов широкую популярность в Англии получила игра ВЕЛИКИЙ КОМБИНАТОР (Mastermind) [В журнале "Наука и жизнь" #2, 1978, с.150-151; #8, 1978, с.142-143, опубликован вариант этой игры под названием "Быки и коровы".- Прим. перев.], и она, похоже, станет классикой. Вы и ваш компьютер получите большое удовольствие, сыграв в нее.
Правила ВЕЛИКОГО КОМБИНАТОРА крайне просты. Один из игроков, ЗАГАДЫВАЮЩИЙ, записывает секретную комбинацию из любых четырех цифр от 1 до 6 (повторения допускаются), называемую КОДОМ. Второй игрок, ОТГАДЫВАЮЩИЙ, пытается раскрыть код, высказывая разумные предположения, называемые ПРОБАМИ. Каждая проба, как и код, представляет собой произвольную комбинацию из четырех цифр в диапазоне от 1 до 6. Отгадывающий игрок сообщает пробу загадывающему, и тот должен ответить, сколько цифр в пробе совпадает с цифрами кода как по положению, так и по величине и сколько из остальных цифр пробы входят в код, но стоят на другом месте. Так, на пробу 1123 при коде 4221 будет получен ответ: "Одна цифра совпадает и стоит на том же месте, и еще одна совпадает, но стоит на другом месте". Тур игры продолжается до тех пор, пока отгадывающий не назовет пробу, в точности совпадающую с кодом, т.е. пока не отгадает код. После этого игроки меняются ролями и проводят еще один тур. Победителем считается тот из игроков, кто определит код противника за меньшее число проб. Хотя здесь не последнюю роль играет везение, тем не менее игрок, систематически делающий правильные умозаключения из получаемой информации, должен иметь лучшие результаты по итогам нескольких партий. Практически вы должны пытаться выводить из ответов на ваши пробы отрицательные следствия относительно того, какие коды невозможны; психологические тесты показывают, что для многих людей это оказывается совсем не просто. В табл.23.1 приведен один полный тур.
Таблица 23.1. Великий комбинатор. Пример партии
Написать программу, имитирующую роль загадывающего, не составляет труда. Отгадывание головоломок, заданных машиной,- тоже развлечение, позволяющее отточить ум. Однако гораздо интереснее, если компьютер сможет выступать также и в роли отгадывающего, чтобы можно было сыграть несколько партий и определить победителя. Боб Кули из Lawrence Livermore Laboratory и Д.Кнут разработали довольно близкие стратегии, позволяющие ЭВМ достигнуть высокого класса игры. Центральное место в обеих стратегиях занимает идея пространства решений. Начальное пространство решений P0 состоит из всех возможных кодов (и имеет, следовательно, 6**4 элементов); после i-й пробы Gi пространство Pi состоит из всех тех членов пространства P[i-1], которые не опровергаются ответом Ri. Иными словами, пространство Pi - это множество всех комбинаций, которые все еще могут быть кодом; задача отгадывающего - свести пространство к одному элементу.
Первая стратегия, предложенная Кули, несколько проще. Пробой Gi пусть будет любая случайно выбранная комбинация с одной повторяющейся цифрой, например 4311, 6552 или 1335. Выполните эту пробу и постройте пространство Pi на основе ответа Ri. Новая проба G[i+i] ищется по пространству Pi, i>=1, путем поочередного сравнения всех комбинаций С из Pi с пробой Gi. В качестве следующей пробы выбирается НАИМЕНЕЕ похожая на Gi комбинация C. Мерой сходства служит число точных совпадений, а в случае равенства - число цифр, совпадающих по значению, но расположенных по-другому. Так, среди трех комбинаций 2641, 2356 и 1345 наиболее похожей на 2345 будет 1345, а 2641 - наименее похожей. Если имеется несколько наименее похожих комбинаций, то можно выбрать любую кандидатуру случайным образом. Тур прекращается, когда будет получен ответ "четыре точных попадания", и, разумеется, в случае пространства из одного элемента в качестве следующей пробы всегда надо брать этот элемент. Как показывают эксперименты, размеры пространства решений сокращаются после каждой пробы примерно в 4 раза и никогда не требуется более шести проб.
Вторая стратегия предложена Дональдом Кнутом. Он утверждает, что она минимизирует наибольшее число проб, необходимых для нахождения кода; никакой код не требует более пяти проб. В основе алгоритма лежит наблюдение, что нам хотелось бы сделать пространство Pi как можно меньше. Следовательно, мы выбираем пробу Gi, минимизирующую |Pi| по всем возможным ответам Ri. Кандидатом в G1 будет любая комбинация C. Попробуйте применить все возможные комбинации C в качестве проб к пространству P[i-1]; пусть Sc, <0, 0> обозначает число членов P[i-1], дающих в ответе нулевое число точных совпадений и нулевое число совпадений только по цвету [Здесь автор имеет в виду вариант той же игры, в котором вместо цифр используются фишки, окрашенные в шесть цветов.- Прим. перев.] Sc, <0, 1> - число членов, дающих соответственно нуль и одно совпадение и т.д. до Sc, <4, 0> для наиболее удачной комбинации с четырьмя точными совпадениями. Введем обозначение
Sc = max(по i и j) Sc, <i, j>.
Теперь в качестве пробы Gi выберите комбинацию С, минимизирующую Sc (при наличии нескольких таких С выберите комбинацию из P[i-1], если это возможно; если же нет - делайте случайный выбор). Вы, вероятно, уже заметили, что этот алгоритм можно использовать для предварительного анализа ВЕЛИКОГО КОМБИНАТОРА, так чтобы в процессе игры не был нужен никакой анализ комбинаций. Проделав такой анализ, Кнут показал, что оптимальной первой пробой при использовании его стратегии будет xxyy, где x!=y. Для проверки своей программы посмотрите, начинает ли она с пробы xxyy.
ТЕМА. Напишите программу, которая будет разыгрывать партии ВЕЛИКОГО КОМБИНАТОРА. Реализуйте стратегию отгадывания, так чтобы машина могла загадывать коды и отгадывать их. Кроме собственно игры ваша программа может накапливать сведения о мастерстве разных игроков. Ваш местный великий комбинатор, возможно, пожелает приехать в Англию на очередной чемпионат. С вашей программой, как и другими игровыми программами, вероятно, будет иметь дело не слишком искушенный пользователь. Поэтому следует позаботиться о том, чтобы ввод данных был простым и естественным, а вывод понятным и красиво оформленным.
РЕКОМЕНДАЦИИ ИСПОЛНИТЕЛЮ. Единственная серьезная проблема в этом этюде связана с эффективностью при программировании алгоритма анализа - эффективностью как по памяти, так и по времени. Особенно длинный внутренний цикл требуется для второй стратегии. Заметьте, что комбинации суть не что иное, как числа, записанные по основанию 6 (но вместо цифр от 0 до 5 используются цифры от 1 до 6). Избранный вами язык, вероятно, повлияет на выбор представления, но старайтесь все же построить эффективный внутренний цикл для алгоритма угадывания кода. Инструментовка. Для этой задачи пригоден почти любой процедурный язык с достаточно развитыми структурами данных. Эта программа в значительной мере - упражнение по структурному программированию.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
РАЗВИТИЕ ТЕМЫ. Наиболее очевидное расширение - это изменение множества цифр, из которых составляется код, или количество цифр в коде. Более развитая версия великого комбинатора допускает коды из пяти цифр от 1 до 8. Слишком большое значение любого из двух параметров может привести к непомерному росту времени работы, однако ни один из алгоритмов не зависит сколько-нибудь существенно от чисел 6 и 4. Программа без всякого труда могла бы читать объем словаря (число различных цифр) и длину кода в качестве исходных данных и соответствующим образом изменять свои алгоритмы анализа.
ЛИТЕРАТУРА Алеф0 (Aleph0). Computer Recreations, Software - Practice and Experience, 1, pp.201-204, 1971.
Mastermind. Invicta Plastics, Ltd. Oadby, Leicester, England. Описывается исходная игра. Она сильно похожа на некоторые традиционные игры; вся Англия увлечена этой игрой из-за ее простоты.
Кнут (Knuth D. E.). The Computer as Master Mind. He опубликовано, 1976.
Кнут утверждает, что путем исчерпывающего анализа различных случаев можно показать оптимальность его стратегии в указанном выше смысле. Однако останется ли она оптимальной при изменении объема словаря и длины кода? И какая стратегия будет оптимальной, если мы стремимся свести к минимуму ожидаемое число проб, а не максимальное?
Таненбаум (Tanenbaum A.S.). Computer Recreations: A Heuristic for Playing Jotto, Software - Practice and Experience, 3, pp.397-399. 1973. В обеих статьях из журнала Software - Practice and Experience рассматриваются игры, аналогичные великому комбинатору; описываются реальные программы и предлагаются некоторые стратегии машинной игры. Было бы, наверное, очень интересно организовать турнир между различными эвристиками.
Уэллс (Wells D.). Mastermind. Games and Puzzles, 23, pp.10-11, March/April 1974.
Games and Puzzles - широко известный английский журнал, посвященный играм, головоломкам и всевозможным интеллектуальным развлечениям. По стилю он далек от математического издания: в нем вы скорее найдете исторический, тематический, эстетический и стратегический разбор абсолютно любого приятного времяпрепровождения (ну, почти любого), не требующего ничего, кроме обыкновенного стола. Постоянно публикуются новые и старые игры. А из головоломок вы почерпнете немало глубоких алгоритмических проблем. Короче говоря, это весьма ценное приобретение для любителей убить время.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
24 СЕКРЕТ ФИРМЫ,
ИЛИ...
МАТЕМАТИЧЕСКИЙ ПОДХОД К РАСКРЫТИЮ ШИФРОВ
Представьте себе такую ситуацию. Благодаря выдающимся профессиональным познаниям и незаурядным программистским способностям вас выдвинули на должность руководителя большой группы сотрудников, занимающихся разработкой суперновейшего и пока еще секретного Мини-компилятора для ЭВМ УМ-1 (см. гл.27 и 25). Как-то раз, уходя со службы около часу ночи (руководитель должен подавать хороший пример), вы замечаете торчащий в дверях измятый клочок бумаги (содержание которого воспроизведено на рис.24.1). Сначала вы решаете, что это запись содержимого памяти машины, и уже собираетесь выбросить бумажку. Но, присмотревшись повнимательнее, замечаете, что буквы собраны в группы по пять,- очень странно для УМ-1. Что бы это могло быть?
Рисунок 24.1. Таинственная записка, найденная в вычислительном центре. Случайное вкрапление русских слов, например ШИШ или ОЙ, по-видимому, ничего не означает. Но обратите внимание на повторение сочетаний ЗАЮЪИВУ, ЬЬК, других коротких сочетаний, а особенно на повторяющуюся группу букв КНДЙЯГЭ.
(Говорят, в шифровке пропущена одна строка.- G.)
Снова возвращаетесь в свой кабинет, пытаясь решить загадку. Бумага отменная, слегка пахнет мускусом; почерк явно женский и веет от него этаким французским шармом. Теперь, по здравом размышлении, новая сотрудница мисс Хари начинает казаться вам, пожалуй, немножко слишком экзотичной. Ее французский акцент, неизменное черное платье для коктейля, нитка черного жемчуга, подчеркивающая декольте, и этот будоражащий запах мускуса, наполняющий комнату, когда она туда входит... Она говорит, что работала раньше в региональном вычислительном центре Мак-Дональда в Киокаке. Что-то тут не так. Подождите... Неужели мисс Хари шпионит в пользу знаменитой французской фирмы И Бей Эм? А эта записка - шифровка, в которой все секреты вашего новейшего чудо-компилятора? Чтобы уличить мисс Хари, записку нулшо расшифровать. Но как? Может, обратимся за помощью к компьютеру?
ОСНОВЫ ШИФРОВАНИЯ
ЭВМ, безусловно, может оказать помощь, иначе Управление национальной безопасности просто пускает на ветер деньги налогоплательщиков, закупая такое количество техники. Для начала необходимо как следует присмотреться к секретному сообщению. Возможно, что найденная записка была зашифрована при помощи ПРОСТОЙ ПОДСТАНОВКИ, т.е. каждая буква первоначального текста была заменена какой-либо другой буквой согласно некоторому ПРАВИЛУ ШИФРОВАНИЯ. Сообщение, подвергшееся зашифровке, называется исходным текстом, а в результате получается ШИФРОВАННЫЙ ТЕКСТ. Задача состоит в том, чтобы ВОССТАНОВИТЬ исходный текст и правило шифрования (последнее нужно лишь в том случае, если могут появиться другие сообщения, зашифрованные по тому же правилу). Будем предполагать, что исходный текст написан по-русски [В оригинале, разумеется, все рассуждения проводятся для английского текста.- Прим. перев.]). Разбиение шифрованного текста на группы по пять букв скрывает, по-видимому, исходную структуру текста, разбитого на слова, которая была бы весьма ценной подсказкой, облегчающей расшифровку [В криптографии используются некоторые слова, которые люди непосвященные часто употребляют не совсем правильно. ШИФРОВАНИЕ - это способ засекречивания сообщения путем замены или перемешивания букв, КОДИРОВАНИЕ же подразумевает замену целых слов или фраз, а не отдельных букв. Лица, владеющие шифром или кодом, ШИФРУЮТ или КОДИРУЮТ свои сообщения, а получатели сообщений ДЕШИФРУЮТ или ДЕКОДИРУЮТ их. Лица, пытающиеся узнать чужой секрет, РАСШИФРОВЫВАЮТ сообщения; различие между этими глаголами соответствует различию между знанием секрета шифра и попыткой разгадать его. Тот, кто составляет секретные сообщения, занимается КРИПТОГРАФИЕЙ, или ТАЙНОПИСЬЮ, а тот, кто стремится прочитать чужое секретное сообщение, занимается АНАЛИЗОМ КРИПТОГРАММ (cryptanalysis). Применяемые для этого методы составляют предмет науки, которая по-английски называется cryptology].
В простейшем общем классе подстановочных шифров для построения правила шифрования используется некоторый СМЕШАННЫЙ АЛФАВИТ, например перестановка обычного алфавита. На рис.24.2 показан полный исходный алфавит, смешанный алфавит и шифрование короткого сообщения, в котором каждая буква заменяется соответствующей буквой смешанного алфавита. Всякий, кто увлекается головоломками из воскресных газет, знает, что зашифрованные такой подстановкой тексты расшифровываются до смешного просто: сообщения из 30 или 40 букв зачастую оказывается для этого вполне достаточно.
Рисунок 24.2. Простая подстановка по смешанному алфавиту. Обратите внимание, что точка заменена словом ТОЧКА.
Тем не менее слегка усовершенствовав эту систему, можно сделать ее значительно более надежной. На рис.24.3 изображен КВАДРАТ ВИЖЕНЕРА, построенный на основе смешанного алфавита, приведенного на рис.24.2. Сверху и по левому краю квадрата выписан исходный алфавит. В первой строке квадрата представлен смешанный алфавит. Во второй строке тот же алфавит циклически сдвинут на одну позицию, при этом первая буква переместилась в правый конец строки. Квадрат состоит из 32 смешанных алфавитов, полученных из одного смешанного алфавита, каждому из них соответствует та буква исходного алфавита, которая записана слева от него.
Рисунок 24.3. Квадрат Виженера, построенный на основе смешанного алфавита, приведенного на рис.24.2.
На рис.24.4 показано шифрование фразы при помощи КЛЮЧЕВОГО СЛОВА
ЛИСП и данного квадрата. Ключевое слово многократно записывается под исходным текстом, и каждая буква исходного текста шифруется при помощи смешанного алфавита, соответствующего той букве ключевого слова, которая стоит под данной буквой исходного текста. Эта схема шифрования уже не поддается раскрытию при помощи простого подсчета частот букв, поскольку одна и та же буква исходного текста шифруется по-разному в зависимости от выпавшей на нее буквы ключевого слова. Кроме того, выбрав заранее список ключевых слов и порядок их смены, отправитель и получатель могут повысить секретность переписки, поскольку разным сообщениям будут соответствовать разные ключевые слова, благодаря чему затрудняется анализ, основанный на частотах букв. Тем не менее не так уж все это безнадежно.
Рисунок 24.4. Шифрование при помощи квадрата Виженера. Обратите внимание на повторение сочетания РБ на расстоянии 8. Второе повторение этого сочетания на расстоянии 2 - ложное. Статистика языка проявляется даже на коротких примерах.
КАК РАСКРЫТЬ ШИФР
Будем предполагать, что криптограмма мисс Хари получена при помощи квадрата Виженера, хотя бы по той причине, что он - ее соотечественник. Если наше предположение неверно, методы решения позволят обнаружить это. Если бы сообщение было зашифровано при помощи простой подстановки, то расшифровать его можно было бы, подсчитав количество появлений каждой буквы в шифрованном тексте, поделив это количество на длину сообщения и сравнив полученные величины с частотами букв русского алфавита, приведенными на рис.24.5. Для сообщений такой длины, как наше, распределения частот, если выписать их в убывающем порядке, почти полностью совпадут, и, таким образом, для каждой буквы исходного текста откроется ее двойник в шифрованном тексте. Но для квадрата Виженера такой простой метод уже не сработает. Необходимо определить не только смешанный алфавит, но и ключевое слово; поскольку каждый из этих элементов искажен другим, то трудно даже догадаться, с какого конца начать.
Рисунок 24.5. Таблица частот букв русского алфавита. Получена по текстам нескольких препринтов, издававшихся в ИПМ АН СССР им. М.В.Келдыша.
Правильной отправной точкой будет нахождение длины ключевого слова. Обратите внимание, что в примере на рис.24.4 первая, пятая, девятая,... буквы исходного текста зашифрованы при помощи одного и того же смешанного алфавита Л. Если рассматривать лишь каждую четвертую букву шифрованного текста, то получим распределение частот, подобное распределению для букв русского алфавита, поскольку буквы в этих позициях зашифрованы при помощи одного и того же смешанного алфавита, т.е. при помощи простой подстановки. Аналогично если взять каждую четвертую букву шифрованного текста, начиная со второй, третьей или четвертой позиции, то снова получим распределение частот как для букв русского алфавита. Существует способ измерить, насколько данное распределение частот подобно распределению букв алфавита. Рассмотрим ИНДЕКС СОВПАДЕНИЯ
ИС = Сумма(i от 1 до 32) fi*(fi-1)/(N*(N-1)),
где fi - количество появлений i-й буквы, а N - общее число рассматриваемых букв. Если все буквы рассматриваемого подмножества текста зашифрованы при помощи одного алфавита, то этот индекс совпадения должен иметь значение больше 0.045 и, вероятно, меньше 0.065 (теоретическое значение равно 0.055). Исходя из этого, алгоритм определения длины ключевого слова будет таким.
Шаг 1. Для i от 1 до 20 предположить, что длина ключевого слова равна i, и выполнить шаги 2, 3, 4. Мы выбрали верхнюю границу равной 20 лишь для удобства. Разумеется, ключевое слово может быть и длиннее.
Шаг 2. Для j от 1 до i выполнить шаг 3. В этих двух шагах будут вычислены i различных значений ИС.
Шаг 3. Построить распределение числа появления букв в позициях j, i+j, 2i+j, ..., т.е. в каждой i-й позиции, начиная с j-й позиции. По формуле, приведенной выше, вычислить ИСj для полученного распределения. В качестве N в этой формуле нужно использовать число букв в данном подмножестве текста, а не длину всего текста.
Шаг 4. Если все значения ИС1, ИС2, ..., ИСi больше 0.045, то, вероятно, i кратно длине ключевого слова. Если только один из ИС меньше 0.045, то i также может быть кратно длине ключевого слова.
Проверить длину ключевого слова можно и другим способом. Найдите два места в шифрованном тексте, где две одинаковые буквы идут в том же порядке, например ЦМ в позициях 19 и 54 на рис.24.1. Такое повторение могло произойти по двум разным причинам. Возможно, в соответствующих местах исходного текста были различные сочетания букв, которым отвечали разные части ключевого слова, и они случайно отобразились в одинаковые сочетания букв, либо в исходном тексте были повторения, которые попали на одинаковые части ключевого слова, и, таким образом, оказались зашифрованными дважды одним и тем же способом. Во втором случае расстояние между началами повторяющихся сочетаний букв должно быть кратно длине ключевого слова. К сожалению, невозможно определить, по какой из двух причин произошло повторение данного сочетания букв: случайное повторение пар букв в шифрованном тексте довольно частое явление. Но если в шифрованном тексте повторяются сочетания из трех или более букв, то вероятность того, что это повторение произошло случайно, а не в результате повторения ключа, очень мала (для сочетаний из четырех и более букв она практически нулевая). Таким образом, другой способ выявления длины ключевого слова - отыскать в шифрованном тексте все пары повторяющихся групп из трех и более букв и измерить расстояния между ними. Число, которое делит 90% или более из этих расстояний,- прекрасный претендент на роль длины ключевого слова. Данная проверка вместе с вычислением значений ИС однозначно определяет длину ключевого слова.
Предположим, нам удалось выяснить, что длина ключевого слова равна k. Тогда первоначальный шифрованный текст можно разбить на k групп G1, G2, ..., Gk, где каждая группа начинается с позиции i, 1<=i<=k, и содержит каждую k-ю букву текста, начиная с i-й буквы. Каждая из этих k групп была зашифрована при помощи только одного алфавита, т.е. при помощи простой подстановки. Остается в каждой группе для каждой шифрованной буквы определить ее эквивалент в исходном тексте. Но здесь у нас имеется хорошее подспорье. Если был известен алфавит, по которому была зашифрована какая-нибудь из групп, то алфавит, по которому была зашифрована любая другая группа, можно было бы найти путем циклического сдвига уже известного алфавита на некоторое число букв. С другой стороны, определить исходные эквиваленты букв было бы проще, если бы удалось распределения числа появлений букв для различных групп скомбинировать в одно обобщенное распределение, поскольку, чем больше данных было использовано для построения какого-либо распределения, тем достовернее будут сделанные на его основе статистические выводы. Для построения такой комбинации необходимо знать относительные сдвиги между алфавитами, использованными для шифрования различных групп.
Относительные сдвиги находятся при помощи некой модификации индекса совпадения. Построим для каждой группы Gi распределение числа появлений букв и запишем его в АЛФАВИТНОМ порядке шифрованных букв. В табл.24.1 показаны распределения для сообщения, приведенного на рис.24.1, в предположении, что k=7.
Пусть f[i,a] - количество появлений буквы a алфавита i; определим функцию
R[i,j,r] = Сумма(бета от 1 до 32) f[i,бета]*f[i,бета+r].
Считается, что если бета+r больше 32, то происходит циклический возврат к началу алфавита. Чем больше значение R[i,j,r], тем больше вероятность того, что алфавит для группы j в квадрате Виженера находится на r позиций НИЖЕ алфавита для группы i. Вычислим все значения R[i,j,r] (для j <= i их можно не вычислять благодаря свойству симметрии) и выберем i и j, которые дают максимальное значение R[i,j,r]. Вероятно, группа j сдвинута на r позиций относительно группы i.
Таблица 24.1. Распределения для сообщения с рис.24.1 при k=7
Значение R[1,2,0] равно 333, а значение R[3,6,12] равно 335. Значение R[3,6,12] получается перемножением чисел появлений букв от А до У для G3 на числа появлений букв от М до Я для G6 и чисел появлений букв от Ф до Я для G3 на числа появлений букв от А до Л для G6 и сложением всех этих произведений.
Из групп Gi и Gj построим новую супергруппу G[ij], положив величину f[ij,альфа] равной f[i,альфа]+f[j,альфа+r]. Отбросим из рассмотрения группы Gi и Gj, заменив их группой Gij, и повторим описанный в последних двух абзацах процесс. После k-1 повторений станут известны относительные сдвиги для всех k алфавитов. Кроме того, будет найдено обобщенное распределение частот. Для того чтобы найти исходные эквиваленты букв шифрованного текста, переупорядочим последние согласно их частотам. В результате буквы шифрованного текста должны расположиться в том же порядке, что и буквы русского алфавита (см. рис.24.5). Теперь нетрудно восстановить весь квадрат Виженера и расшифровать текст. Ключевое слово можно найти, перебрав 32 набора из k букв, относительные расстояния между которыми соответствуют найденным сдвигам алфавитов. Возможно, что некоторые редко встречающиеся буквы окажутся не на своих местах. Эту ситуацию можно поправить при помощи визуального исследования полученного текста. Следует восстановить и смешанный алфавит, и ключевое слово, поскольку они оба могут иметь некоторую психологическую связь с содержанием сообщения и их выявление поможет дополнительно убедиться в правильности решения. Между прочим, что же написала мисс Хари?
ТЕМА. Напишите программу, которая в качестве входных данных воспринимает шифрованное сообщение и, в предположении, что оно зашифровано по схеме Виженера, печатает расшифрованный текст. Программа должна также печатать квадрат Виженера и ключевое слово, которые она вычисляет в процессе решения задачи. Специальные входные параметры должны управлять выводом промежуточных результатов, таких, как, например, все возможные длины ключевого слова, распределения частот букв для отдельных алфавитов, значения ИС и т.д., которые нужны для контроля. Эти результаты могут быть полезны при отладке, а также в тех, к сожалению, вполне реальных ситуациях, когда предложенное машиной решение оказалось не совсем точным. Четкость оформления выводных данных имеет большое значение: бестолковые распечатки лишь затрудняют работу интуиции специалиста по расшифровке сообщений.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Описанные здесь алгоритмы вполне понятны и легко реализуются, но обладают одним неприятным свойством - они не дают однозначного результата. Длина ключевого слова, например, будет лишь "вероятной", так что необходимо еще сделать обоснованный выбор одной из возможных длин. Аналогично алгоритмическое определение исходных эквивалентов для редко встречающихся букв шифрованного текста следует проверить, убедившись, что при расшифровке получаются правильные русские слова. Увеличивая статистическую информацию, доступную программе, мы получим более надежное основание для алгоритмических решений, но все равно эти решения должен проверить человек. Помимо указанных алгоритмов в вашей программе должны быть реализованы средства, позволяющие подтвердить обоснованность выводов, которые делает программа. Один хороший способ обеспечить такую оценочную функцию - написать программу в рамках какой-либо диалоговой системы, чтобы программа и пользователь смогли совместно обсудить качество каждого решения до того, как оно будет окончательно принято. "Обсуждение" обычно состоит в том, что программа сообщает человеку факты, говорящие в пользу того или иного возможного решения, а человек либо принимает его, либо отвергает, после чего вычисление может быть продолжено.
Несмотря на то что алгоритмы неоднозначны и такая расплывчатость обычно порождает у программиста чувство неуверенности, эту программу легко проверить. Первой частью работы, по-видимому, должна быть программа шифровки, которая воспринимает в качестве исходных данных русский текст и, выбрав некоторым случайным образом смешанный алфавит и ключевое слово, выдает квадрат Виженера и печатает зашифрованный текст в стандартном пятибуквенном формате. Пробелы и пунктуация должны убираться из текста автоматически. Эта программа должна уметь также воспринимать в качестве возможных параметров квадрат Виженера и ключевое слово, чтобы можно было повторно проверять отдельные особенности работы программы расшифровки. Помните о том, что для хорошего статистического поведения алгоритмов необходимо, чтобы сообщение было в 30-40 раз длиннее ключевого слова.
ИНСТРУМЕНТОВКА. Эта задача прямо-таки создана для языка типа Снобол, в котором средства работы с текстовыми данными сочетаются с простыми арифметическими операциями. Хорошим кандидатом может быть и какой-нибудь другой язык, с более широким диапазоном алгебраических вычислений и с достаточными средствами обработки текстовых данных, например PL/I, Паскаль или XPL. Но какой бы язык вы ни выбрали, постарайтесь избежать представления литер целыми числами; требования машинного представления не должны навязывать некрасивое, путаное решение задачи.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
* ПАРТИЯ ПЕРЕВОДЧИКА. При переводе на русский язык зашифрованного примера надо было сначала расшифровать его. Попытка сделать это с помощью описанной процедуры не привела к успеху. После небольшого размышления стало ясно, что наш ключ не подходит потому, что он от другого замка! Действительно, предлагаемый автором способ определения относительных сдвигов столбцов с помощью величин R[i,j,r] исходит из того, что два столбца отличаются, кроме случайных отклонений, циклическим сдвигом на величину, равную разности номеров двух букв ключевого слова. Это свойство будет иметь место, если несколько изменить способ шифрования. В нашем случае вместо R[i,j,r] следует использовать числа p[i,j,r], вычисляемые, как описано ниже.
Пусть число букв алфавита равно n. Будем обозначать i-ю букву алфавита xi или yi в зависимости от того, идет речь об исходном тексте или о зашифрованном. Нам известны средняя частота pi = p(xi) появления i-й буквы в русском языке, число f[k,i] появлений i-й буквы в k-й группе зашифрованного текста, общее число Nk букв в k-й группе. Определим вероятности pk(yj|xi) появления фактического числа букв f[k,j], если буква yj в k-й группе обозначает букву xi исходного текста. Эти вероятности подчиняются биномиальному распределению.
pk(yj|xi) = C(из Nk по f[k,j]) p[Nk]**f[k,j]*(1-pi)**(Nk-f[k,j])
Далее найдем по формуле Байеса вероятности pk(xi|yj) того, что буква yj в k-й группе означает букву xi исходного текста, Априорные вероятности гипотез примем равными 1/n,
pk(xi|yj) = 1/n*pk(yj|xi) / Сумму(m от 1 до N) (1/n*pk(yj|xm)) =
= pk(yj|xi) / Сумму(m от 1 до N) pk(yj|xm)
Рассмотрим теперь пару групп (столбцов табл.24.1) k и l. Будем говорить, что между ними имеется сдвиг r, если каждой букве yj зашифрованного текста в l-й группе соответствует буква исходного текста на r большая (по модулю n), чем в k-й группе. Это означает, что в ключевом слове l-я буква на r меньше k-й. Для оценки вероятностей p[k,l,r] того, что между k-й и l-й группами имеется сдвиг r, вычислим величины
p'[k,l,r] = Произведение(j от 1 до n) Сумм(i от 1 до n) pk(xi|yj)*pl(x[i(+)r|yj).
Символы (+), (-) означают сложение и вычитание по модулю n. Величина р'[k,l,r] есть вероятность фактического распределения числа появлений букв при условии, что имеет место сдвиг r. Здесь не учитывается, что разные yj соответствуют разным xi. Значения p[k,l,r] получаются по формуле Байеса
p[k,l,r] = p'[k,l,r] / Сумму
(s от 0 до n-1) p'[k,l,s].
Фактический сдвиг r(k,l) между k-й и l-й группами должен иметь довольно большую вероятность p[k,l,r]. Но насколько большую? В следующей таблице приведены данные о расшифровке оригинала примера.
В клетке с координатами k, l указано, какое место в порядке убывания p[k,l,r] для фиксированных k и l занимает фактический сдвиг r(k,l). Видно, что за двумя исключениями номер места не превышает шести. Таким образом, величины сдвигов r(k,l) следует искать среди тех, которые дают 6-7 наибольших значений p[k,l,r] для данных k и l. Для выбора из них фактических величин сдвига следует воспользоваться согласованностью сдвигов r(k,l)(+)r(l,n)=r(k,m). Складывая всех кандидатов для r(1,2) с r(2,3) и проверяя, находится ли результат среди кандидатов для r(1,3), можно отбросить большую часть вариантов. Затем следует аналогично определить r(1,4), учитывая r(2,4) и r(3,4), и т.д. Этот перебор легко провести вручную, если число кандидатов для каждого r(k,l) не более 8. Поскольку возможны исключительные случаи (r(3,5) и r(4,5) в приведенной выше таблице), то в результате этого процесса сдвиг для какой-либо группы может оказаться определенным неправильно либо процесс может вообще не сойтись (будут отброшены все варианты). В таком случае следует заново определить величину сдвига для наихудшей группы (определяемой, например, по наибольшему среднему месту для сдвигов относительно этой группы), учитывая большее число кандидатов.
После определения сдвигов следует найти ключевое слово, как описано в основном тексте, рассматривая все слова вида xa, x[a(-)r(1,2)], x[a(-)r(1,3)], ... (a = 1, ..., n). Возможно, для получения осмысленного слова придется изменить одну из букв. Определив ключевое слово, находим окончательные величины сдвигов.
Теперь для определения перестановки вычислим вероятности p(xi|y1) того, что буква yj в зашифрованном тексте соответствует букве xi в первой группе, x[i(+)r(1,2)] - во второй и т.д.:
p'(xi|yj) = Произведение(k от 1 до d) pk(yj|x[i(+)r(1,k)),
(r(1,1) полагаем равным нулю, d - число групп)
p(xi|yj) = p'(xi|yj) / Сумму(m от 1 до n) p'(xm|yj).
Фактические значения xi должны давать большие значения p(xi|yj). Числа р(xi|yj) дают для определения перестановки существенно более четкую информацию, чем числа p(k,l,r) для определения сдвигов. Оказывается, что при длине текста около 700 букв для большинства букв yj зашифрованного текста соответствующие им xi дают максимальное значение p(xi|yj). Перестановка легко уточняется, если начать расшифровку, учитывая осмысленность получаемого текста.
При реализации этого алгоритма на ЭВМ следует иметь в виду, что числа p'(k,l,r) могут оказаться весьма малыми. Так, при расшифровке оригинала примера они лежали в диапазоне от 1e~51 до 1e~36. Если на вашей ЭВМ такие числа непредставимы, то вычислите логарифмы log p'(k,l,r). Числа p(k,l,r) и p(xi|yj) можно не вычислять, воспользовавшись вместо них p'(k,l,r) и p'(xi|yj), отличающимися постоянным множителем. Этот способ позволил расшифровать английский оригинал примера. Удастся ли вам проделать то же с русским текстом?
ЛИТЕРАТУРА
Гэн (Gaines H.F.). Cryptanalysis. Dover, New York, NY, 1956.
Элементарная книга, которая обычно прежде всех других попадает в руки любителям тайнописи. Здесь указано недорогое издание в бумажном переплете, содержащее подробные методы раскрытия для довольно сложных шифров. Оригинал книги вышел в свет достаточно давно, поэтому в ней вы не найдете обсуждения математических методов, имеющихся в книге Синкова, но классические методы описаны хорошо. Приводится несколько полезных таблиц.
Гарднер (Gardner М.). Mathematical Games. Scientific American, August, 1977, pp.120-124.
Гарднер сообщает о новом, практически нераскрываемом шифре. Метод шифрования основан на свойствах очень больших простых чисел, а для зашифровки необходима ЭВМ. Если вы реализуете задачу гл.22, то будете иметь средство для создания идеально секретного метода коммуникации.
Кан (Kahn D.). The Code Breakers. Macmillan, New York, NY, 1967.
Кан написал очень ясную книгу по криптографии. Хотя после 1967г. стали известны некоторые новые интересные материалы о второй мировой войне, тем не менее книга содержит все, что может быть интересно любителю, об истории и методах тайнописи. В книге прекрасная библиография.
Синков (Sinkov A.). Elementary Cryptanalysis - A Mathematical Approach. RanRandom House, New York, NY, 1968.
Очень простая книга по анализу криптограмм. Содержит некоторые математические обоснования. По-видимому, Управлению национальной безопасности известны и более прогрессивные методы тайнописи, но оно, естественно, об этом не распространяется. Рассуждения, приведенные в этой главе, взяты из материалов Синкова.
ИЛИ...
МАТЕМАТИЧЕСКИЙ ПОДХОД К РАСКРЫТИЮ ШИФРОВ
Представьте себе такую ситуацию. Благодаря выдающимся профессиональным познаниям и незаурядным программистским способностям вас выдвинули на должность руководителя большой группы сотрудников, занимающихся разработкой суперновейшего и пока еще секретного Мини-компилятора для ЭВМ УМ-1 (см. гл.27 и 25). Как-то раз, уходя со службы около часу ночи (руководитель должен подавать хороший пример), вы замечаете торчащий в дверях измятый клочок бумаги (содержание которого воспроизведено на рис.24.1). Сначала вы решаете, что это запись содержимого памяти машины, и уже собираетесь выбросить бумажку. Но, присмотревшись повнимательнее, замечаете, что буквы собраны в группы по пять,- очень странно для УМ-1. Что бы это могло быть?
Рисунок 24.1. Таинственная записка, найденная в вычислительном центре. Случайное вкрапление русских слов, например ШИШ или ОЙ, по-видимому, ничего не означает. Но обратите внимание на повторение сочетаний ЗАЮЪИВУ, ЬЬК, других коротких сочетаний, а особенно на повторяющуюся группу букв КНДЙЯГЭ.
(Говорят, в шифровке пропущена одна строка.- G.)
Снова возвращаетесь в свой кабинет, пытаясь решить загадку. Бумага отменная, слегка пахнет мускусом; почерк явно женский и веет от него этаким французским шармом. Теперь, по здравом размышлении, новая сотрудница мисс Хари начинает казаться вам, пожалуй, немножко слишком экзотичной. Ее французский акцент, неизменное черное платье для коктейля, нитка черного жемчуга, подчеркивающая декольте, и этот будоражащий запах мускуса, наполняющий комнату, когда она туда входит... Она говорит, что работала раньше в региональном вычислительном центре Мак-Дональда в Киокаке. Что-то тут не так. Подождите... Неужели мисс Хари шпионит в пользу знаменитой французской фирмы И Бей Эм? А эта записка - шифровка, в которой все секреты вашего новейшего чудо-компилятора? Чтобы уличить мисс Хари, записку нулшо расшифровать. Но как? Может, обратимся за помощью к компьютеру?
ОСНОВЫ ШИФРОВАНИЯ
ЭВМ, безусловно, может оказать помощь, иначе Управление национальной безопасности просто пускает на ветер деньги налогоплательщиков, закупая такое количество техники. Для начала необходимо как следует присмотреться к секретному сообщению. Возможно, что найденная записка была зашифрована при помощи ПРОСТОЙ ПОДСТАНОВКИ, т.е. каждая буква первоначального текста была заменена какой-либо другой буквой согласно некоторому ПРАВИЛУ ШИФРОВАНИЯ. Сообщение, подвергшееся зашифровке, называется исходным текстом, а в результате получается ШИФРОВАННЫЙ ТЕКСТ. Задача состоит в том, чтобы ВОССТАНОВИТЬ исходный текст и правило шифрования (последнее нужно лишь в том случае, если могут появиться другие сообщения, зашифрованные по тому же правилу). Будем предполагать, что исходный текст написан по-русски [В оригинале, разумеется, все рассуждения проводятся для английского текста.- Прим. перев.]). Разбиение шифрованного текста на группы по пять букв скрывает, по-видимому, исходную структуру текста, разбитого на слова, которая была бы весьма ценной подсказкой, облегчающей расшифровку [В криптографии используются некоторые слова, которые люди непосвященные часто употребляют не совсем правильно. ШИФРОВАНИЕ - это способ засекречивания сообщения путем замены или перемешивания букв, КОДИРОВАНИЕ же подразумевает замену целых слов или фраз, а не отдельных букв. Лица, владеющие шифром или кодом, ШИФРУЮТ или КОДИРУЮТ свои сообщения, а получатели сообщений ДЕШИФРУЮТ или ДЕКОДИРУЮТ их. Лица, пытающиеся узнать чужой секрет, РАСШИФРОВЫВАЮТ сообщения; различие между этими глаголами соответствует различию между знанием секрета шифра и попыткой разгадать его. Тот, кто составляет секретные сообщения, занимается КРИПТОГРАФИЕЙ, или ТАЙНОПИСЬЮ, а тот, кто стремится прочитать чужое секретное сообщение, занимается АНАЛИЗОМ КРИПТОГРАММ (cryptanalysis). Применяемые для этого методы составляют предмет науки, которая по-английски называется cryptology].
В простейшем общем классе подстановочных шифров для построения правила шифрования используется некоторый СМЕШАННЫЙ АЛФАВИТ, например перестановка обычного алфавита. На рис.24.2 показан полный исходный алфавит, смешанный алфавит и шифрование короткого сообщения, в котором каждая буква заменяется соответствующей буквой смешанного алфавита. Всякий, кто увлекается головоломками из воскресных газет, знает, что зашифрованные такой подстановкой тексты расшифровываются до смешного просто: сообщения из 30 или 40 букв зачастую оказывается для этого вполне достаточно.
Рисунок 24.2. Простая подстановка по смешанному алфавиту. Обратите внимание, что точка заменена словом ТОЧКА.
Тем не менее слегка усовершенствовав эту систему, можно сделать ее значительно более надежной. На рис.24.3 изображен КВАДРАТ ВИЖЕНЕРА, построенный на основе смешанного алфавита, приведенного на рис.24.2. Сверху и по левому краю квадрата выписан исходный алфавит. В первой строке квадрата представлен смешанный алфавит. Во второй строке тот же алфавит циклически сдвинут на одну позицию, при этом первая буква переместилась в правый конец строки. Квадрат состоит из 32 смешанных алфавитов, полученных из одного смешанного алфавита, каждому из них соответствует та буква исходного алфавита, которая записана слева от него.
Рисунок 24.3. Квадрат Виженера, построенный на основе смешанного алфавита, приведенного на рис.24.2.
На рис.24.4 показано шифрование фразы при помощи КЛЮЧЕВОГО СЛОВА
ЛИСП и данного квадрата. Ключевое слово многократно записывается под исходным текстом, и каждая буква исходного текста шифруется при помощи смешанного алфавита, соответствующего той букве ключевого слова, которая стоит под данной буквой исходного текста. Эта схема шифрования уже не поддается раскрытию при помощи простого подсчета частот букв, поскольку одна и та же буква исходного текста шифруется по-разному в зависимости от выпавшей на нее буквы ключевого слова. Кроме того, выбрав заранее список ключевых слов и порядок их смены, отправитель и получатель могут повысить секретность переписки, поскольку разным сообщениям будут соответствовать разные ключевые слова, благодаря чему затрудняется анализ, основанный на частотах букв. Тем не менее не так уж все это безнадежно.
Рисунок 24.4. Шифрование при помощи квадрата Виженера. Обратите внимание на повторение сочетания РБ на расстоянии 8. Второе повторение этого сочетания на расстоянии 2 - ложное. Статистика языка проявляется даже на коротких примерах.
КАК РАСКРЫТЬ ШИФР
Будем предполагать, что криптограмма мисс Хари получена при помощи квадрата Виженера, хотя бы по той причине, что он - ее соотечественник. Если наше предположение неверно, методы решения позволят обнаружить это. Если бы сообщение было зашифровано при помощи простой подстановки, то расшифровать его можно было бы, подсчитав количество появлений каждой буквы в шифрованном тексте, поделив это количество на длину сообщения и сравнив полученные величины с частотами букв русского алфавита, приведенными на рис.24.5. Для сообщений такой длины, как наше, распределения частот, если выписать их в убывающем порядке, почти полностью совпадут, и, таким образом, для каждой буквы исходного текста откроется ее двойник в шифрованном тексте. Но для квадрата Виженера такой простой метод уже не сработает. Необходимо определить не только смешанный алфавит, но и ключевое слово; поскольку каждый из этих элементов искажен другим, то трудно даже догадаться, с какого конца начать.
Рисунок 24.5. Таблица частот букв русского алфавита. Получена по текстам нескольких препринтов, издававшихся в ИПМ АН СССР им. М.В.Келдыша.
Правильной отправной точкой будет нахождение длины ключевого слова. Обратите внимание, что в примере на рис.24.4 первая, пятая, девятая,... буквы исходного текста зашифрованы при помощи одного и того же смешанного алфавита Л. Если рассматривать лишь каждую четвертую букву шифрованного текста, то получим распределение частот, подобное распределению для букв русского алфавита, поскольку буквы в этих позициях зашифрованы при помощи одного и того же смешанного алфавита, т.е. при помощи простой подстановки. Аналогично если взять каждую четвертую букву шифрованного текста, начиная со второй, третьей или четвертой позиции, то снова получим распределение частот как для букв русского алфавита. Существует способ измерить, насколько данное распределение частот подобно распределению букв алфавита. Рассмотрим ИНДЕКС СОВПАДЕНИЯ
ИС = Сумма(i от 1 до 32) fi*(fi-1)/(N*(N-1)),
где fi - количество появлений i-й буквы, а N - общее число рассматриваемых букв. Если все буквы рассматриваемого подмножества текста зашифрованы при помощи одного алфавита, то этот индекс совпадения должен иметь значение больше 0.045 и, вероятно, меньше 0.065 (теоретическое значение равно 0.055). Исходя из этого, алгоритм определения длины ключевого слова будет таким.
Шаг 1. Для i от 1 до 20 предположить, что длина ключевого слова равна i, и выполнить шаги 2, 3, 4. Мы выбрали верхнюю границу равной 20 лишь для удобства. Разумеется, ключевое слово может быть и длиннее.
Шаг 2. Для j от 1 до i выполнить шаг 3. В этих двух шагах будут вычислены i различных значений ИС.
Шаг 3. Построить распределение числа появления букв в позициях j, i+j, 2i+j, ..., т.е. в каждой i-й позиции, начиная с j-й позиции. По формуле, приведенной выше, вычислить ИСj для полученного распределения. В качестве N в этой формуле нужно использовать число букв в данном подмножестве текста, а не длину всего текста.
Шаг 4. Если все значения ИС1, ИС2, ..., ИСi больше 0.045, то, вероятно, i кратно длине ключевого слова. Если только один из ИС меньше 0.045, то i также может быть кратно длине ключевого слова.
Проверить длину ключевого слова можно и другим способом. Найдите два места в шифрованном тексте, где две одинаковые буквы идут в том же порядке, например ЦМ в позициях 19 и 54 на рис.24.1. Такое повторение могло произойти по двум разным причинам. Возможно, в соответствующих местах исходного текста были различные сочетания букв, которым отвечали разные части ключевого слова, и они случайно отобразились в одинаковые сочетания букв, либо в исходном тексте были повторения, которые попали на одинаковые части ключевого слова, и, таким образом, оказались зашифрованными дважды одним и тем же способом. Во втором случае расстояние между началами повторяющихся сочетаний букв должно быть кратно длине ключевого слова. К сожалению, невозможно определить, по какой из двух причин произошло повторение данного сочетания букв: случайное повторение пар букв в шифрованном тексте довольно частое явление. Но если в шифрованном тексте повторяются сочетания из трех или более букв, то вероятность того, что это повторение произошло случайно, а не в результате повторения ключа, очень мала (для сочетаний из четырех и более букв она практически нулевая). Таким образом, другой способ выявления длины ключевого слова - отыскать в шифрованном тексте все пары повторяющихся групп из трех и более букв и измерить расстояния между ними. Число, которое делит 90% или более из этих расстояний,- прекрасный претендент на роль длины ключевого слова. Данная проверка вместе с вычислением значений ИС однозначно определяет длину ключевого слова.
Предположим, нам удалось выяснить, что длина ключевого слова равна k. Тогда первоначальный шифрованный текст можно разбить на k групп G1, G2, ..., Gk, где каждая группа начинается с позиции i, 1<=i<=k, и содержит каждую k-ю букву текста, начиная с i-й буквы. Каждая из этих k групп была зашифрована при помощи только одного алфавита, т.е. при помощи простой подстановки. Остается в каждой группе для каждой шифрованной буквы определить ее эквивалент в исходном тексте. Но здесь у нас имеется хорошее подспорье. Если был известен алфавит, по которому была зашифрована какая-нибудь из групп, то алфавит, по которому была зашифрована любая другая группа, можно было бы найти путем циклического сдвига уже известного алфавита на некоторое число букв. С другой стороны, определить исходные эквиваленты букв было бы проще, если бы удалось распределения числа появлений букв для различных групп скомбинировать в одно обобщенное распределение, поскольку, чем больше данных было использовано для построения какого-либо распределения, тем достовернее будут сделанные на его основе статистические выводы. Для построения такой комбинации необходимо знать относительные сдвиги между алфавитами, использованными для шифрования различных групп.
Относительные сдвиги находятся при помощи некой модификации индекса совпадения. Построим для каждой группы Gi распределение числа появлений букв и запишем его в АЛФАВИТНОМ порядке шифрованных букв. В табл.24.1 показаны распределения для сообщения, приведенного на рис.24.1, в предположении, что k=7.
Пусть f[i,a] - количество появлений буквы a алфавита i; определим функцию
R[i,j,r] = Сумма(бета от 1 до 32) f[i,бета]*f[i,бета+r].
Считается, что если бета+r больше 32, то происходит циклический возврат к началу алфавита. Чем больше значение R[i,j,r], тем больше вероятность того, что алфавит для группы j в квадрате Виженера находится на r позиций НИЖЕ алфавита для группы i. Вычислим все значения R[i,j,r] (для j <= i их можно не вычислять благодаря свойству симметрии) и выберем i и j, которые дают максимальное значение R[i,j,r]. Вероятно, группа j сдвинута на r позиций относительно группы i.
Таблица 24.1. Распределения для сообщения с рис.24.1 при k=7
Значение R[1,2,0] равно 333, а значение R[3,6,12] равно 335. Значение R[3,6,12] получается перемножением чисел появлений букв от А до У для G3 на числа появлений букв от М до Я для G6 и чисел появлений букв от Ф до Я для G3 на числа появлений букв от А до Л для G6 и сложением всех этих произведений.
Из групп Gi и Gj построим новую супергруппу G[ij], положив величину f[ij,альфа] равной f[i,альфа]+f[j,альфа+r]. Отбросим из рассмотрения группы Gi и Gj, заменив их группой Gij, и повторим описанный в последних двух абзацах процесс. После k-1 повторений станут известны относительные сдвиги для всех k алфавитов. Кроме того, будет найдено обобщенное распределение частот. Для того чтобы найти исходные эквиваленты букв шифрованного текста, переупорядочим последние согласно их частотам. В результате буквы шифрованного текста должны расположиться в том же порядке, что и буквы русского алфавита (см. рис.24.5). Теперь нетрудно восстановить весь квадрат Виженера и расшифровать текст. Ключевое слово можно найти, перебрав 32 набора из k букв, относительные расстояния между которыми соответствуют найденным сдвигам алфавитов. Возможно, что некоторые редко встречающиеся буквы окажутся не на своих местах. Эту ситуацию можно поправить при помощи визуального исследования полученного текста. Следует восстановить и смешанный алфавит, и ключевое слово, поскольку они оба могут иметь некоторую психологическую связь с содержанием сообщения и их выявление поможет дополнительно убедиться в правильности решения. Между прочим, что же написала мисс Хари?
ТЕМА. Напишите программу, которая в качестве входных данных воспринимает шифрованное сообщение и, в предположении, что оно зашифровано по схеме Виженера, печатает расшифрованный текст. Программа должна также печатать квадрат Виженера и ключевое слово, которые она вычисляет в процессе решения задачи. Специальные входные параметры должны управлять выводом промежуточных результатов, таких, как, например, все возможные длины ключевого слова, распределения частот букв для отдельных алфавитов, значения ИС и т.д., которые нужны для контроля. Эти результаты могут быть полезны при отладке, а также в тех, к сожалению, вполне реальных ситуациях, когда предложенное машиной решение оказалось не совсем точным. Четкость оформления выводных данных имеет большое значение: бестолковые распечатки лишь затрудняют работу интуиции специалиста по расшифровке сообщений.
УКАЗАНИЯ ИСПОЛНИТЕЛЮ. Описанные здесь алгоритмы вполне понятны и легко реализуются, но обладают одним неприятным свойством - они не дают однозначного результата. Длина ключевого слова, например, будет лишь "вероятной", так что необходимо еще сделать обоснованный выбор одной из возможных длин. Аналогично алгоритмическое определение исходных эквивалентов для редко встречающихся букв шифрованного текста следует проверить, убедившись, что при расшифровке получаются правильные русские слова. Увеличивая статистическую информацию, доступную программе, мы получим более надежное основание для алгоритмических решений, но все равно эти решения должен проверить человек. Помимо указанных алгоритмов в вашей программе должны быть реализованы средства, позволяющие подтвердить обоснованность выводов, которые делает программа. Один хороший способ обеспечить такую оценочную функцию - написать программу в рамках какой-либо диалоговой системы, чтобы программа и пользователь смогли совместно обсудить качество каждого решения до того, как оно будет окончательно принято. "Обсуждение" обычно состоит в том, что программа сообщает человеку факты, говорящие в пользу того или иного возможного решения, а человек либо принимает его, либо отвергает, после чего вычисление может быть продолжено.
Несмотря на то что алгоритмы неоднозначны и такая расплывчатость обычно порождает у программиста чувство неуверенности, эту программу легко проверить. Первой частью работы, по-видимому, должна быть программа шифровки, которая воспринимает в качестве исходных данных русский текст и, выбрав некоторым случайным образом смешанный алфавит и ключевое слово, выдает квадрат Виженера и печатает зашифрованный текст в стандартном пятибуквенном формате. Пробелы и пунктуация должны убираться из текста автоматически. Эта программа должна уметь также воспринимать в качестве возможных параметров квадрат Виженера и ключевое слово, чтобы можно было повторно проверять отдельные особенности работы программы расшифровки. Помните о том, что для хорошего статистического поведения алгоритмов необходимо, чтобы сообщение было в 30-40 раз длиннее ключевого слова.
ИНСТРУМЕНТОВКА. Эта задача прямо-таки создана для языка типа Снобол, в котором средства работы с текстовыми данными сочетаются с простыми арифметическими операциями. Хорошим кандидатом может быть и какой-нибудь другой язык, с более широким диапазоном алгебраических вычислений и с достаточными средствами обработки текстовых данных, например PL/I, Паскаль или XPL. Но какой бы язык вы ни выбрали, постарайтесь избежать представления литер целыми числами; требования машинного представления не должны навязывать некрасивое, путаное решение задачи.
ДЛИТЕЛЬНОСТЬ ИСПОЛНЕНИЯ. Одному исполнителю на 2 недели.
* ПАРТИЯ ПЕРЕВОДЧИКА. При переводе на русский язык зашифрованного примера надо было сначала расшифровать его. Попытка сделать это с помощью описанной процедуры не привела к успеху. После небольшого размышления стало ясно, что наш ключ не подходит потому, что он от другого замка! Действительно, предлагаемый автором способ определения относительных сдвигов столбцов с помощью величин R[i,j,r] исходит из того, что два столбца отличаются, кроме случайных отклонений, циклическим сдвигом на величину, равную разности номеров двух букв ключевого слова. Это свойство будет иметь место, если несколько изменить способ шифрования. В нашем случае вместо R[i,j,r] следует использовать числа p[i,j,r], вычисляемые, как описано ниже.
Пусть число букв алфавита равно n. Будем обозначать i-ю букву алфавита xi или yi в зависимости от того, идет речь об исходном тексте или о зашифрованном. Нам известны средняя частота pi = p(xi) появления i-й буквы в русском языке, число f[k,i] появлений i-й буквы в k-й группе зашифрованного текста, общее число Nk букв в k-й группе. Определим вероятности pk(yj|xi) появления фактического числа букв f[k,j], если буква yj в k-й группе обозначает букву xi исходного текста. Эти вероятности подчиняются биномиальному распределению.
pk(yj|xi) = C(из Nk по f[k,j]) p[Nk]**f[k,j]*(1-pi)**(Nk-f[k,j])
Далее найдем по формуле Байеса вероятности pk(xi|yj) того, что буква yj в k-й группе означает букву xi исходного текста, Априорные вероятности гипотез примем равными 1/n,
pk(xi|yj) = 1/n*pk(yj|xi) / Сумму(m от 1 до N) (1/n*pk(yj|xm)) =
= pk(yj|xi) / Сумму(m от 1 до N) pk(yj|xm)
Рассмотрим теперь пару групп (столбцов табл.24.1) k и l. Будем говорить, что между ними имеется сдвиг r, если каждой букве yj зашифрованного текста в l-й группе соответствует буква исходного текста на r большая (по модулю n), чем в k-й группе. Это означает, что в ключевом слове l-я буква на r меньше k-й. Для оценки вероятностей p[k,l,r] того, что между k-й и l-й группами имеется сдвиг r, вычислим величины
p'[k,l,r] = Произведение(j от 1 до n) Сумм(i от 1 до n) pk(xi|yj)*pl(x[i(+)r|yj).
Символы (+), (-) означают сложение и вычитание по модулю n. Величина р'[k,l,r] есть вероятность фактического распределения числа появлений букв при условии, что имеет место сдвиг r. Здесь не учитывается, что разные yj соответствуют разным xi. Значения p[k,l,r] получаются по формуле Байеса
p[k,l,r] = p'[k,l,r] / Сумму
(s от 0 до n-1) p'[k,l,s].
Фактический сдвиг r(k,l) между k-й и l-й группами должен иметь довольно большую вероятность p[k,l,r]. Но насколько большую? В следующей таблице приведены данные о расшифровке оригинала примера.
В клетке с координатами k, l указано, какое место в порядке убывания p[k,l,r] для фиксированных k и l занимает фактический сдвиг r(k,l). Видно, что за двумя исключениями номер места не превышает шести. Таким образом, величины сдвигов r(k,l) следует искать среди тех, которые дают 6-7 наибольших значений p[k,l,r] для данных k и l. Для выбора из них фактических величин сдвига следует воспользоваться согласованностью сдвигов r(k,l)(+)r(l,n)=r(k,m). Складывая всех кандидатов для r(1,2) с r(2,3) и проверяя, находится ли результат среди кандидатов для r(1,3), можно отбросить большую часть вариантов. Затем следует аналогично определить r(1,4), учитывая r(2,4) и r(3,4), и т.д. Этот перебор легко провести вручную, если число кандидатов для каждого r(k,l) не более 8. Поскольку возможны исключительные случаи (r(3,5) и r(4,5) в приведенной выше таблице), то в результате этого процесса сдвиг для какой-либо группы может оказаться определенным неправильно либо процесс может вообще не сойтись (будут отброшены все варианты). В таком случае следует заново определить величину сдвига для наихудшей группы (определяемой, например, по наибольшему среднему месту для сдвигов относительно этой группы), учитывая большее число кандидатов.
После определения сдвигов следует найти ключевое слово, как описано в основном тексте, рассматривая все слова вида xa, x[a(-)r(1,2)], x[a(-)r(1,3)], ... (a = 1, ..., n). Возможно, для получения осмысленного слова придется изменить одну из букв. Определив ключевое слово, находим окончательные величины сдвигов.
Теперь для определения перестановки вычислим вероятности p(xi|y1) того, что буква yj в зашифрованном тексте соответствует букве xi в первой группе, x[i(+)r(1,2)] - во второй и т.д.:
p'(xi|yj) = Произведение(k от 1 до d) pk(yj|x[i(+)r(1,k)),
(r(1,1) полагаем равным нулю, d - число групп)
p(xi|yj) = p'(xi|yj) / Сумму(m от 1 до n) p'(xm|yj).
Фактические значения xi должны давать большие значения p(xi|yj). Числа р(xi|yj) дают для определения перестановки существенно более четкую информацию, чем числа p(k,l,r) для определения сдвигов. Оказывается, что при длине текста около 700 букв для большинства букв yj зашифрованного текста соответствующие им xi дают максимальное значение p(xi|yj). Перестановка легко уточняется, если начать расшифровку, учитывая осмысленность получаемого текста.
При реализации этого алгоритма на ЭВМ следует иметь в виду, что числа p'(k,l,r) могут оказаться весьма малыми. Так, при расшифровке оригинала примера они лежали в диапазоне от 1e~51 до 1e~36. Если на вашей ЭВМ такие числа непредставимы, то вычислите логарифмы log p'(k,l,r). Числа p(k,l,r) и p(xi|yj) можно не вычислять, воспользовавшись вместо них p'(k,l,r) и p'(xi|yj), отличающимися постоянным множителем. Этот способ позволил расшифровать английский оригинал примера. Удастся ли вам проделать то же с русским текстом?
ЛИТЕРАТУРА
Гэн (Gaines H.F.). Cryptanalysis. Dover, New York, NY, 1956.
Элементарная книга, которая обычно прежде всех других попадает в руки любителям тайнописи. Здесь указано недорогое издание в бумажном переплете, содержащее подробные методы раскрытия для довольно сложных шифров. Оригинал книги вышел в свет достаточно давно, поэтому в ней вы не найдете обсуждения математических методов, имеющихся в книге Синкова, но классические методы описаны хорошо. Приводится несколько полезных таблиц.
Гарднер (Gardner М.). Mathematical Games. Scientific American, August, 1977, pp.120-124.
Гарднер сообщает о новом, практически нераскрываемом шифре. Метод шифрования основан на свойствах очень больших простых чисел, а для зашифровки необходима ЭВМ. Если вы реализуете задачу гл.22, то будете иметь средство для создания идеально секретного метода коммуникации.
Кан (Kahn D.). The Code Breakers. Macmillan, New York, NY, 1967.
Кан написал очень ясную книгу по криптографии. Хотя после 1967г. стали известны некоторые новые интересные материалы о второй мировой войне, тем не менее книга содержит все, что может быть интересно любителю, об истории и методах тайнописи. В книге прекрасная библиография.
Синков (Sinkov A.). Elementary Cryptanalysis - A Mathematical Approach. RanRandom House, New York, NY, 1968.
Очень простая книга по анализу криптограмм. Содержит некоторые математические обоснования. По-видимому, Управлению национальной безопасности известны и более прогрессивные методы тайнописи, но оно, естественно, об этом не распространяется. Рассуждения, приведенные в этой главе, взяты из материалов Синкова.
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Re: Уэзерелл. Этюды для программистов. 1982
ТЕМЫ ДЛЯ КУРСА ПО КОМПИЛЯТОРАМ
Для того чтобы охватить полный курс но компиляторам, темы для этюдов собраны в одно место. Любой студент, справившийся со всеми четырьмя этюдами, хорошо усвоит как практические, так и теоретические вопросы создания трансляторов. Если выполнять этюды в порядке их следования, то результаты каждого из них могут служить входными данными для последующих. Например, для тестирования компилятора можно применить эмулятор машины и загрузчик. Не каждый студент возьмется, вероятно, в одиночку за изготовление компилятора или загрузчика, а вот интерпретатор Трака или моделирование компьютера под силу и одному исполнителю. Все четыре темы могут быть исполнены за полтора-два семестра при соответствующем руководстве.
25 УЧА - УЧИМСЯ,
ИЛИ...
МОДЕЛИРОВАНИЕ БОЛЬШОГО КОМПЬЮТЕРА
Если вы читаете эти строки, у вас почти наверняка есть под рукой подходящий компьютер. Возможно, покажется несколько странным, зачем нужно писать программу, делающую буквально то же самое, что уже умеет делать компьютер (если он исправен). Но уверены ли вы, что в точности знаете, что ваша ЭВМ в состоянии делать? Да и позволят ли вам другие пользователи достаточно долго узурпировать машину, чтобы изучить все черты ее характера? Билл Мак-Киман утверждает, что никогда не следует браться за большой проект, зависящий от структуры машины вроде компилятора или операционной системы, до тех пор, пока не создан ИМИТАТОР. Но как это всегда бывает, чтобы чему-то научиться, надо научить этому кого-нибудь другого (скажем, компьютер?!).
Учебной машины модели 1 в действительности не существует. Однако, следуя традиции, она заимствует характерные черты нескольких известных машин. УМ-1 проще многих компьютеров из пластика и металла, но именно это позволяет больше внимания уделить ее структуре. Приводимое описание не претендует на полноту, характерную для руководств по ЭВМ,- для такого изложения потребовалось бы дополнительное место, а его у нас нет. Чтобы восполнить пробелы, необходимо обратиться к собственным знаниям о других компьютерах. Численные значения везде, где они будут встречаться ниже, представлены в шестнадцатеричной системе (по основанию 16), как наиболее удобной для машины.
ПАМЯТЬ И РЕГИСТРЫ ЭВМ
УМ-1 снабжена памятью из 2**16 8-разрядных байтов, адресуемых от 0 до 2**16-1. Каждый байт памяти может содержать одну из 256 литер в коде ASCII [American Standart Code for Information Interchange - американский стандартный 8-разрядный код для обмена информацией.- Прим. перев.]), воспроизведенном на рис.25.1. Любая группа четырех смежных байтов, адрес самого левого из которых делится нацело на четыре, является СЛОВОМ. Слова участвуют в ряде операций, а граница самого левого байта слова называется ГРАНИЦЕЙ СЛОВА.
Рисунок 25.1. Набор кодировок символов ASCII. Позиции, отмеченные знаком могилки УМ-1 не употребляются. Символ NUL не воспринимается; знаком NL заканчивается запись; LF вызывает переход на новую строку; CR - возврат каретки; FS - переход на новую страницу.
Вычисления производятся с помощью 16 ОБЩИХ РЕГИСТРОВ размером в одно слово, перенумерованных от 0 до 15. Эти регистры располагаются в первых 64 байтах памяти, и любое обращение к байту с адресом от 0 до 63 связывается на самом деле с соответствующим байтом в блоке регистров. В некоторых командах указатель регистра рассматривается как адрес байта, вычисляемый умножением указателя на четыре. Отметим, что нумерация разрядов в слове, литере или иной конструкции будет всегда начинаться с 0 и вестись слева направо.
Рисунок 25.2. Схема основной памяти. Обратите внимание, что к регистрам можно адресоваться как к памяти.
Имеется еще два других регистра. СЧЕТЧИК АДРЕСА КОМАНДЫ (САК) всегда указывает на адрес команды, следующей порядку за выполняемой при обычной последовательности команд. РЕГИСТР ПРИЗНАКА РЕЗУЛЬТАТА (РПР) содержит 4 двоичных разряда. Чаще всего формирование РПР является побочным результатом выполнения команды, и его содержимое может опрашиваться командами передачи управления. Четыре разряда этого регистра - признак результата - называются (слева направо) соответственно бит ПЕРЕПОЛНЕНИЯ, бит БОЛЬШЕ, чем, бит МЕНЬШЕ, чем, и бит РАВНО. В случае когда содержимое РПР задается непосредственно в команде, РПР сначала полностью обнуляется, а затем уже требуемые разряды устанавливаются равными 1. Если происходит переполнение, устанавливается лишь бит переполнения. Опрос состояния РПР не влияет на его содержимое.
ТИПЫ ДАННЫХ В МАШИНЕ
О литерах выше уже упоминалось. Иногда их рассматривают как положительные 8-разрядные целые числа. Слова могут содержать 32-разрядные целые числа в ДОПОЛНИТЕЛЬНОМ КОДЕ. Нулевой разряд в слове является РАЗРЯДОМ ЗНАКА и равен нулю в случае положительных чисел и единице - в случае отрицательных (знак является признаком дополнительного кода). Когда более короткие целые со знаком, например обсуждаемые ниже непосредственные операнды, выступают в комбинации со словами, знаковый разряд укороченного слова размножается влево, заполняя отсутствующие биты.
ВЕЩЕСТВЕННЫЕ ЧИСЛА занимают также одно слово. Нулевой разряд определяет знак числа, разряды с 1-го по 7-й образуют ПОРЯДОК, а разряды с 8-го по 31-й - МАНТИССУ. Положительные вещественные числа в знаковом разряде имеют нуль, поле порядка содержит показатель степени 16, увеличенный на 4016, а мантисса представляет собой 24-разрядную нормализованную шестнадцатеричную дробную часть числа, причем считается, что шестнадцатеричная точка стоит в мантиссе слева от старшей цифры. Нормализованность шестнадцатеричной мантиссы означает, что по крайней мере самая левая ее шестнадцатеричная цифра отлична от нуля, если таковая вообще имеется. Если мантисса получилась нулевой, то все число полагается равным нулю. Любой конечный результат операции действительной арифметики, который из-за ограниченности поля порядка не может быть представлен в слове, вызывает ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОСТИ ПРЕДСТАВЛЕНИЯ. Отрицательные вещественные числа представляют собой двоичное дополнение соответствующих положительных значений. В командах с вещественным непосредственным операндом применяются специальные короткие вещественные числа, образуемые отбрасыванием трех самых правых цифр мантиссы.
ФОРМАТЫ КОМАНД
Встречаются команды короткие - в двухбайтовом формате - и длинные - четырехбайтовые. Все команды должны располагаться с границы четных байтов: если перед началом цикла выполнения команды в САК оказывается нечетный адрес, возникает ОСОБЫЙ СЛУЧАЙ ЗАПРЕЩЕННОГО АДРЕСА КОМАНДЫ. Первый байт любой команды содержит КОСВЕННЫЙ БИТ [Признак косвенной адресации.- Прим. перев.] в разряде 0 и КОД ОПЕРАЦИИ (КОП) в разрядах с 1-го по 7-й. Не все коды операций имеют смысл, и не во всех командах используется косвенный бит. Появление запрещенного КОП вызывает ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОЙ КОМАНДЫ. В большинстве команд в разрядах с 8-го по 11-й указывается либо общий регистр, либо 4-разрядная литерная константа, употребляемая в качестве маски, а в разрядах с 12-го по 15-й задается второй общий регистр.
Имеются четыре вида команд: РЕГИСТР-РЕГИСТР (двухбайтовые команды), РЕГИСТР-ПАМЯТЬ, НЕПОСРЕДСТВЕННАЯ и БАЙТОВАЯ. Каждый тип отличается присущей ему характерной интерпретацией и способом адресации, которые мы сейчас и рассмотрим подробнее.
Рисунок 25.3. Форматы представления информации.
1. РЕГИСТР-РЕГИСТР. Во всех командах типа регистр-регистр в разрядах с 12-го по 15-й указывается регистр, выступающий в качестве одного из операндов команды. Если задан косвенный бит, то операнд расположен по адресу, содержащемуся в 16-31-м разрядах регистра, номер которого указан в 12-15-м разрядах команды. В разрядах с 8-го по 11-й может быть задан или регистр, или маска. В командах CCS и MCS косвенный бит не используется.
2. РЕГИСТР-ПАМЯТЬ. Обычно в командах типа регистр-память в разрядах с 8-го по 11-й указывается регистр или 4-разрядная маска, и они выступают в качестве одного из операндов. Остальная часть команды используется для формирования ИСПОЛНИТЕЛЬНОГО АДРЕСА по следующему правилу:
- Если косвенный бит равен 0 и УКАЗАТЕЛЬ ИНДЕКС-РЕГИСТРА (разряды с 12-го по 15-й) равен 0, то исполнительный адрес дается ПОЛЕМ АДРЕСА (разряды с 16-го по 31-й) команды.
- Если косвенный бит равен нулю, а указатель индекс-регистра нулю не равен, то адресная часть команды дополняется слева нулями и складывается (разумеется, в дополнительном коде) с содержимым индекс-регистра. Разряды 16-31 результата образуют исполнительный адрес. Содержимое индекс-регистра не изменяется, 164 25. Уча - учимся - Если косвенный бит не нуль, а указатель индекс-регистра - нуль, адресное поле указывает местонахождение в памяти двухбайтового косвенного поля. Содержимое косвенного поля образует исполнительный адрес. Если косвенное поле начинается не с границы четного байта, происходит ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОЙ КОСВЕННОЙ АДРЕСАЦИИ.
- Если косвенный бит и указатель индекс-регистра не равны нулю, косвенное поле складывается с содержимым индекс-регистра и в качестве исполнительного адреса берутся правые 16 разрядов суммы. При этом может иметь место особый случай некорректной косвенной адресации.
3. НЕПОСРЕДСТВЕННАЯ. Во всех непосредственных командах регистр указывается в разрядах с 8-го по 11-й, а в разрядах 12-31 содержится НЕПОСРЕДСТВЕННЫЙ ОПЕРАНД. В качестве непосредственного операнда может выступать 20-разрядное целое в дополнительном коде, 20-разрядный логический вектор или же действительное число в коротком формате. В командах с непосредственным операндом косвенный бит игнорируется.
4. БАЙТОВАЯ. Команды байтового типа выполняются аналогично командам типа регистр-память.
...
Для того чтобы охватить полный курс но компиляторам, темы для этюдов собраны в одно место. Любой студент, справившийся со всеми четырьмя этюдами, хорошо усвоит как практические, так и теоретические вопросы создания трансляторов. Если выполнять этюды в порядке их следования, то результаты каждого из них могут служить входными данными для последующих. Например, для тестирования компилятора можно применить эмулятор машины и загрузчик. Не каждый студент возьмется, вероятно, в одиночку за изготовление компилятора или загрузчика, а вот интерпретатор Трака или моделирование компьютера под силу и одному исполнителю. Все четыре темы могут быть исполнены за полтора-два семестра при соответствующем руководстве.
25 УЧА - УЧИМСЯ,
ИЛИ...
МОДЕЛИРОВАНИЕ БОЛЬШОГО КОМПЬЮТЕРА
Если вы читаете эти строки, у вас почти наверняка есть под рукой подходящий компьютер. Возможно, покажется несколько странным, зачем нужно писать программу, делающую буквально то же самое, что уже умеет делать компьютер (если он исправен). Но уверены ли вы, что в точности знаете, что ваша ЭВМ в состоянии делать? Да и позволят ли вам другие пользователи достаточно долго узурпировать машину, чтобы изучить все черты ее характера? Билл Мак-Киман утверждает, что никогда не следует браться за большой проект, зависящий от структуры машины вроде компилятора или операционной системы, до тех пор, пока не создан ИМИТАТОР. Но как это всегда бывает, чтобы чему-то научиться, надо научить этому кого-нибудь другого (скажем, компьютер?!).
Учебной машины модели 1 в действительности не существует. Однако, следуя традиции, она заимствует характерные черты нескольких известных машин. УМ-1 проще многих компьютеров из пластика и металла, но именно это позволяет больше внимания уделить ее структуре. Приводимое описание не претендует на полноту, характерную для руководств по ЭВМ,- для такого изложения потребовалось бы дополнительное место, а его у нас нет. Чтобы восполнить пробелы, необходимо обратиться к собственным знаниям о других компьютерах. Численные значения везде, где они будут встречаться ниже, представлены в шестнадцатеричной системе (по основанию 16), как наиболее удобной для машины.
ПАМЯТЬ И РЕГИСТРЫ ЭВМ
УМ-1 снабжена памятью из 2**16 8-разрядных байтов, адресуемых от 0 до 2**16-1. Каждый байт памяти может содержать одну из 256 литер в коде ASCII [American Standart Code for Information Interchange - американский стандартный 8-разрядный код для обмена информацией.- Прим. перев.]), воспроизведенном на рис.25.1. Любая группа четырех смежных байтов, адрес самого левого из которых делится нацело на четыре, является СЛОВОМ. Слова участвуют в ряде операций, а граница самого левого байта слова называется ГРАНИЦЕЙ СЛОВА.
Рисунок 25.1. Набор кодировок символов ASCII. Позиции, отмеченные знаком могилки УМ-1 не употребляются. Символ NUL не воспринимается; знаком NL заканчивается запись; LF вызывает переход на новую строку; CR - возврат каретки; FS - переход на новую страницу.
Вычисления производятся с помощью 16 ОБЩИХ РЕГИСТРОВ размером в одно слово, перенумерованных от 0 до 15. Эти регистры располагаются в первых 64 байтах памяти, и любое обращение к байту с адресом от 0 до 63 связывается на самом деле с соответствующим байтом в блоке регистров. В некоторых командах указатель регистра рассматривается как адрес байта, вычисляемый умножением указателя на четыре. Отметим, что нумерация разрядов в слове, литере или иной конструкции будет всегда начинаться с 0 и вестись слева направо.
Рисунок 25.2. Схема основной памяти. Обратите внимание, что к регистрам можно адресоваться как к памяти.
Имеется еще два других регистра. СЧЕТЧИК АДРЕСА КОМАНДЫ (САК) всегда указывает на адрес команды, следующей порядку за выполняемой при обычной последовательности команд. РЕГИСТР ПРИЗНАКА РЕЗУЛЬТАТА (РПР) содержит 4 двоичных разряда. Чаще всего формирование РПР является побочным результатом выполнения команды, и его содержимое может опрашиваться командами передачи управления. Четыре разряда этого регистра - признак результата - называются (слева направо) соответственно бит ПЕРЕПОЛНЕНИЯ, бит БОЛЬШЕ, чем, бит МЕНЬШЕ, чем, и бит РАВНО. В случае когда содержимое РПР задается непосредственно в команде, РПР сначала полностью обнуляется, а затем уже требуемые разряды устанавливаются равными 1. Если происходит переполнение, устанавливается лишь бит переполнения. Опрос состояния РПР не влияет на его содержимое.
ТИПЫ ДАННЫХ В МАШИНЕ
О литерах выше уже упоминалось. Иногда их рассматривают как положительные 8-разрядные целые числа. Слова могут содержать 32-разрядные целые числа в ДОПОЛНИТЕЛЬНОМ КОДЕ. Нулевой разряд в слове является РАЗРЯДОМ ЗНАКА и равен нулю в случае положительных чисел и единице - в случае отрицательных (знак является признаком дополнительного кода). Когда более короткие целые со знаком, например обсуждаемые ниже непосредственные операнды, выступают в комбинации со словами, знаковый разряд укороченного слова размножается влево, заполняя отсутствующие биты.
ВЕЩЕСТВЕННЫЕ ЧИСЛА занимают также одно слово. Нулевой разряд определяет знак числа, разряды с 1-го по 7-й образуют ПОРЯДОК, а разряды с 8-го по 31-й - МАНТИССУ. Положительные вещественные числа в знаковом разряде имеют нуль, поле порядка содержит показатель степени 16, увеличенный на 4016, а мантисса представляет собой 24-разрядную нормализованную шестнадцатеричную дробную часть числа, причем считается, что шестнадцатеричная точка стоит в мантиссе слева от старшей цифры. Нормализованность шестнадцатеричной мантиссы означает, что по крайней мере самая левая ее шестнадцатеричная цифра отлична от нуля, если таковая вообще имеется. Если мантисса получилась нулевой, то все число полагается равным нулю. Любой конечный результат операции действительной арифметики, который из-за ограниченности поля порядка не может быть представлен в слове, вызывает ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОСТИ ПРЕДСТАВЛЕНИЯ. Отрицательные вещественные числа представляют собой двоичное дополнение соответствующих положительных значений. В командах с вещественным непосредственным операндом применяются специальные короткие вещественные числа, образуемые отбрасыванием трех самых правых цифр мантиссы.
ФОРМАТЫ КОМАНД
Встречаются команды короткие - в двухбайтовом формате - и длинные - четырехбайтовые. Все команды должны располагаться с границы четных байтов: если перед началом цикла выполнения команды в САК оказывается нечетный адрес, возникает ОСОБЫЙ СЛУЧАЙ ЗАПРЕЩЕННОГО АДРЕСА КОМАНДЫ. Первый байт любой команды содержит КОСВЕННЫЙ БИТ [Признак косвенной адресации.- Прим. перев.] в разряде 0 и КОД ОПЕРАЦИИ (КОП) в разрядах с 1-го по 7-й. Не все коды операций имеют смысл, и не во всех командах используется косвенный бит. Появление запрещенного КОП вызывает ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОЙ КОМАНДЫ. В большинстве команд в разрядах с 8-го по 11-й указывается либо общий регистр, либо 4-разрядная литерная константа, употребляемая в качестве маски, а в разрядах с 12-го по 15-й задается второй общий регистр.
Имеются четыре вида команд: РЕГИСТР-РЕГИСТР (двухбайтовые команды), РЕГИСТР-ПАМЯТЬ, НЕПОСРЕДСТВЕННАЯ и БАЙТОВАЯ. Каждый тип отличается присущей ему характерной интерпретацией и способом адресации, которые мы сейчас и рассмотрим подробнее.
Рисунок 25.3. Форматы представления информации.
1. РЕГИСТР-РЕГИСТР. Во всех командах типа регистр-регистр в разрядах с 12-го по 15-й указывается регистр, выступающий в качестве одного из операндов команды. Если задан косвенный бит, то операнд расположен по адресу, содержащемуся в 16-31-м разрядах регистра, номер которого указан в 12-15-м разрядах команды. В разрядах с 8-го по 11-й может быть задан или регистр, или маска. В командах CCS и MCS косвенный бит не используется.
2. РЕГИСТР-ПАМЯТЬ. Обычно в командах типа регистр-память в разрядах с 8-го по 11-й указывается регистр или 4-разрядная маска, и они выступают в качестве одного из операндов. Остальная часть команды используется для формирования ИСПОЛНИТЕЛЬНОГО АДРЕСА по следующему правилу:
- Если косвенный бит равен 0 и УКАЗАТЕЛЬ ИНДЕКС-РЕГИСТРА (разряды с 12-го по 15-й) равен 0, то исполнительный адрес дается ПОЛЕМ АДРЕСА (разряды с 16-го по 31-й) команды.
- Если косвенный бит равен нулю, а указатель индекс-регистра нулю не равен, то адресная часть команды дополняется слева нулями и складывается (разумеется, в дополнительном коде) с содержимым индекс-регистра. Разряды 16-31 результата образуют исполнительный адрес. Содержимое индекс-регистра не изменяется, 164 25. Уча - учимся - Если косвенный бит не нуль, а указатель индекс-регистра - нуль, адресное поле указывает местонахождение в памяти двухбайтового косвенного поля. Содержимое косвенного поля образует исполнительный адрес. Если косвенное поле начинается не с границы четного байта, происходит ОСОБЫЙ СЛУЧАЙ НЕКОРРЕКТНОЙ КОСВЕННОЙ АДРЕСАЦИИ.
- Если косвенный бит и указатель индекс-регистра не равны нулю, косвенное поле складывается с содержимым индекс-регистра и в качестве исполнительного адреса берутся правые 16 разрядов суммы. При этом может иметь место особый случай некорректной косвенной адресации.
3. НЕПОСРЕДСТВЕННАЯ. Во всех непосредственных командах регистр указывается в разрядах с 8-го по 11-й, а в разрядах 12-31 содержится НЕПОСРЕДСТВЕННЫЙ ОПЕРАНД. В качестве непосредственного операнда может выступать 20-разрядное целое в дополнительном коде, 20-разрядный логический вектор или же действительное число в коротком формате. В командах с непосредственным операндом косвенный бит игнорируется.
4. БАЙТОВАЯ. Команды байтового типа выполняются аналогично командам типа регистр-память.
...
Gudleifr- Admin
- Сообщения : 3399
Дата регистрации : 2017-03-29
Страница 1 из 2 • 1, 2
Похожие темы
» Растригин. Вычислительные машины, системы, сети... 1982
» Приложение. BASIC 1982. Пара книг издательства USBORNE
» Приложение. BASIC 1982. Пара книг издательства USBORNE
Страница 1 из 2
Права доступа к этому форуму:
Вы не можете отвечать на сообщения