УДК 547.12:541.14(083.73)
ЛИНЕЙНО-ЦЕПНОЕ КОДИРОВАНИЕ ФОРМУЛ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ. VI. СИММЕТРИЯ
© Я.Э. Брюске
Bruske Y.E. The line-chain notation of organic compound formulae. VI. Symmetry. The identity and symmetry of atoms and atom groups in the organic compound molecule permits us to transfer a great part of the information in line-chain code from obvious to non-obvious (indirect) which is not designated in the code. It gives a considerable lessening of the sign quantities in it by retaining the necessary information magnitude which assures the possibility of determination by the code of the molecule structure and composition of the complicated organic compound. The forms of identity and symmetry are determined and methods of code value lessening are worked out that are suitable for them. The regulating of the line-chain code structure is organised in connection with the finishing of its elements description.
Одинаковость и симметрия. Одинаковость атомов одного и того же вида лежит в основе симметрии молекулы. Сама по себе она считается симметрией тогда, когда по меньшей мере два одинаковых атома занимают и одинаковые (эквивалентные [1]) положения в молекуле. Элементы одинаковости и симметрии настолько часто имеют место в органических молекулах, что многие из них уже рассматривались во всех предшествовавших этой статьях о линейно-цепном кодировании.
Одинаковость так же, как и симметрия, увеличивает информативность системы в отношении внутренней структуры каждого ее объекта, так как позволяет распространить имеющуюся информацию об одном из них на другие такие же объекты. Однако эта же одинаковость уменьшает информативность о структуре системы в целом, ввиду уменьшения разнообразия входящих в нее объектов. Последнее имеет место в химии, так как одинаковость атомов одного и того же вида сохраняется и в статическом состоянии молекул и в их химических реакциях, в результате которых изменяется только порядок химических связей и иногда их число и элементный состав, когда одни молекулы превращаются в другие.
В органических соединениях уменьшение информации о молекуле в статическом состоянии частично преодолевают путем нумерации углеродных атомов, при этом атомы получают некоторое дополнительное разнообразие. Оно позволяет получить необходимую информацию о порядке связей в молекуле, для чего достаточно указать номера непосредственно связанных атомов. Однако значительные затруднения вызывает здесь неоднозначность выбора порядка нумерации атомов молекуле, которое приводит к чрезмерному увеличению этого дополнительного разнообразия, которое, вместо увеличения, приводит к уменьшению информативности системы. Поэтому его следует ограничить ("...мир без ограничения разнообразия был бы полностью хаотичным" - Эшби [2]). Одним из способов такого ограничения является предложенная автором в [3] каноническая цепная нумерация углеродных атомов циклических углеводородов. Для ациклических
углеводородов ее пришлось видоизменить [4]. в соответствии с требованиями современной номенклатуры органических соединений [5, 6].
Прямая и косвенная (явная и неявная) информация. Разделение информации на явную и неявную в линейно-цепном коде было осуществлено с самого начала [3]. Так, обозначаемая в коде явная информация об атоме с наибольшим номером (последний атом) дает не обозначаемую в коде неявную информацию о наличии в молекуле всех атомов с меньшими номерами. Преобладающее число связей атомов углерода, имеющих при цепной нумерации их в молекуле последовательные номера, дает основание считать, что все такие цепные связи в молекуле существуют, а явную информацию дают об отсутствии меньшего числа некоторых из них. Явную информацию дают также о неценных связях, с непоследовательными номерами своих атомов, помещая эти атомы в одном и том же сообщении [3] кода и разделяя их запятой.
Одинаковость и симметрия дают дополнительные возможности для перевода части явной информации в неявную путем объединения сообщений с одинаковостями. При этом большое значение имеет относительное старшинство [7, 8] обозначений, оказавшихся в одном и том же сообщении. Если больший номер, который считается более старшим [8], находится впереди (слева от, но не обязательно рядом) меньшего, то неценная связь между этими атомами считается существующей, если наоборот, то - нет [4]; к цепным связям это правило не относится. Символ любого неуглеродного атома младше любого номера [7], поэтому считается, что гетероатом связан с атомом углерода только тогда, когда его символ находится в одном и том же сообщении с номером и справа от (после) него. Форма кодирования цепных и нецепных связей гетероатомов друг с другом и с атомами углерода определена в (7]. Номера внутри скобок кода фрагмента считаются младше не только любого номера [8], но и символа любого неуглеродного атома [7], находящихся вне скобок, то есть в коде внешнего фрагмента.
Одинаковость одного и того же. Нетривиальность одного и того же проявляется, когда один и тот же атом образует несколько нецепных связей с другими атома-
ми или (и) фрагментами. В [3, 4] показано, как уменьшают число знаков в коде, когда один и тот же углеродный атом образует две нецепные связи с другими атомами углерода, а в [7] даны примеры того, как объединяют в одно сообщение обозначения связей одного и того же атома (углерода или гетероатома) с несколькими разными фрагментами и неуглеродными атомами. Если гетероатомы одинаковые, то одинаковость связей углерода становится симметрией и код (а), например, хлороформа:
СНСІз 1С1,С1,С1 (а)
1С13 (б)
сокращается до кода (б). Здесь число 3 является уже не номером, а числом одинаковых атомов, менее старший символ которых находится непосредственно перед (слева от) этим числом. Таким же способом код тетрафенилметана С(С6Н5)4, составленный в соответствии с [7, 8]:
1(1(1К)(1К)(1К))-1К
можно сократить до
1(111)4 (в)
Здесь число находится непосредственно после правой скобки кода менее старшего фрагмента.
Таким же методом сокращают код, когда несколько одинаковых гетероатомов или фрагментов присоединены одинаковыми (простыми, двойными) связями к одному и тому же неуглеродному атому:
СН3803Н 180;02 (г)
СН3802СН3 18(1):02 (д)
Р(С2Н5)3 Р(2)3 (е)
С2Н5ОР(СН3)2 10Р( 1)2-2
СН3ОР(ОС2Н5)2 10Р(0(2))2 (ж)
Здесь следует отметить, что при наличии симметрии происходит изменение порядка старшинства: обычно более старшие симметричные элементы становятся младше менее старших «несимметричных. Так, в коде (в) углерод метана становится старше симметричных бензольных фрагментов, в коде (е) несимметричный атом фосфора становится старше этильных групп, а в коде (ж) метоксильная группа становится старше двух этоксигрупп. Подобное обращение порядка старшинства применяют в современной номенклатуре при построении названий молекул с симметричными радикалами [5] (см. выше название тетрафенилметан).
Кодирование присоединения различных фрагментов и атомов к одному и тому же описано в [7] (см. (г), (д)).
Длинные цепи одинаковых гетероатомов. Код неразветвленной цепи из большого числа одинаковых гетероатомов можно сократить, обозначая это число, вместо выписывания каждого из них. Код кремнийорганического соединения можно сократить до кода (з):
СН3СН2СН281Н281Н281Н3 1818181-3
181.3-3 (з)
Точка перед числом обозначает, что атомы кремния не связаны с одним и тем же атомом, а образуют присое-
диненную к нему неразветвленную цепь. При отсутствии точки это будет, в соответствии с приведенным выше, код (и) другого соединения:
СН3СН2С(81Н3)3 1813-3 (и)
Этот прием так же, как и все другие приемы сокращения кода с одинаковостями, не следует применять, если он не приводит к действительному сокращению, например:
С2Н5ЫНЫНКН2 1ЫШ-2
но не 1Ы.З-2 18181-2 но не 181.2-2
Таким образом, число, находящееся непосредственно после менее старшего символа гетероатома или отделенное от него точкой, а также стоящее после правой скобки фрагмента (см. код (в)), теряет "статус" номера углеродного атома и обозначает число одинаковостей, присоединенных к одному и тому же атому непосредственно или в виде длинной неразветвленной цепи. Однако число, отделенное от предшествующего знака запятой, остается номером атома углерода.
Одинаковость не одного и того же. Этот вид одинаковости имеет место, когда несколько одинаковых атомов, кратных связей, фрагментов присоединены к различным атомам углерода как атомам одного и того же вида (рис. 1). В современной номенклатуре (ИЮ-ПАК [5]) подобный прием применяют, называя соединение рис. 1а 1,2,4-триметилбензол, а соединение рис. 16 2,4,6,6-тетрахлоргексадиен-1,4. В линейно-цепном коде указывать число одинаковостей не нужно, т. к. косвенная информация о нем уже содержится в объединенном сообщении. Если такое число все же стоит, то это показывает, что столько одинаковостей присоединено к каждому из атомов, номера которых находятся в этом сообщении впереди (см. ниже код (к)). Другие способы сокращения кодов при одинаковости не одного и того же рассмотрены в [4, 7, 9]. Особыми способами сокращения кода являются применение буквенных обозначений Я (см. коды рис. 1а и рис. 26, в) для кодирования ароматических и Е для сопряженных неароматических (коены [9]) циклов, а также применение символа углерода [7] для обозначения нумеруемых гетероатомов в циклах (С-замена, рис. 2в) и при необходимости нумерации большого числа атомов неуглеводородных групп (общая С-замена).
Одинаковое замещение водорода. При замещении всех атомов водорода на одинаковые атомы другого вида, например, в перфторуглеродах код сокращают следующим образом:
СР3СР(СР3)СР2СР3 1,4,5РЗ-2Р-ЗР2-05,2 (к)
Р-05,2 (л)
то есть, вместо обозначения атомов фтора при всех номерах (к), символ фтора пишут в начале кода в отдельном сообщении (л). Так же, как и сообщение об общей С-замене [7], оно действует только в пределах того фрагмента, внутри которого находится (рис. 2). Если замещены не все, но большинство атомов водорода, незамещенные положения отмечают его символами:
СР3СР2СН2СР3 Р-ЗН2-4
СР3СНРСНРСР3 Р-2,ЗН-4
Высокомолекулярные соединения. Полимерные молекулы часто образуют длинные неразветвленные цепи из неопределенно-большого числа одинаковых звеньев. На рис. 3 изображены звенья простых полимеров: полистирол - За, полиизопрен (каучук - 36), целлюлоза - Зв. В отличие от обычного фрагмента, каждое звено полимерной цепи имеет две выходящие связи, сообщения о которых помещают после левой и перед правой скобками. Если после левой скобки обозначения выходящей связи нет, она идет от атома звена с номером один [8]. После правой скобки ставят точку, а после нее - букву X, обозначающую неопределенное число звеньев, соединенных в одну неразветвленную цепь.
СИ2-ССВ2С=СНС31С12 С! С1
Рис. 1. а) 1,2,4(1)-! Я б) 2,4,6,6С1-1,4:
а
сасссхд
СС10
Рис. 2. а) 1(С1-.2-3)-6,1 б) Р-1(,2-4)-1Я в) Р-3(Р-2)-С1,9141-1,51110
Н0СЙ2
Рис. 3. а) (1(1Я)-2,).Х б) (:2-05,2-4).Х в) (,2-6( 10)-3,40-С 10-6,1 -50,).Х
Молекулы, состоящие из двух симметричных частей. Такую молекулу "рассекают" на две одинаковые части (на рис. 4 вертикальные штриховые линии) и кодируют только одну из них. Код записывают так, чтобы сообщение, обозначающее внешнюю связь обеих "половинок", находилось рядом с правой скобкой своего фрагмента. Весь код заключают во внешнюю пару скобок, а после правой скобки ставят число 2 (рис. 4).
Ансамбли [5] одинаковых циклов. Такие ансамбли могут иметь только ациклическую связность (рис. 5). В качестве главного выбирают фрагмент в середине "алифатической" цепи ансамбля, а четное число звень-ев-циклов в ней (рис. 5а) дает возможность дальнейшего выбора. В этом случае следующим критерием выбора будет набор меньших локантов [7, 12] (отдельных номеров атомов, соединяющих циклы друг с другом). На рис. 5а по этому принципу выбран второй цикл справа. Полный код соединения рис. 5а следующий:
1 (4(6,1 )-6,1 )-3(6,1 )-6,1
а соединения рис. 56 - такой:
1,2,4(1 И)-1К
Если все коды одинаковых фрагментов перенести к главному, обозначив здесь их число:
1(4( )-3( )-(6,1 )4 1,2,4( )-(1Я)4
и убрать "пустые" пары скобок и лишний дефис, получаются коды, помещенные в подписи к рис. 5. Несмотря на цепной характер связей циклов, точку перед числом ставить здесь не надо, так как отсутствие номера перед левой скобкой показывает, что эти одинаковые фрагменты не присоединены к одному и тому же, а связаны между собой и не обязательно в неразветвленную цепь (рис. 56).
Для нафталиновых циклов (рис. 6) полный код соединения 6а:
2(4(,2-1,5Я 10)-1,5Я 10)-8(,2-1,5Я 10)-1,5Я 10 а соединения 66:
1,4(,2-1,5Я10)-7(1,5Ш0)
После перенесения всех одинаковых кодов к коду главного фрагмента и удаления лишних элементов, получают коды, приведенные в подписи к рис. 6.
В отличие от шестичленного, у нафталинового цикла имеются два неэквивалентных положения: альфа (номера 1, 4, 6, 9) и бета (2, 3, 7, 8), поэтому при возможности выбора одного из средних фрагментов (рис. 6а) могут получиться коды с различным числом знаков. Поэтому вторым критерием выбора главного фрагмента в этом случае должно быть получение более короткого кода. Нетрудно проверить, что при выборе в соединении рис. 6а фрагмента с меньшим набором локантов (второй справа), код будет на три знака длиннее за счет добавления одного сообщения о выходящей связи от второго номера, вместо первого [8]. В соединении рис. 66 выбор среднего фрагмента в качестве главного однозначен и ему, конечно, следует дать возможно меньший набор отдельных номеров заместителей.
І
СН|СН—
различных полностью симметричных присоединения: тетра(нафтил-1 )метан и тетра(нафтил-2)метан:
1(1,51110)4 1( ,2-1,51110)4
Может быть три "смешанных" тетранафтилмета-нов: нафтил-1-три(нафтил-2)метан, ди(нафтил-І)-
ди(нафтил-2)метан и три(нафтил-1)нафтил-2-метан, коды которых
Рис. 4. а) (1(1;)-4Ы:02-1Я)2 б) (3(10;0)-6,1 -1 :Ы,)2
в) (2Ы:Ы(20( 1)-1Я-4,)-10-4Б0;02-1,5Я 10)2
СгООО
Рис. 5. Ансамбли шестнчленных циклов, а) 1(4)-3-(6,1)4 б) 1,2,4-(1Я)4
Рис. 6. Ансамбли нафталиновых циклов.
а) 2(4(,2)-8(,2)-(1,5Я10)4 б) 1,4(,2)-7-(1,5Я10)4
Подобная неоднозначность может получиться при присоединении различных нафтильных радикалов к одному и тому же атому углерода. Здесь может быть два
1(1,51110) (,2-1,51110)3 1(1,51Ш)2( ,2-1,51110)2 1(1,5Ш0)3( ,2-1,5Я10)
Сразу следует указать на то, что число, стоящее в коде непосредственно после менее старшего знака (здесь -правая скобка фрагмента) или отделенное от него точкой, является числом одинаковостей независимо от того, что находится справа от этого числа в том же сообщении.
Перенося одинаковые коды в первую пару скобок и удаляя лишние дефисы, получают соответственно коды:
1(1,5Ш0)4( ,2)3 1(1,5Я10)4( ,2)2 1(1,5Ш0)4( ,2)
О названиях соединений с одинаковостями. Линейно-цепные коды дают возможность составить по ним в принципе не противоречащие современной номенклатуре названия весьма сложных соединений с одинаковыми частями (рис. 7). Название соединения строится так, как это определено номенклатурой ИЮПАК [5]: в префиксах слова-названия помещают названия заместителей, в суффиксе - кратных связей и главной характеристической группы, корнем является название углеводорода, углеродный скелет которого (его выбирают в качестве главного фрагмента) составляет основу структуры молекулы. Название соединения рис. 7: 7-хлор-2(6(9))метиламино-
2(6(4)),9(7)дигидрокси-4-этокси-2(6(6),3,9)триметил-2(8),9(6)диэтил-9(8)бутил(2)кватер-2(6(,2))-9-нафтали-новая-2(6(6( 1))) кислота. Названия заместителей в префиксах располагают в порядке увеличения старшинства атома (ключевой атом), которым он присоединен к более старшему фрагменту (старшинство атомов увеличивается в порядке С1 < N < О < С). Название адаптировано к русскому языку (см. предисловия к русским изданиям [11, 12]).
Если заместитель присоединен не к главному фрагменту, место его присоединения обозначают последовательностью номеров входящих связей, идущих от главного фрагмента к тому, у которого заместитель находится непосредственно. Номера заключены в скобки соответственно глубине вложения фрагментов в коде. Такие сложные локанты располагают в порядке уменьшения глубины вложения и разделяют запятыми, число которых на одну меньше числа одинаковых заместителей.
Сложность этой и некоторых других из рассматриваемых здесь формул превосходит современные воз-
С^СИд
Рис. 7. * - главный нафталиновый фрагмент 2(6(,2-4( 10;0)-9Ы( 1 )-40)-3,9( 1 )-8(2))-9(6(2)-8(,-2-4))-40(2)-12 3 3 332 22 221 1222 21 11
7С1-( 1,51110)4 1 1
можности синтеза соответствующих им веществ. Поэтому рассмотрение линейно-цепного кодирования еще более сложных формул, чем эти, представляется нецелесообразным.
Алгебраическая структура линейно-цепного кода. В связи с значительно возросшей сложностью линейно-цепных кодов, приведенных в предшествующей [7] и настоящей работах, появилась необходимость нового упорядочения структуры кода.
Линейно-цепной код одной органической молекулы можно уподобить алгебраическому многочлену. в котором роль одночленов играют отдельные сообщения. Дефисы (тире), разделяющие отдельные сообщения, уподобляются при этом операциям сложения, а другие знаки "препинания", разделяющие отдельные элементы одного и того же сообщения, а также простое написание гетероатомов рядом друг с другом или с номером уподобляют различным операциям умножения.
В сложном углеводороде или молекуле с функциональной связью младший фрагмент, заключенный в скобки, имеет выходящую химическую связь на углерод (номер [8]) или на гетероатом [7], находящийся непосредственно перед левой скобкой этого фрагмента, что является как бы последней операцией "умножения" одночлена на многочлен. Поэтому такую структуру целесообразно считать одним сложным сообщением [8]. Слово "сложный” необходимо добавить здесь потому, что в алгебре подобное произведение одночленом не считается [10]. В [8] показано, что особенностью сложных сообщений является "вложение" в них в скобках других сообщений по мере удаления их от главного фрагмента в цепи присоединения; некоторые из вложенных сообщений являются кодами, состоящими, в свою очередь, из нескольких "своих" сообщений.
В коде рис. 7 у главного фрагмента имеется четыре заместителя, из которых три представляют собой сложные сообщения с несколькими фрагментами и один - простое. Границы каждого из сложных сообщений отмечены под скобками одинаковыми числами и включают также все знаки-"множители", находящиеся вне этих скобок. В составе самого сложного из этих сообщений находятся три сообщения меньшей сложности (числа 2 под скобками). Внутри первого из этих сообщений
(номер 6 перед левой скобкой) находятся еще четыре сообщения, из которых первое и последнее -простые (у двух сложных числа 3 под скобками). И, наконец, коды концевых [8] фрагментов состоят только из простых сообщений. Этот анализ показывает, что сложность сообщения можно определять количественно по величине наибольшей глубины вложения, которая определяется числами под скобками (рис. 7, правила расстановки этих чисел см. [8]). Сложность сообщения, вложенного в другое, определяют вычитанием из числа под его скобками числа, находящегося под скобками ближайшего внешнего сообщения. Так, сложность (степень, величина сложности) сообщения о заместителе у второго номера главного фрагмента рис. 7 равна трем (оно не вложено в другое). В него вложены три сообщения со сложностями 2, 1 и 1. Из четырех сообщений, вложенных в первое из этих трех, два имеют сложность единицу (3-2), а сложность каждого из простых сообщений оценивается нулем.
Теперь можно сформулировать полные правила о порядке расположения сообщений в линейноцепном коде. Сообщения располагаются в следующей последовательности:
1) Сообщение о замене всех атомов водорода на одинаковые гетероатомы.
2) Сообщение о нумерации всех одинаковых атомов неуглеводородного заместителя (общая С-замена).
3) Сообщение о выходящей связи.
4) Сообщения о входящих связях в порядке уменьшения величины сложности каждого из них. Сообщения одинаковой сложности располагают в порядке увеличения номеров входящих связей.
5) Сообщения об основной структуре фрагмента в следующем порядке:
а) Сообщение о гетероатомах в цикле или (реже) в алифатической цепи (С-замена).
6) В порядке увеличения наименьших номеров сообщения о цепных кратных связях углеродных атомов, отдельные сообщения о начальных и последнем атоме и сообщения о нецепных связях в порядке увеличения их наименьших вторых номеров.
Пункты 3 и 5 свидетельствуют о самостоятельности действия всех пунктов этих правил в коде каждого фрагмента.
Пословица "нет правил без исключения” оправдывается и здесь. При описании кодирования высокомолекулярных соединений и молекул из двух симметричных частей сообщения об одной из двух выходящих связей помещают на последнее место кода фрагмента. В коде линейного ансамбля из четного числа одинаковых циклов на первое место в ряду сообщений о входящих связях помещают сообщение о входящий в главный фрагмент связи от большего числа одинаковых циклов, а на второе - от заместителя с меньшим числом таких циклов, даже если при этом будет нарушен пункт 4 правил, что вполне возможно структурно. Введено это исключение для того, чтобы при сокращении кода, как описано в разделе об ансамблях одинаковых циклов, не потерять ставшую неявной информацию о порядке их соединения.
I
Различные виды одинаковости и симметрии атомов и фрагментов в органической молекуле дают, таким образом, возможность значительного уменьшения величины линейно-цепного кода посредством уменьшения обозначаемой в коде явной информации, сохраняя при этом достаточную для определения строения молекулы величину информативности. Такое сокращение облегчает составление по коду названия соединения, не противоречащего современной номенклатуре органических веществ. В связи с окончанием описания всех основных элементов линейно-цепного кода определен окончательный порядок следования в нем отдельных сообщений.
ЛИТЕРАТУРА
1. Джаффе Г., Орчин М. Симметрия в химии. М.: Мир, 1967. 236 с.
2. Эшби У. Р. Введение в кибернетику. М.: Издатинлит, 1959. 432 с.
3. Брюске Я.Э. Цепная нумерация н кодирование циклических углеводородов // Ж. структ. химии. Т. 36. № 4. С. 729-734.
4. Брюске Я.Э. Линейно-цепное кодирование и названия алифатических углеводородов // Вести. ТГУ. Сер. Естеств. и технич. науки. Тамбов, 1996. Т. 1 Вып 1. С. 34-38
5. Номенклатурные правила ИЮПАК по химии. Т. 2. Органическая химия. М.: Изд-во ВИНИТИ, 1979. 896 с.
6. Терентьев А.П., Кост А.Н., Цукермап А.М., Потапов В.М. Номенклатура органических соединений. М.: Изд-во АН СССР, 1955. 304 с.
7. Брюске Я.Э. Линейно-цепное кодирование формул органических соединений. V. Кодирование неуглеродных атомов // Вести. ТГУ. Сер. Естеств. и технич. науки. Тамбов, 1998. Т.
3. Вып. 2. С. 99-106.
8. Брюске Я.Э. Линейно-цепное кодирование формул органических соединений. III. Кодирование сложных углеводородов // Вести. ТГУ. Сер. Естеств. и технич. науки. Тамбов, 1997. Т. 2. Вып. 1. С. 53-56.
9. Брюске Я.Э. Линейно-цепное кодирование формул органических соединений. IV. Кодирование связей в углеводородах // Вестн. ТГУ. Сер. Естеств и технич науки Тамбов, 1997. Т. 2. Вып. 1. С. 57-59.
10. Математический энциклопедический словарь. М.: "Советская энциклопедия", 1988. 848 с.
11. Бенкс Дж. Названия органических соединений. М.: Химия, 1980. 304 с.
12. Кап Р., Дермер О. Введение в химическую номенклатуру. М.: Химия, 1983. 224 с.
Поступила в редакцию 30 июля 1998 г.