Аналитико синтетичното обработване на документи. Документ, документация данни и обработка
Аналитико синтетичното обработване на документи е важна част от човешките дейности: икономика, наука, култура, образование и т.н. Терминологичното развитие на понятието на документа исторически е вървяло по два пътя. Първоначално термина документ има предимно правен характер. Той е служел за доказване на защита на правата фиксирана в него. Понятието документ започва да се съхранява под формата на енциклопедии и нормативни документи. В началото на 20 век белгийския учен Пол Отле предлага ново разбиране на понятието документ като ядро на това разбиране става термина информация, който заменя близките по смисъл понятия на материализираната памет на човечеството. В средата на 20 век се разработва информационен подход под който се разбира общонаучен метод на познание с помоща на информацията и нейното разбиране и предаване като един от най – важните информационни процеси. Под информация започва да се разбира отразеното многообразие, а под документ какъвто и да е запис на информация. Традиционните понятия като книга, ръкопс и др. започват да се заменят от понятието документ. Следващият момент в развитието на понятието документ е свързан с разделянето на информациата на структурна и оперативна. Структурната е присъща на всички материални обекти и се сяхранява върху самата структура на обектите. Оперативната циркулира между обектите и се използва в процесите на управление на живата природа и човешкото общество. В рамките на информационния поток под документи започва да се разбира информацията фиксирана на материален носител, критериите един документ може да се определи като такъв са следните:
1) носителят на информация трябва да бъде специално предназначен за нейното фиксиране.
2) фиксацията трябва да е целенасочена.
3) информациата трябва да бъде идентифицирана с думи.
4) информацията трябва да бъде записана по начин по който може да се съхранява и предава съвременното определение на понятието документ е следното. Това е социална оперативна информация имаща форма на съобщение и включена с помоща на реквизити.
Различават се следните видове основни документи:
1) единичен, по форма и съдържание имащ напълно завършен вид и може да се разгледа като самостоятелна единица.
2) първичен документ който непосредствено съдържа запис на резултати получени от някакво изследване или дейност.
3) вторичен документ съставен след преработването и преобразуването на съдържанието на първичния документ.
4) писмени – такива които съдържат фиксирана в писмен вид информация. Могат да бъдат както текстови и графични изображения.
5) графичните документи съдържат само графики, скици и т.н.
Документацията е съвкупност от документи организирани с цел бързото намиране на идеи и факти важни за дадена дейност в това понятие влизат процеси по събирането, аналитико синтетичното обработване, съхраняването, търсенето, възпроизводството и използването на документите. Данни се нарича информация представляваща сведения обикновен но в числов вид и използвана за по – нататъшна обработка с помощи на математически методи.
1) В зависимост от времето на получаване независими, получени чрез многократни измервания или натрупвания и зависими получени еднократно.
2) В зависимост от мястото на получаване биват също зависими и независими.
3) В зависимост от начина на получаване.
4) В зависимост от причинната обособеност биват детерминирани и стохастични.
5) Количествени и качествени.
Обработката на данни се нарича съвкупността от различни действия на постъпващата или събраната информация водещи до изменение на вида или характера и. Аналитико синтетичната обработка на данни в процеса на техния анализ се характеризира с извличането на необходимата информация във вид съответстващ на даденото информационно запитване. Аналитико синтетичното обработване на документи е представяне на всички документи във вид който максимално да отговаря на задачите на информационната дейност. Основните видове аналитико синтетично обработване са индексиране, библиографско описание, каталогизиране, анотиране, рефериране, извличане на факти и данни, превод и подготовка на обзори. Анализът е метод на научно изследване при който документите се разчленяват на съставни части. Синтеза и метод за изследване на документи в неговоо единство и взаимовръзка на частите, обобщаване на сведенията в единно цяло. Свиването на информация е изменение на физическия обем на дакумента, съпровождано от намаляване на информацията. Най – разпространените свивания са анотиране, рефериране, систематизиране, фактографски анализ, рецензитане, обзорна дейност. Подобно на синтеза и анализа свиването е операция за извеждане на най – информативните сведеня за по – бързо и лесно възприемане и разбиране на документа. Индексиране е описание на съдържанието на документа с помоща на някакъв информационно търсещ език, който е изкуствен формализиран език създаден на базата на естествения език. В резултат на индексирането на документа се получава неговия търсен образ. Три са основните принципи на индексирането:
1) класификационен при който с помоща на различни класификационни схеми или таблици на всеки документ се поставя по някакъв индекс от избраната класификация.
2) предметизационен при който съдържанието на документа се определя с помоща на предметни рубрики.
3) библиографско описание основава се на използването на библиографски характеристики на документа с цел намиране по съдържателни и формални признаци, неговото място в масив от документи.
По степен на свиване на информацията на първичния документ най – малък брой сведения съдържа индексирането след него се нарежда БО което съдържа необходимия минимум сведения за документа позволяващи той да се различи от другите видове документи.
Подготовка на сигналната информация за документите
Сигналаната информация се нарича бързото оповестяване на потребителите за нови публикации по интересуващи ги отрасли по дисциплини, предмети, проблеми. Сигналната информация се осъществява с помоща на сигнални издания. Към тях се представят следните изисквания. Времето за оповестяване на новия документ не трябва да надвишава 1, 2 седмици от момента на получаването на първичният документ в информационния център.
Изданията по възможност да осигуряват най – голямата пълнота на обхвата на всички публикации по даден проблем, тема, отрасък и т.н. Сигналната информация е вид информационно обслужване изпълняващо функцията за предварително оповестяване за новоизлезли документи. Първообраз на СИ са послужили библиографските списъци с новите книги. СИ може да се оцъществи както по пътя на информацията така и във вид информационни издания. Изданията за СИ трябва да имат съответен търсещ апарат освобождаващ потребителя от необходимостта от цялостен преглед на изданието и облекчаващи избора му на необходимите документи. Те трябва да имат широк кръг ппотребители. Основните видове издания за СИ са:
1) бюлетини съставени от документи най – реномирани научно – технически списания и снабдени с авторски показалци. Типичен представител са американските издания.
2) библиографски указатели в които под предметни заглавия или теми на класове се дават пълни БО на съответните документи. Представители са ежемесечните издания.
3) библиографски бюлетини с перматиционни авторски издания.
Изданията за СИ са предназначени за решаване на следните две задачи:
1) редовно, бързо и по възможност най – пълно да оповестяват за всички излезли документи в света.
2) възможно най – пълно да регистрират тези документи.
БО на документите в изданията за СИ се разполагат в систематичен ред, като е възможно многократно повторение на едно и също БО в различни по вид издания. При подготовката на изданията могат да се използват няколко различни рубрикации:
1) по отрасли на науката
2) по отрасли на икономиката
3) по комплексни проблеми.
Използването на рубрикациите трябва да допуска достатъчно задълбочена систематизация на документите, за да можем в едно подразделение (подрубрика, клас) да няма повече от 20, 25 библиографски описания. Всеки брой на изданието за СИ трябва да е снабден с авторски азбучен указател на продължаващите периодични издания, чието съдържание е отразено в изданието за СИ. По настоящем в чужбина съществуват много служби за СИ дори в електронен вид. Тези издания икономисват времето и силите на съвременния учен като му предлагат редовен преглед за най – новите постижение в световната наука. Службите за СИ трябва да могат по най – бърз начин да осигурят достъп до първичните документи. Най – известни издания за СИ са Винити (Русия) и Current Contest. Принципа на организация на материалите в Curent Contest е следния. Всяко издание е сборник от издания на списания които са излезли миналата седмица. Трябва да се прави разлика между клщчов термин от заглавиято и предметна рубрика попълнена от съдържанието на документа определена от информационни аналитик.
Указателите имат еднотипна структура чиито основни компоненти са следните:
1) Curent Comands – под тази рубрика ежеседмично се слагат статии. Разглеждат се най – актуалните научни проблеми.
2) ISI – поместват се извадки от публикациите които имат спорен характер.
21. Издателска и прикнижна анотация
Развитие на издателската анотоция зависи от материалните, социалните, икономическите и културните условия на живота на обществото. Издателската анотация се подготвя от издателствата и се съставя за документ който още не са публикували и такива които са в процес на отпечатване. Тя съчетава в себе си справочни и рекламно пропагандни задачи, като дава обективни сведения за подготвените за печат документи. Обхваща читателите, книготърговците, разпространителите, библиотечните и информационни работници. От качеството на тази анотация зависи бъдещето на документа, неговия тираж и реализирането му. При представянето на издателска анотация сведенията се взимат от авторската заявка, вътрешни рецензии, увода или ако има някои отзиви, критики и др. излезли материали. За документ с научен характер издателската анотация съдържа следните сведения:
- целево предназначение
- данни за автора, които позволяват да се съди авторитетността на изданието, като професия, длъжност, научна степен и др.
- вид на документа
- кратко разкритие на темата с което се посочва спецификата на съдържанието, целевото предназначение, разликите между документа и близки по тема други дикументи
- сборници се формолира общата тема и принципа на съставяне на сборника
- читателски адрес
- особености на научно – справочния апарат ( коментари, забележки, спомагателни показалци, речникови приложения и др. )
Издателската анотация има лаконична и конкретна езикова форма без странична и второстепенна информация. Обемът не надхвърля 600 печатни знака. Малко разбираеми думи се използват само в краен случай. Допускат се само общоприети съкращения. Книготърговската анотация се създава за вече излезли документи или за такива които са набелязани да излизат. Развитието на книжното произодство, ръста на тиражите и необходимостта от бърз оборот на книгите и средствата вложени в тях изискват развитието и на книготърговската анотация. В нея присъства информация която е свързана с конюнктура на търсенето състояние на книжния пазар и условията за закупуването на документа. Тази анотация е справочна и изпълнява предимно рекламни задачи. По обем е не повече от 500/600 печатни знака и съдържа само тези сведения които биха привлекли вниманието на широк читателски кръг. В нея се набляга предимно на сведения в съдържанието, като основна тема, проблем и т.н. Прикнижната анотация се се нарича издателска анотация поместена в документа и станала част от неговия справочен апарат. Тя се поставя на гърба на титулната страница или на обложката и изпълнява справочни и рекламни функции. Тя е много кратка по обем тъй като читателят запознавайки се с нея може да черпи сведения за документа като погледне в предговора, коментарите и т.н. В прикнижната анотация задължително се посочва точния читателски адрес и най – важните аспекти от съдържанието на документа.
22. Анотации на различни видове документи
Анотации на детска художествена литература. В анотациите на приказки задължително се посочват основните видове: народни, вълшебни и т.н. Точно се разкрива основната идея понеже приказките са материал за нравствено възпитание на подрастващите. Кратка оценка на илюстрациите и на комбинацията текст и илюстрация, тъй като децата възприемат по лесно чрез картинките в книжките. В анотацията на художествена проза за деца трябва да се даде вярна идейна естетическа характеристика на произведението, да се покаже своеобразието на писателя. Да се покаже важността от четенето и да се посочи достъпността на произведението за конкретна възраст. В анотацията може да се постави въпрос на който децата сами да потърсят отговор. Най – важното изискване към анотациите е тяхната занимателност и оригиналност. В анотацията на детска литература се допускат следните грешки:
- прави се подробен преразказ
- съдържанието се разглежда едностранно
- към анотацията се подхожда формално
- използват се общи фрази не даващи никаква представа за стила и езика на писателя
- предаване на собствено възприемане на произведението
- липса на обективна оценка
- повърхностна характеристика на произведение, не предизвикващо интереса на децата
Анотация на научно – популярна литература. Този вид литература се характеризира с научна достоверност и занимателна форма на изложение, целта и е да повиши вниманието и интереса към дадена тема. Да даде своеобразен материал за обучение да стимулира самостоятелното творчество. Основните похвати на научно – популярна литература са:
- нетрадиционен подход към написването на известни факти и събития
- използване на примери от художествената литература
- исторически екскурзии
- забавни илюстрации
В анотациите тези похвати трябва да бъдат характеризирани, а изложението на текста да бъде в популярна форма и на достъпен и за не специалиста език.
Анотации на научна литература. В нея се характеризират вида, целта и задачите на изследването. Посочва се конкретния научен принос на автора. Приложимостта на получените резултати. За социални изследвания задължително се посочват достоверността на извадката. За химически изследвания задължителен елемент е условието за протичане на реакцията. За технически документи се посочва степента на детайлност на процеса.
23. Анотации на учебни издания – информационни и справочни издания.
Учебните издания съдържат систематизирани сведения с научен или приложен характер. Анотациите трябва да съдържат характеристика на всички компоненти на съдържанието които помагат за усвояване на материала. В тях следва да се дадат границите на съдържанието на основния текст, връзката му със съответната учебна програма. Наличието на допълнителен материал и дали е одобрен от МОН. Информационните издания биват библиографски, реферативни и обзорни. Обзорните са документи със сбито систематизирано изложение на съвременното състояние на даден проблем и основните тенденции за неговото развитие. Обзорът е композиционно цялостно произведение с единна логическа структура и стилна форма. В анотациите на информационни издания се включват следните елементи:
- пълнотата на изданието и неговите тематични граници
- принципите на подбор на включените материали
- структура на изданието
- кръг на ползваните източници
- наличие на справочен апарат и неговите елементи
- оперативност на подготовката на изданието
В анотациите на речници се посочват принципа на включените термини или думи, тематичния обхват, особеностите на съставянето на речниковите статии, структурата и принципи на построяване на изданието.
При многотомни справочни издания чието съдържание е подредено по азбучен ред се съставя обща анотация, я при излизането на всеки отделен том се посочва кога е излязъл предишния том.
24. Анотации на специални видове документи – стандарти, патенти, фирмена литература
Особености на анотация на не книжните документи.
Анотации на стандарти се съставят поради следните причини:
- осведомяване за нововъведени стандарти
- съобщаване за стандарти които са в процес на разработване
В анотациите се посочват:
- обекта на стандартизация с кратка характеристика
- структура на стандарта
- съставители на стандарта
- дата на влизане в сила
- кръг на потребителите
- вид на стандарта
Анотации на патенти се пише по – рядко, но те намират приложение при съставяне на анотирани сборници и бюлетини. Анотацията включва:
- вид на патента
- характеристика на патентования обект
- дата на приоритет
- данни за оформянето
- брой на авторските претенции
- принадлежност към определен клас
Анотации на фирмената литература се налага поради следните причини:
- разнообразието на чужди езици на които тя се издава
- богата номенклатура на произвежданите изделия
- кратките срокове за модернизиране и усъвършенстване на продукцията
Анотацията съдържа:
- вид на документа
- сведения за фирмата производител и нейната принадлежност
- характеристика на изделието или услугите
- предназначението на изделието
- наличието на илюстративен материал
- езиците на които е написан документа
Анотацията на не книжните документи включва пряка характеристика на съдържанието, вида на носителя, езика, времето за актуализация, предназначението й, начините на разпространение, цената.
30. Автоматизирано анотиране
Съдържателите на каналите за оповестяване на различна информация, средства за разпространяване новини, започват да изпитват засилен интерес процесите на автоматизирането на анотиране. Често не само изискванията да се даде възможност за бърз преглед на съдържанието но и желанието да не се нарушат автоматизираните права са причина пълните текстове на документа да се заменят с техните анотации. Целта на потребителя е бързо да прегледа големи документи изчитайки техните кратки анотации. Как се съставя автоматизирано анотиране. Всички известни системи за машинно анотиране се основават на принципите на екстрахирането т.е. на извличането на информация от текста. Програмата не преразказва текста, а извлича онези фрагменти които смята за важни и ги обединява в анотация.
Същността на автоматизираното анотиране се състои във формиране на крайно описание на основните теми на текста. Съществуват два подхода за автоматизирано анотиране. В първия случай се извличат не голям брой изречения, съществуващи в текста които най – пълно отразяват основните теми и микро теми на текста. В тях трябва да се съдържат и ключови думи. Ако липсват те се извличат от текста. Във втория подход от текста се извличат мисли. Тези мисли се подреждат в изречения и тези изречения правят нов текст наречен анотация. Втория вариант е значително по – сложен. SomeP технологията позволява автоматичен синтез на кратки, прости фрази и изречения. Като цяло задачата на автоматизираното анотиране е определяне на тематиката на документа, извличане на ключови думи и изрази с оглед на смисъла, търсене на изрази съдържащи ключови думи и фрази и изречения отразяващи основните теми на текста. Най – развитите средства за анотиране се отчита зависимостта на изреченията едно друго, за да се получи текста свързан, програма подбира групи взаимосвързани изречения, а след това “ги залепва” едно за друго. Все още слабо звено в автоматизираното анотиране е синтактичния разбор и използване на тезаурос (речник на термини в определена област). Автоматизацията на процесите на анотиране в България се движи в унисон със световните тенденции. Европейският съюз в областта на програмите за информационно общество, разработва проект. Първа част от който е посветена на автоматизираното анотиране на документи. Тази част е фокусирана върху метода използван за описване и анотиране на електронната информация. Чрез използване на семантични техники потребителя ще може да ограничи резултатите до темата която търси в момента. Консорциум от водещи европейски университети в момента разработват нови методи за анотиране на информация които се основават на управлението на мета информацията. Софийският университет е разработил автоматична информационна система “Архив” предназначена за съхраняване и обработване на архивни документи с неограничена тематика и предоставяне на потребителите на документи от архива по техни характеристики. Като обекти, тематика, ключови думи и др. Информацията може да бъде въвеждана и извеждана по следните начини в интерактивен режим, чрез сканиране на печатни материали и от текстови масиви. При въвеждането на информация се осъществява формален и логически контрол на данните, за да се осигури коректната им обработка. Електронната система библиотека се разработва с цел новите книги да бъдат по най - бърз начин представяни с помощта на автоматизираното анотиране. Тя е създадена за работа в среда на операционните системи Unix, Windows, а системата за управление на бази данни е поверена на релационна система, като Oracle. Въвеждането на данните за изданието включва анотиране. Според тяхното класифициране и потребителски номенклатури. Във физическия факултет на СУ е създадена програма за автоматично анотиране “Annotate” с която всички документи във факултета се представят с техните кратки анотации. От началото на 2001г. немската фирма Немечек предоставя на България системата за управление на електронни документи. “DocuWare” е ориентирана към средни и големи фирми. Софтуера осигурява въвеждане, сканиране, конвертиране, индексиране, извличане на информация, отпечатване и издаване на най – разнообразни документи.
31. Автоматизирано рефериране и квазирефериране
Реферирането се смята за сложна интелектуална дейност, насочена към смислово преобразуване на съдържателната информация на текста и за това тя се обработва от системите за семантичен анализ на информацията. Работата на системите за автоматизирано рефериране се основава на формализация на процесите при семантичното свиване на информация като се отчитат процесите на декодиране на семантиката на първичният документ. В научните текстове семантиката изобразява някакви фрагменти от системата на знанията, където присъстват общи устойчиви елементи на ситуациите и основните отношения между тези елементи, за това методите на автоматизираното рефериране се базират на разкриването и отделянето на основните и инвариантните елементи от съдържанието на текста. Под автоматизирано рефериране се разбира машинното преработване на машинни текстове, при което от тях се отделят изречения отразяващи основния смисъл на съдържанието. Този набор от изречения не е истински реферат, за това се говори за квазирефериране. Автоматизираното рефериране се основава на статистическия анализ на текста и се провежда по различни методики.
- оценка на степента на значимост на изречението която се изразява като отношението на квадрата на броя на значимите думи в изречението към общия брой думи в изречението, където S е оценката на степента на значимост, М е броя значими думи, а N е общия брой на думите в изречението
- оценка на степента на значимост на изречението изчислена като най – голям брой срещащи в тях еднакви значими думи, като се отчита честотата на употребата на отделни значими думи.
- оценка на значимостта на изречението изразена като честота на употребяването на влизащите в тях значими думи.
Познати са няколко метода за автоматизирано производство на индикативни реферати на статии:
- метод използващ принципа на местонахождението, който предполага че информацията в изречението може да се отнесе към неговото място в статията и се приема че най – важни са първите изречения на абзаците, особено на уводния абзац
- използващ индикативни словосъчетания, като целта на статията се състои във, целта се определя, в заключение може и т.н.
- честота на ключови думи
- честота на използването във изреченията на думи от заглавието на статията, от подзаглавието или рубриките.
Състоянието на работите по автоматизираното рефериране се характеризират по следния начин:
- създаването на машинни реферати се основава на извличане на отделни изречения от текста на първичния документ
- автоматизираното рефериране се основава на статистически критерии, разкриване на ключови думи, наличието на определени елементи в изречението разположени в началото или в края на параграф или раздел, логически връзки на изреченията в текста
- съществуващите методи за автоматизирано рефериране все още не дават удовлетворителни резултати, най – перспективният поне за сега се смята лингвистичния при чието усъвършенстване се цели използването на перефразиран текст и изучаване ролята на контекста в определени информационни концепции.
В момента около 37% от базите данни са реферативни. Реферативните бази данни могат да се разделят по организационно отраслов признак на следните две групи. Политематични които обхващат много области на знанието и чиито представите ли са базите данни Винеги и Bulletin Signalitique. Или реферативни бази за патенти от различни страни. Втората група са тематични или специални които обхващат само една област на знанието. Представите ли са Chemical, Byological, Physical, Abstracts. Предимствата на реферативните бази данни и на електронните версии на реферативни издания са:
· икономия на хартия
· по – малка стойност на съхранението
· изключваме разходите по подвързване на печатните версии
· по ефективно обслужване и увеличаване фонда на електронните документи
· възможности за многовариантно обслужване.
32. Проблеми и постижения на автоматизирането на реферати
Експериментите се основават на екстраполация т.е. на правила разработени за определени групи от текстове към текстове от друга тематика. По настоящем всяка система включва два задължителни компонента. Специален речник наречен списък на контролните думи, съставен от текстове по изследваната тематика и набор от правила за обединяване на думите от този речник. Останалия текст представлява екстрак наречен машинен реферат. Операциите за съставянето на такъв реферат са:
- четене на документ
- анализ
- прилагане на правилата за набор от думи
- съставяне на реферат
- възпроизвеждане на реферата във вид на текст
Цялата съвкупност от проблемите по автоматизирането на процесите на реферата се концентрират в три групи от методи.
1 група – статистически методи които се основават на статистически анализ на текста. Към тази група от методи се отнасят Лун, Осуалд и метода на статистическите асоциации
2 група – логико математически методи които се прилагат при индикативното рефериране. Те се основават на логическото поставяне на текста и са известни като метода на ключовите думи, метода за заглавието и др.
3 група – лингвистични методи които се основават на изследване на лингвистиката и семантиката на текста и разработване на специални алгоритми за извличане на сведения с помощта на речник индикатор. Всички съществуващи алгоритми за рефериране се основават на избора на готови изречения от текста които съдържат най – голям брой често срещани понятия. По такъв начин информационния приоритет на документа се разкрива под формата на последователности от цитати подбрани от първичния документ. Наличието на мрежа от понятия и свързани глаголи позволява да се формулират основните идеи на текста във вид на прости изречения.