<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>левски &#8211; Блогът на Юруков</title>
	<atom:link href="https://yurukov.net/blog/tag/%d0%bb%d0%b5%d0%b2%d1%81%d0%ba%d0%b8/feed/" rel="self" type="application/rss+xml" />
	<link>https://yurukov.net/blog</link>
	<description>Нещата които искам да споделя с другите</description>
	<lastBuildDate>Mon, 26 Nov 2012 16:01:05 +0000</lastBuildDate>
	<language>bg-BG</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>
<site xmlns="com-wordpress:feed-additions:1">1096121</site>	<item>
		<title>Какво може да научим от няколко милиона книги</title>
		<link>https://yurukov.net/blog/2012/5-miliona-knigi/</link>
					<comments>https://yurukov.net/blog/2012/5-miliona-knigi/#comments</comments>
		
		<dc:creator><![CDATA[Боян Юруков]]></dc:creator>
		<pubDate>Mon, 26 Nov 2012 16:01:05 +0000</pubDate>
				<category><![CDATA[Идеи]]></category>
		<category><![CDATA[Технологии и Интернет]]></category>
		<category><![CDATA[google books]]></category>
		<category><![CDATA[ngram]]></category>
		<category><![CDATA[батак]]></category>
		<category><![CDATA[графики]]></category>
		<category><![CDATA[данни]]></category>
		<category><![CDATA[езици]]></category>
		<category><![CDATA[книги]]></category>
		<category><![CDATA[левски]]></category>
		<category><![CDATA[литература]]></category>
		<category><![CDATA[освобождение]]></category>
		<guid isPermaLink="false">http://yurukov.net/blog/?p=12722</guid>

					<description><![CDATA[Представете си, че може да прочете няколко милиона книги на няколко езика от последните няколко стотин години. Какво бихте научили от тях? Проблемът е, че това е невъзможно &#8211; нито ще ни стигне времето, нито ще можем да съберем и осмислим цялата тази информация. Преди години няколко асистента в Харвард заедно с Google са решили...]]></description>
										<content:encoded><![CDATA[<p>Представете си, че може да прочете няколко милиона книги на няколко езика от последните няколко стотин години. Какво бихте научили от тях? Проблемът е, че това е невъзможно &#8211; нито ще ни стигне времето, нито ще можем да съберем и осмислим цялата тази информация. Преди години няколко асистента в Харвард заедно с Google са решили да направят нещо по този въпрос. Използвали са огромната база данни от милиони сканирани книги на Google и са пуснали данни за честотата на използвани фрази. Фразите могат да бъдат от една или повече думи и за всяка се пресмята през коя година колко пъти е била споменавана в изданията на различни езици. Така получаваме таблица с няколко милиарда реда. След това са направили инструмент, с който всеки може да анализира данните. Повече за N-gram проекта може да видите в <a href="http://www.youtube.com/watch?v=5l4cA8zSreQ" target="_blank">тази</a> и в <a href="http://www.youtube.com/watch?v=RkTE1LZ_tLk" target="_blank">тази</a> TED лекции. </p>
<p>В инструмента можем да избираме езици, периоди, термини, както и да сравняваме няколко такива. Графиката ще покаже и процентното отношение на книгите, които споменават зададените фрази спрямо всички издадени през дадената година. Точните проценти обаче не са важни, а сравнението между годините. Реших да изкарам седем графики, за да илюстрирам интересни факти от историята ни. За жалост нямат данни на български, но за нас английската и руската литература би била също интересна.<br />
<span id="more-12722"></span></p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/rus_bulg-1.png" rel="lightbox[ngram]"><img fetchpriority="high" decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/rus_bulg1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Горната графика показва споменаването на &#8222;Болгария&#8220; в руската литература. Ако погледнете <a href="http://books.google.com/ngrams/graph?content=%D0%91%D0%BE%D0%BB%D0%B3%D0%B0%D1%80%D0%B8%D1%8F&#038;year_start=1800&#038;year_end=2000&#038;corpus=25&#038;smoothing=2&#038;share=" target="_blank">данните на Google</a>, ще видите, че преди 1810 практически не се говори, има засилване около 1925, малък скок около освобождението и доста големи около световните войни. </p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/en_bulg_mac-1.png" rel="lightbox[ngram]"><img decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/en_bulg_mac1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Следва споменаване на България и Македония <em>(в червено)</em> в английската литература. Вижда се как популяризирането на гръцката история в началото на 19-ти век води със себе си споменаване на регионът Македония. В този случай е трудно да се прецени контекста, в който се споменават имената. Вижда се обаче ясно пиковете на споменаване на България спрямо Македония. (<a href="http://books.google.com/ngrams/graph?content=bulgaria%2Cmacedonia&#038;year_start=1800&#038;year_end=2000&#038;corpus=15&#038;smoothing=2&#038;share=" target="_blank">оригинална графика</a>)</p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/de_bulg_rom-1.png" rel="lightbox[ngram]"><img decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/de_bulg_rom1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Тук виждаме споменаването на България и Румъния на немски език. Румъния е в червен цвят, а Walachei, както са наричали държавата в началото &#8211; жълт. Въпреки, че съседката ни се е освободила доста по-рано от нас, изглежда ние сме имали по-голяма видимост предвид размера на страната до войните. След това в немската литература се говори доста повече за Румъния, отколкото за България. (<a href="http://books.google.com/ngrams/graph?content=Bulgarien%2CRum%C3%A4nien%2CWalachei&#038;year_start=1840&#038;year_end=2008&#038;corpus=20&#038;smoothing=3&#038;share=" target="_blank">оригинална графика</a>)</p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/en_batak-1.png" rel="lightbox[ngram]"><img loading="lazy" decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/en_batak1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Следва споменаването на Батак в английските издания. Вижда се ясно пикът около Баташкото клане и няколко скока около войните в началото на 20 век. Забелязва се силно покачване в началото на комунизма и стабилно намаляване от началото на 90-те. (<a href="http://books.google.com/ngrams/graph?content=Batak&#038;year_start=1850&#038;year_end=2008&#038;corpus=15&#038;smoothing=3&#038;share=" target="_blank">оригинална графика</a>)</p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/en_varna_burgas_plovdiv-1.png" rel="lightbox[ngram]"><img loading="lazy" decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/en_varna_burgas_plovdiv1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Следва сравнение между Варна (синьо), Бургас (червено) и Пловдив (жълто). Като важен морски град за Варна се е говорило много повече от останалите. За сравнение Пловдив изглежда е бил почти непознат. Възможно е изкривяване на данните, ако има други градове с такова има или има известно женско име Варна. (<a href="http://books.google.com/ngrams/graph?content=Varna%2CBurgas%2CPlovdiv&#038;year_start=1700&#038;year_end=2008&#038;corpus=15&#038;smoothing=3&#038;share=" target="_blank">оригинална графика</a>)</p>
<p style="text-align:right"><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/en_levski-1.png" rel="lightbox[ngram]"><img loading="lazy" decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/en_levski1-1.png" width="400" height="276" style="margin:0 25px;"/></a><a href="http://yurukov.net/blog/wp-content/uploads/2012/11/ru_levski-1.png" rel="lightbox[ngram]"><img loading="lazy" decoding="async" src="http://yurukov.net/blog/wp-content/uploads/2012/11/ru_levski1-1.png" width="400" height="276" style="margin:0 25px;"/></a><small>Натисни за по-голям размер</small></p>
<p>Последните две графики са споменаването на Левски на английски (горе) и на руски език (долу). Вижда се, че на руски се споменава няколко пъти малко след смърта му, докато на английски има споменаване дори докато е жив. Докато на руски има няколко сериозни скока през &#8217;50 и &#8217;70, на английки се говори от по-рано за него (вероятно в обзори и анализи) и става по-известен през &#8217;70 и &#8217;80. (оригинални графики на <a href=" http://books.google.com/ngrams/graph?content=Levski&#038;year_start=1840&#038;year_end=2008&#038;corpus=15&#038;smoothing=3&#038;share=" target="_blank">английски</a> и <a href=" http://books.google.com/ngrams/graph?content=%D0%9B%D0%B5%D0%B2%D1%81%D0%BA%D0%B8&#038;year_start=1870&#038;year_end=2008&#038;corpus=25&#038;smoothing=2&#038;share=" target="_blank">руски</a>)</p>
<hr/>
<p>Интересно ще бъде да се сравнят тези термини на френски, който до средата на 20-ти век е основният международен език. Още по-интересно ще е да се сканират всички книги, вестници и списания в Националната библиотека и да се изкара подобна графика. </p>
<p>В лекциите на TED, които споменах в началото, се говори и за индекс на цензура. Той се изчислява като се съберат отклоненията на различни автори на даден език. Тезата е, че когато има силен спад в отпечатаните творби на един автор или споменаване на определена фраза в даден период на даден език, то най-вероятно е имало цензура. Ако има силен скок &#8211; то най-вероятно има пропаганда. Така може да се изчисли средно за езика дали е имало много пропаганда или цензура. Там сравняват немския и английския. Интересно ще е да видим това за българския и руския.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://yurukov.net/blog/2012/5-miliona-knigi/feed/</wfw:commentRss>
			<slash:comments>6</slash:comments>
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">12722</post-id>	</item>
	</channel>
</rss>

<!--
Performance optimized by W3 Total Cache. Learn more: https://www.boldgrid.com/w3-total-cache/?utm_source=w3tc&utm_medium=footer_comment&utm_campaign=free_plugin

Page Caching using Disk: Enhanced 
Minified using Disk

Served from: yurukov.net @ 2026-06-19 13:48:39 by W3 Total Cache
-->