Aslında Haziran'a kadar bekleyip Araştırma Günlüğü IV'ü yayınlayıp neler yaptığımı ve sonuçta neler çıktığını anlatıp dönemi kapatacaktım ama bloga gelen 'Bekletip yazınca detaylı yazmıyorsun.' yorumunu haklı buldum ve kronolojik sıraya da bağlı kalarak bir ara yazı yazmak istedim.

Yani bu yazıda önceki yazıya göre daha detay olacak ve iki ayda yaptıklarımı yazacağım. Ama "Sonuç olarak şu çıktı şeklinde bir ifade olmayacak."

Öncelikle burada nasıl çalıştığımdan bahsedeyim: Benim üzerinde odaklanarak çalıştığım bir tane proje var. Bir de üzerine çalışmak istediğim ama zamanım olmadığından yapamadığım projeler var. Bunlardan biri Rus Trolleriydi, ilk 1.5 sene yavaş yavaş götürdüm ama öğrenci bulamadığım için şimdilik askıya aldım. Öbür projelerimi ise 2. sınıfın 2. döneminde öğrencilere dağıttım. İki tanesini öğrenci projesi olarak verdim. Bunlara "Dönem projesi." deniyor. Kredisi normalden biraz daha fazla oluyor, haftada 12 saat çalıştırma gerektiriyor. Mastır projesi ise bildiğin tez, bitirmeden önce yazıyorsun kurtuluyorsun. İki tane öğrenci projesi bir tane mastır tezi verdim, biraz abarttım sanırım. Kendim üzerinde aktif çalıştığım ise Sarı Yeleklilerin Analizi.

Sarı Yelekliler Analizi

Data Mining Nedir?

"Data mining" yani veri madenciliği işlenmemiş veriyi işleyip ondan anlamlı sonuçlar çıkarmaktır. (Madencilikle kurulan harika ilişkiyi çaktınız umarım :P) Örneğin elinizde dünyadaki her koordinat için her saniye sıcaklık değeri var ve son yüz yılı kapsıyor. Hayvan gibi veri var elinizde yani. Amma salladım. Neyse. Bu tip bir verinin içine bakarak hiçbir şey yapamazsınız. Ama örneğin saniye - derece şeklinde olan veriyi yıl dereceye çevirirseniz (o yıldaki tüm derecelerin ortalamasını alarak) sonra da yıl derece grafiği çizerseniz ortalama sıcaklığın her sene arttığını görebilirsiniz. Üzerine daha da şov yapıp her senenin ortalama derecesini bir önceki seneden çıkarıp farkı grafikleyip "Küresel ısınma vardır!.." sonucunu çıkarabilirsiniz.


Atıyorum sonuç beklediğiniz gibi çıkmadı, bir artış, hemen pes mi edeceğiz? Hayır, eleştirel düşünce önemli. Belki dünyanın bazı yerlerde küresel soğuma var ama bazı yerlerin ısınması sorun teşkil ediyor. Kutup bölgelerinin sınırlarının koordinatlarını bulup, verinizde bu koordinat sınırlarının içinde olan koordinatlar tutulacak şekilde filtreleyip sadece kutuplardaki sıcaklık artışına bakabilir "Her yer ısınmasa bile kutuplar ısınıyor, bir şeyler yapmalı!" diyebilir, aynı şekilde soğuyan yerlerin koordinatlarına bakıp haritada neye denk düştüklerine bakıp "La burada napıyorlar lo" diye derin düşüncelere dalabilirsiniz.

Veride bir saat içinde 20 dereceden -20 dereceye düşmüş bir yer bulup "Buraya Thor'un çekici mi düşmüş nolmuş." diyip daha fantastik işlere de girişebilirsiniz pekala.

Veri madenciliği bu. Büyük veri içindeki gizli bilgileri, kalıpları falan bulmak, bulduktan sonra bilimsel yollarla harbiden bir şey bulduğunu kanıtlamaktır.

Benim asıl yaptığım şey ise veri analizi. Veri madenciliği veri analizinin alt kümesidir. Veri analizi veriyi çekme, temizleme, veritabanına atma gibi beyinden çok sabır gerektiren amele işleri kapsar. Zamanımın %90'ı da bu tip işlere gidiyor malesef.

Analiz Günlüğü

Veri madenciliğini seviyorum. Geçen dönem asistanlığını yaptığım dersin projelerini zevkle okudum. Grafiklere hayran hayran baktım. Bunu sonra uzun uzun yazarım ama epey beğendiğim bir tane projeyi paylaşayım: https://valstrl.github.io/ADA_Data_Story/

Seviyorum dedim ama daha önce hiç yaptığım bir şey değil. Şimdiki aklım olsa bana ilk sene verilen datayı projeyi yapmadan önce analiz ederdim. Ama tabii bu mümkün değildi çünkü analiz yapmayı bilmiyordum :) Sınıflandırma yaptık parametrelerle oynadık durduk, öğrenmeye de çalışmadık da.

Dolayısıyla bu benim ilk veri analizim olacaktı. Veriye sorular soracaktım (sorgu gönderecektim) ve anlamlılar cevaplar bulmaya çalışacaktım. Anlamlı cevapları toplayıp makale basmaya çalışacaktım. Daha önce Brexit ile alakalı bir veri analizi raporu okumuştum adamlar "Bu rapor için 90 tane jupyter notebook açtık, bir çoğu çıkmaza girdi bir şey çıkaramadık." yazmışlardı. Yani doksan birim analiz yapmışlar ki ben günde bir, taş çatlasın iki analiz falan yapabiliyorum. Önümde uzun bir yol ve bir deadline var, 3 Haziran!

Kutuplaşma ve Taraflar

İlk yaptığım şey muhabbet kutuplaşmış mı ona bakmak oldu. Kutuplaşmış bir Sosyal ağ şöyle bir şeydir:



Sarı Yelekliler durumunda ise gördüğünüz gibi muhabbet kutuplaşmamış ama koyulaşmış:



(Fransızlar ortadaki kısım. Dıştaki turuncu mavi noktalar falan dış ülkeler / dış güçler)

Fakat sonra veriyi hafta hafta ayırınca aynı grafiği yakalamadığımı gördüm. Örneğin sıradan Fransız vatandaşlarının akrabalarıyla buluşup "Nerede o eski Noeller" dedikleri aralık sonu ocak başında (olsa da yesek) bu grafikte ortada bulunan üyeler azalıyor, sadece kutuplaşmış bireyler geriye kalıyor.  Demekki veriyi ne zaman çektiğimiz önemli. Kutuplaşma belirli zamanlarda oluyor ama hangi zamanlar? Bu da bir başka projenin konusu.

Kutuplaşmış bir tartışmada iki tane taraf olur, ama burada üç hatta dört taraf? Bir tanesi sarı yelek yanlıları, öbürü de karşıtları. Peki geri kalan iki grup neydi?

Aslında Sarı Yelekliler yanlıları tek grup değildi, iki gruptu. Bir tanesi aşırı sağ hesaplarla ilişkili, daha kızgın bir gruptu. (Resimde kırmızı) Macron *** git buradan ağızlarından eksik olmuyordu. Marine Le Pen de bu grupta söz sahibi bir kardeşimizdi. Öbür sarı yelek yanlıları grubu ise aşırı sol tandanslı bir gruptu. (Resimde yeşil) (Bu arada çok güzel bir kelime tandans) Başkanları da Boyun Eğmez Fransa partisinin  Melenchon Dikbaş idi. Bu iki grubun kullandığı hashtaglere baktım, birinci grup Acte IV, X-V gibi hashtaglerde daha etkinken öbür grup Acte IX, X 'te daha etkiliydi. Yani aşırı sağcı grup protestolara daha önce kapılmıştı. Biraz iki grubun tweet atma tarihlerini karşılaştırınca aşırı sağcıların protestolardan önce de aktif olduğunu gördüm. Bu demektir ki Sarı Yelek harekatının kökeni aşırı sağdı. İşte bu önemli bir bulguydu çünkü kimse bu hareketin hangi zihniyetin ürünü olduğunu tam olarak bilmiyor.

Dördüncü tarafa gelelim. (Resimde siyah) Bu kısım komik. Elimdeki "Kişi sarı yelek yanlısı mı değil mi sınıflandırıcısı"na göre dördüncü taraf tarafsızdı. Kullandıkları hashtaglere baktım, hashtag de kullanmıyorlardı. Partici liderleri de yoktu.

Bu gruptaki en çok retweet alan hesaplara baktım ve Zaytung benzeri bir hesapla karşılaştım. Sarı yeleklilerle ilgili espiriler falan paylaşıyor. Bir de giyim dükkanı vardı sarı yelek satan. Böyle alakasız hesaplar, çoğu parodi hesap. Siyasetle bir alakası yok. Bizim hoca data toplarken içinde Sarı Yelek geçen ne var aldığı için bunlar da araya karışmış. asdas. "Lafrans kiri" yani "Gülen Fransa" koydum bu grubun adını.

Radikalleşme ve Nefret Söylemleri

Sarı Yeleklilerin kurucularından biri "Hareketin ucu berbat bir yere çıktı, radikaller gaspetti protestoları." diye bir demeç vermişti. Ben de öyle mi anlamak için şöyle bir düz mantık kullandım: "Radikaller daha negatif konuşur, kutuplaşmış hashtagleri daha fazla kullanır ayrıca tweet atan üyelerin kutuplaşma skorlarının standart sapması artar yani insanlar ya çok anti sarı yelek ya da çok pro sarı yelek diye ayrılı." Baktım günden güne sentiment düşüyor mu, kutuplaşmış hashtagler artıyor mu, kutuplaşma skorları değişiyor mu ama herhangi bir önemli bulgu bulamadım. Hatta tersine muhabbet yumuşuyor gibiydi.

Ama hocam şöyle bir şey bulmuş: protestolara kadar kullanılan nefret söylemi içeren tweet sayısı giderek artıyor. Hocam veriyi Macron kelimesini çektiği için muhtemelen bütün küfürleri Macron yiyordu. Yani Macron'a küfürler protestolar yaklaştıkça artıyordu. "Belki de nefret söylemi bir protestonun habercisi olabilir." diyordu hoca. Bu bana bir fikir verdi.

Bence nefret söylemi değil de hükümet eleştirileri bir protestonun sinyalini verebilirdi ve bunun için zaten geçmişte dolu örnek vardı. Gezi olaylarını çevreciler başlatmıştı ama muhalif kesimde polislerin aşırı reaksiyonlarına karşı bir hoşnutsuzluk geziden önce de vardı. Burada da benzer bi olay mı oldu? Protestoyu başlatanların protestolardan önce derdi neydi? Belirli bir grup protestolardan önce daha mı aktifti. Belirli bir zihniyetin hoşnutsuzluğu mu yol açtı protestoculara?

20,000 tane kullacının son 3200 tweetini çektim (bayağı uzun sürdü). Bu tweet denizinden hükümet ve hükümet politikalarını ilgili olan tweetleri çektim ve içlerinden rasgele birkaç tweet aldım. Halka (sadece benden oluşan bir halk) sordum "Sizce bu tweet hükümet ve onun politikalarını eleştiriyor mu?"

Cevap: "Tweetin hükümetle bir alakası yok." Hükümet ve hükümet politikalarıyla ilgili tweetleri çekmek o kadar kolay değilmiş çünkü.

Verilen bir Tweetin politikayla alakalı olduğunu nasıl anlarız? Bu çözmesi o kadar da kolay bir problem değilmiş. Başlı başına bir proje bu. İlk aklıma gelen politik olduğuna emin olduğum tweetlerle politik olmadığına emin olduğum tweetleri yapay zekaya verip ona öğretmekti. Politik olduğuna emin olduğum tweetler politikayla alakalı olduğuna emin olduğum hashtagleri bulup o hashtagleri içeren tweetleri alarak bulmuştum, Örneğin "Kahrolsun Macron #YaşasınSarıYelekliler" bu tip #YaşasınSarıYelekliler içeren tweetleri çekip içinden, tabii #YaşasınSarıYelekliler kısmını silip makineye atıyordur, makine de "Macron" kelimesinin politikayla alakalı olduğunu öğreniyordu.

İşin politika kısmı kolaydı da politikayla alakasız tweetleri bulmak zordu. İnsan durup dururken hashtag kullanmaz sonuçta. "Hava bugün ne güzel kuşlar böcekler #HavaGüzel" diye tweet atmazsınız değil mi? Bunun için daha büyük bir datasete ihtiyacım vardı. Ben de hocanın İsviçreliler datasetini çaldım. Epey tweet çıktı şansıma. Dandik bir sınıflandırıcı yazdım, verilen tweet politikayla alakalı mı değil mi %90 ihtimalle tutturuyordu. Ne güzel. Fakat kendim elle sonuçlara bakınca pek de iyi olmadığını fark ettim.

Uzun uzun yapay zeka yazmama vakit yoktu. Makale yazabilmem için 1.5 ayım vardı. Ben de diğer araştırmacıların yaptığı gibi anahtar kelime kullanarak tweet bulma yoluna gitmeye karar verdim.

Tam da burada kaldım. Gerisini haziranda yazacağım.

Ders Çalışmamak İçin Yapılan Anlamsız Projeler

Sarı yelekliler analizini yaparken enteresan bir şey fark ettim. Yukarıda gördüğünüz resimdeki sosyal ağ kutuplaşmış değil. Ama bu sosyal ağdaki kullanıcılar tweetleri sarıyelek, macron gibi çok genel kelimeler içeren kullanıcılardan oluşmuş. Fakat sadece #SarıyYelekliler hashtagini kullanan kullanıcıları çekerseniz ortaya başka bir sosyal ağ görüntüsü çıkıyor:


E bu ne şimdi? Bilim yapıyoruz burada, veriyi alıp belirli metotlar kullanarak "Kutuplaşma vardır / yoktur" diyoruz. Veriyi azıcık değiştirmenin bütün sonuçları kökten değiştirmemesi lazım. Veri filtreleme metodu bütün sosyal ağı değiştiriyorsa bunda bir bit yeniği var.

Başka bir nokta da sosyal ağdaki şüpheli hesapları silince ağın daha az kutuplaşmış gözükmesi. Çünkü sosyal ağdaki şüpheli hesaplar genelde uç noktalardalar. Yani adam salmış botları Twitter'a, botlar da sarı yeleklileri körükleyici paylaşımlar yapıyor. Biz de "Bu sarı yelekliler ne pis adamlar bak ne paylaşıyorlar." diye oyuna geliyoruz.

Sarı ve pembe noktalar saptadığım şüpheli hesaplar. Noktalar kullanıcılar, bir kullanıcı ne kadar aktifse noktası o kadar büyük oluyor.

Bunların şüpheli olduğuna nasıl karar verdiğimi bir dahaki yazımda anlatacağım.


Gördüğünüz gibi ağın Sarı Yelekliler tarafı sarı sarı botlarla dolu.

Geçen dönem yaptığım İsviçre referandumuyla ilgili sunumda da şunları bulmuştum: İsviçre sosyal ağı referandum konusunda kutuplaşmıştı ama sosyal ağdakiler genelde zaten kutuplaşmış olan politikacılar falandı. Halk referandumu pek sallamıyordu. Dolayısıyla halkın kutuplaştığı falan yoktu. (Zaten oylama sonucu %70 - %30 idi, böyle kutuplaşma mı olur ahaha) Bir de İsviçre sosyal ağında kimin hangi grupta olduğuna karar veren kimin hangi partiyi tuttuğu değil hangi dili konuştuğuydu.

Bu yazıyı yazmadan üç gün önce çarşamba günü metroda okula giderken Twitter'ı karıştırıyordum. (Kullanmıyordum ama sırf bu işe başladıktan sonra kullanmaya başladım zıkkımı.) Baktım bizim okulda postdoc olan ama şimdi MIT'e giden bir eleman Zürih'e sempozyuma geliyormuş ders vermeye. Baktım sempozyuma, eylülde imiş. Sempozyum konferans dandik versiyonu gibi bir şey. Makale istemiyorlar, ama uzun abstract (özet) istiyorlar. Teslim tarihi bugün, yani üç gün sonra. O tarihlerde tatil planı yapıyordum, çok da önemli bir şey sempozyum fakat konumla da birebir uyuşuyor. Ne yapsam bilemedim. Lab toplantısında arkadaşlarıma danıştım. "Orada tanışacağın önemli kişiler var gibi mi?" dediler. Baktım, pek yok gibiydi. Sonra hoca geldi. Bahsettim durumdan. "Yolla bir şeyler." dedi. Çok da sallamadı. Yine de Zürih'te olan ve birebir kendi konum olan bir etkinliğe tatil bahanesiyle gitmemenin aptalca olduğunu düşünüp bir şeyler göndermeye karar verdim. Tatil planımı da ağustosa aldım.

Yukarıda bahsettiğim şeyleri, yani kutuplaşma yok da algoritmalar bize varmış gibi mi gösteriyor, algoritmaların hesaba katmadığı şeyler neler hepsini yazdım. Pek bir sonuç koyamadım, bir şey hesaplamaya zaman yoktu. Gönderdim. Haziranda kabul haberi gelecek. Bakalım ne olacak.

Öğrenci Projesi: Ünlüler Kutuplaşmayı Azaltabilir mi?


Bu projenin başlığı “Can celebrities burst your bubble?” doğrudan çevirisi “Ünlüler balonunuzu patlatabilir mi?”. Bir şey anlaşılmıyor açayım: şimdi atıyorum benim yakın çevrem hep A partisini destekliyor, B partisini destekleyen kimse yok. Dolayısıyla ben hep A partisinin fanlarının paylaşımlarını görüyorum ve B partisinin yandaşlarının argümanlarından bihaberim. (Türkiyeyle analoji kuruyorsanız kurmayın durduk yere başım derde girmesin. :P) Dolayısıyla ben bir balona hapsolmuş vaziyetteyim. Ama şöyle bir durum var, ben A partisi yandaşları olan ve siyasi paylaşımlar yapan kişiler yüzünden balondayım, ama benim çevremde ne şiş yansın ne kebap takılan nötr tipler var. Bu tipler insiyatif alıp ara buluculuk yapsalar, iki tarafın da görüşlerini falan aktarsalar ve insanları sağ duyuya davet etseler hem ben balondan çıkmış olurum hem de kutuplaşma azalır. Tabii her insan evladının arkadaş çevresinden bir kişi seçip ona bunu yapmasını öğütleyemeyiz, bu ulvi görevi yerine getirecek kişi sayısı az, bir bilemedin iki kişi böyle bir yükün altına girer. Dolayısıyla en fazla kişiye ulaşacak kişileri seçmeliyiz, yani ünlüleri (tabii sonra adamları nasıl halka seslendireceğiz onu henüz çözemedim)

Konuyla ilgili bir medium makalesi. Proje fikrini bu makaleyi görmeden önce ortaya atmıştım. Çalmış gibi olduk. Neyse referans veririz.

Projeyi öğrencime anlattım. Önce büyük resmi görsün diye datayı verdim, görselleştirdim, görselleştirme programını öğrettim falan. Sanırım bu kısımla biraz fazla vakit kaybettik çünkü bunları öğrenmesi uzun sürdü ve bunları öğretmek yerine kendim iki dakikada gereken görselleri çıkartıp makaleye yazabilirdim. Ama en azından kız ne yaptığını anladı bu da bir şey. Bir de verdiğim verideki (ki o da hocanın bana verdiği veri) acayip kutuplaşmış çıktı, ama öyle böyle değil. Şöyle bir şeydi:

Bu benim elimdeki diğer veriler gibi değildi, bir anormallik vardı. Sonra anladım ki hocanın veriyi toplama yöntemi neden olmuş bu görüntüye. Sempozyuma gönderdiğim çalışmaya malzeme çıktı yine.

Konumuza dönersek, sonra kutuplaşma katsayısı hesaplayan bir kod gönderdim al dedim bunu öğren (sonra bana öğret 😄 ki ben de öğrenmekle uğraşmayayım.) tamam dedi. Bunu çözmesi neyse ki aşırı vakit almadı ama anlaşılan kodu yazan pek beceriksiz biriydi ki kod çok yavaş çalışıyordu. Kendi verimizi kullanıp hesaplama yapmayı denedik ama bitecek gibi değil. Sonradan fark ettim ki meğerse çalışmayı yapan adam kodla beraber veriyi de yayınlamış hatta (sanırım Twitter kurallarını delip) bize gereken sosyal ağı da vermiş. Böyle olunca her şey çok kolay oldu tabii. Dedim sen bu hazır sosyal ağları indir, en küçüğünü al ilk testleri orada yapalım.

Başladık test yapmaya. Kıza birkaç tane taslak önerdim. Bunları test et, bakalım bunları ekleyince kutuplaşma azalıyor mu. Bunlar:
1- Bol followerlı birinin (ünlünün) politik bir şeyler paylaşarak politik tartışmaların döndüğü bir sosyal ağa girmesi sosyal ağdaki kutuplaşmayı azaltır mı?
2- Sosyal ağdaki iki kutup arasında bulunan birine follower kazandırarak (bir bakıma onu daha ünlü yaparak) kutuplaşmayı azaltabilir miyiz. 
3- Yine bol followerlı ama followerları tek bir kutuba ait olan biri o kutupa aykırı bir şey söylerse ve karşı kutuptan destek alırsa kutuplaşma azalır mı?

Tabii bunları yaptıktan sonra sonuçlar ne olacak onun deneyini yapmak lazım da (örneğin kişi followerlarına bay mı diyecek, olay geri tepecek mi vs.) o raddeye gelemedik henüz.

Kız birkaç tanesini kodladı ve denedi. Çalışıyor gibiydi. Grafik falan çıkardı. Tam o anda “Ben yazın evleneceğim düğün hazırlığı yapmam lazım.” diyip Sırbistan’a gitti. Bir hafta takıldı. 

Döndü. Grafik aşamasındayız hala. Amacımız “Sosyal ağa giren kişi ne kadar popüler ve ne kadar ortaya yakın (yani politik olarak nötr) olursa kutuplaşma o kadar azalır” hipotezini tespit etmek. Sonra eldeki veride bu tip kullanıcılar kimler bakıp, harbiden ünlü olup olmadıklarını görüp ardından ünlülerle ilgili saha araştırması yapmak. Zamanı gelince bunu da anlatacağım.


Bu projedeki en büyük sıkıntı projenin amacını bildiğim ve sonunda çıkacak sonucu az buçuk kestirebildiğim halde arada nasıl ilerleyebileceğimi bilmemem. İşin başında kıza rehberlik etmek kolaydı, daha önce yaptığım şeyleri öğretiyordum. Hatta 1.5 senede tek başıma rehbersiz ıkınarak öğrendiğim şeyleri kıza bir ayda özetleyivermiştim. Kız çok şanslı. (Aradaki tek fark, ben kendimi eğitmem için 1.5 sene para aldım. Kız bir şey almadı, zorunluluktan yapıyor.) Ama şimdi benim de daha önce yapmadığım, sadece okuduğum ve çoktan aklımdan uçan kısımlara geldik. Kız da sürekli ağzımın içine bakıyor. Ve benim ofiste çalıştığı için sürekli iletişim halindeyiz. Kıza bir gün “Şunu şunu yapalım.” diyorum, not alıyor, ertesi gün “Ya da şunu şunu mu yapsak.” diyorum yine not alıyor. En sonunda “Çok şey söylüyorsun yavvv takip etmesi zor.” diye isyan ediyor haklı olarak ahaha. Bu projenin sonunda ne olacak gerçekten çok merak ediyorum. İşin kötüsü hepi topu 6 haftamız falan kaldı. 

Öğrenci Projesi: Fantastik Botlar Nelerdir ve Nerede Bulunurlar?

Bu projede buraya yazacak kadar bir ilerleme kaydemedik. 20,000 bot bulduk. Şu an botları elle sınıflandırıyoruz, adamlar profil resimlerine cinsel organ koydukları için başkasına "al şunları sınıflandır" diyemiyoruz, adımız sapığa çıkabilir.
 
Malesef proje çok zor, ben bile napabileceğimizi bilmiyorum. Hoca şu ana kadar bulduklarımı bile bilimsel olarak nitelendiriyor ama ben “Hocam internette öylesine gezerken buldum.” diyorum inatla. Analiz yapmadan bir şey yayınlamak istemiyorum ama analiz de yapamıyoruz. Nolacak bilmiyorum. Takip ettiğim konferanslardan birinde çok değil iki ay önce biri benim bulduklarıma çok yaklaşık şeyler buldu. Bir an önce kendi çalışmamı basmam lazım. Korkuyorum doktor. 

Bu projedeki gelişmeleri bir şeyler basana kadar anlatmamaya karar verdim. Bir dahaki yazıya arkadaşlar.


Ama araştırma bitince de tüm bu botları banlatma yönünde adımlar atmayı planlıyorum. İzleyin ve görün xD

Mastır Tezi: Tweetlerin Haber Değeri 

Geldik en zor projeye.

Mastır projesinde durum farklı, projeyi ben bulmadım, hoca buldu. İlk başta mantıklı geldi. Ama artık gelmiyor. 😄

Proje verilen bir tweetin haber değeri taşıyıp taşımadığını bulmak. Hocanın mantığı şu: “Twitter’da bir haberle ilgili tweetler var, haber verisi elimizde olunca bu tip tweetleri bulabiliriz. Fakat bu tweetlerin arasında haberden önce gelen tweetler var mı, illa vardır, varsa bu tweetleri analiz edelim ve bu tweetlerden bir classifier yazalım ve bu şekilde haber değeri taşıyan tweetleri bulalım. Bulduğumuz bu tweetler arasında haberlere girememiş bir tweet varsa neden giremedi araştıralım. 

Aslında bu tip projede Türkiye’de çok kolay yapılır. Ekşi sözlükte ve Twitter’da tutup da gündem olmuş sürüsüyle haber var. Yeri geliyor kadın programındaki aile Türkiye’nin gündemi oluyor. 

Ama İsviçre’ye gelince işler değişiyor. Olay yok ki İsviçre’de. Olay varsa da internette konuşacak adam yok. 

Şöyle ilerledik bu arkadaşla da:

Önce haberlerle tweetleri eşleştiren bir yöntem bulmak lazımdı. Çok komplike bir şey olmasına gerek yok dedim. Haber başlığındaki nadir kelimelerle tweet içeriğindeki kelimeleri match eden bir yöntem buldu. Tweetleri okuyup eliyle “Haberle alakalı / değil” şeklinde sınıflandırdı, sonra test etti yöntemi alakalı tweetler buluyor mu diye. Buraya kadar tamam.

Sonra bu yöntemi haberden önce gelen tweetlerde çalıştırdık ve durum felaket. Hiçbir şey bulamıyoruz. 

Tabii bazı haberlerde bu yaptığımız abes. “Stephen Hawking'in Hakk’ın rahmetine kavuşması” haberini seçmiş mesela, birader ne olacak adamın ölümünden önce biri “Üç vakte kadar Stephen Hawking ölecek” diye tweet mi girecek asdas. 

Haberleri konusuna göre filtrele, hangi konularda bunu yapabileceğimizi görelim dedim. Baktı. Lozan'ı sel almış onunla ilgili epey bir tweet var. Doğal afet içerikli haberleri düşünebiliriz. Bir de projeyi Sarı Yeleklilere odaklayabiliriz falan dedi. 

Sarı Yelekliler kısmı çok cezbediciydi ama bunun için yine oturup veriyi sınıflandırmak gerekecekti. Fakat Lozan'ı alan seller bana bir fikir verdi.

Bizim labın eski öğrencilerinden birinin tezini okumuştum. Kadın doğal afetlerle alakalı tweet toplamak için algoritmik yollarla bir anahtar kelime listesi çıkarmış. Yani artık haber kullanmamıza falan gerek yok, yapacağımız tek şey bu kelimeleri Fransızca'ya çevirmek. 

Üzerine bir de 27 bin tane doğal afet ile ilgili tweeti "Bilgi içeriyor mu içermiyor mu?" diye sınıflandırtmış para vererek. Veriyi de internete koymuş. Çok güzeeeel.

Veriye baktım. 15000 tane bilgi içeren, 7000 tane de bilgi içermeyen tweet var. Bilgi içermeyen tweet sayısı az. Ayrıca kadın 5000 tane de birbirinin tekrarı olan tweeti sınıflandırtmış. Yani ben "Yağmur yağıyor Lozan kızı camdan bakıyor." diye tweet atıyorum, kadın bunu para verdirtip sınıflandırtıyor. Sonra biri beni retweetliyor, "RT @azimli_yazar: Yağmur bla bla" kadın bunu da sınıflandırttırıyor. Böyle bir tongaya nasıl düşmüş anlamadım. 

Neyze anlaşılan bu kadarcık veriyle bir şey yapamayacağız, en azından dışarıdan veri ekleyelim dedim. Kadının çektiği veriler 2012-2015 yılları arasına aitti. Bizim okuldaki hocalardan biri bu tarihlerde atılmış tweetlerin %10'una sahip ki bu çok büyük bir rakam. (%1'i internette var anca) Adama mail attım. Cevap gelmedi. Bir ay oldu. Bir daha attım "Bak mastırcıya da lazım diye." Yine cevap yok. Öğrencisine de attım o da cevap vermedi. Haftaya gidip hocama şikayet edeceğim hepsini. Hainler.

Bu proje de böyle. İki aydır veriyle ulaşıyoruz. Analiz yapamadık adamakıllı. Artık derdim elemanın tezini kurtarmak. Yüzüme gözüme bulaştırmam umarım.

Bir de komik ama bu arkadaşın konuşma tarzı da sunum yapma tarzı da aynı geçen seneki ben. Haftada bir buluşuyoruz. Her buluşmaya bir şeyleri yarım yamalak yapmış olarak geliyor. Sunum yapıyor ama elde sunum materyali yok, anlamsız ve okuması zor tablolar falan gösteriyor. Bir suç işlemiş gibi konuşuyor. Aynı ben ahaha. Ben de çocuğu "Hımm hımmm" diye uyuyarak dinliyorum, bir an önce sadede gelsin, geçen hafta söylediğim şeylerden ne sonuç buldu onu söylesin diye sabırsızlıkla dinliyorum, ekstra yaptığı şeyleri vurgulamazsa önemsemiyorum. Şu anki ben de aynı benim hocanın geçen yılki hali ahaha. Benim hocadan farkım ise şu: çocuk sunumunu bitirdikten sonra yarım saat kadar beraber beyin fırtınası yapıyoruz. (Pek iyi yapamıyoruz, yeterli beyin bulamıyoruz.) Sonra bilgisayarın başına geçip bir dahaki hafta yapılması gerekenleri yazıyorum. Başlarda ne yazdığımı hatırlıyordum ama proje karmaşıklaştıkça unutmaya başladım, dolayısıyla toplantıdan önce bakıyorum ne konuşmuşuz diye bazen. Bir de çocuk için makale falan okuyorum.

Hoca olmak zormuş la.

************************

Bu anlattığım her şey büyük resimi görme yolundaki önemli detaylardı. Sürüsüyle önemsiz detay ve çalışmayan şeyler var. Bunları anlatmanın pek bir önemi yok, yazması sıkıcı, okuması da sıkıcı olacaktır o yüzden es geçtim. Ama önceki yazımda fazla detay vermemiştim. Bu sefer yeterli detay verdim sanıyorum. Umarım beğenmişsinizdir.